Unreadable text

Issue #1709 resolved
Former user created an issue

Reported by kibanov: When trying to post a link to pdf as bookmark, bibsonomy suggests to post this link as paper.

I tried to add the following link:http://www.cs.ucr.edu/~eamonn/public/SDM_How_to_do_Research_Keogh.pdf and saw unreadable text (encoding problem?) in the field in the bottom (s. Attachment).

Comments (10)

  1. Former user Account Deleted

    Commented by hks: The problem is the bibtex parser not checking semantics, see attachment. Depending on which MIME types the BibtexScraper should support (not properly defined yet) one also could solve the problem in checking the Content-Type header from the server response.

  2. Robert Jäschke

    Das ist eher nicht die relevante Stelle: der Scraper muss da prüfen, nicht der Parser.

    Wir sollten sicherstellen, dass die Scraper nur mit Text arbeiten. Dazu schlage ich folgendes vor:

    1) Die Methode WebUtils.getContentAsString() liefert nur noch einen Wert zurück, wenn die Webseite Text enthält. Dazu überprüft sie den Content-Type-Header (über erlaubte Werte sollten wir nochmal sprechen: text/html, bibtex, text, etc. - die stehen in einem statischen HashSet in den WebUtils). Enthält der Content-Type-Header kein gelistetes Format, liefert die Methode null zurück (und liest auch den InputStream nicht ein).

    2) Des weiteren führen wir eine Längenbegrenzung von 1MB (oder mehr?) ein: weiter wird nicht mehr vom InputStream gelesen. Dazu zu der Methode WebUtils.inputStreamToStringBuilder() einen Parameter maxBytes hinzufügen, nach dem die Methode abbricht.

  3. Robert Jäschke

    Au man, das sind ja Helden. :-(

    Also hilft da so richtig nur, dass wir die mal anschreiben und denen vorschlagen, einen anderen MIME-Typ zurückzuliefern.

    Alternativ könnten wir Heuristiken bauen, die nach bestimmten Zeichen im Inhalt suchen und dann den Inhalt nicht dem Scraper geben. ich habe aber keine gute idee, was man da nehmen sollte.

  4. Former user Account Deleted

    Commented by bse:

    Alternativ könnten wir Heuristiken bauen, die nach bestimmten Zeichen im Inhalt suchen [...]

    Das "file"-Kommando unter Linux erkennt, dass die Datei vom Typ "BibTeX text file" ist. Vielleicht hilft euch das weiter.

  5. Log in to comment