Unreadable text
Reported by kibanov: When trying to post a link to pdf as bookmark, bibsonomy suggests to post this link as paper.
I tried to add the following link:http://www.cs.ucr.edu/~eamonn/public/SDM_How_to_do_Research_Keogh.pdf and saw unreadable text (encoding problem?) in the field in the bottom (s. Attachment).
Comments (10)
-
-
Hagen, could you please have a look at the problem and propose a solution? Thanks!
-
Account Deleted Commented by hks: The problem is the bibtex parser not checking semantics, see attachment. Depending on which MIME types the BibtexScraper should support (not properly defined yet) one also could solve the problem in checking the Content-Type header from the server response.
-
Das ist eher nicht die relevante Stelle: der Scraper muss da prüfen, nicht der Parser.
Wir sollten sicherstellen, dass die Scraper nur mit Text arbeiten. Dazu schlage ich folgendes vor:
1) Die Methode WebUtils.getContentAsString() liefert nur noch einen Wert zurück, wenn die Webseite Text enthält. Dazu überprüft sie den Content-Type-Header (über erlaubte Werte sollten wir nochmal sprechen: text/html, bibtex, text, etc. - die stehen in einem statischen HashSet in den WebUtils). Enthält der Content-Type-Header kein gelistetes Format, liefert die Methode null zurück (und liest auch den InputStream nicht ein).
2) Des weiteren führen wir eine Längenbegrenzung von 1MB (oder mehr?) ein: weiter wird nicht mehr vom InputStream gelesen. Dazu zu der Methode WebUtils.inputStreamToStringBuilder() einen Parameter maxBytes hinzufügen, nach dem die Methode abbricht.
-
Account Deleted Commented by hks: Zu (1): Für die URL http://www.fasebj.org/citmgr?type=bibtex&gca=fasebj;fj.12-211441 kommt ein BibTeX als application/octet-stream deklariert zurück, was letztendlich für alles verwendet werden kann, was nicht registriert ist. Ich weiß nicht ob man das zulassen sollte, bzw. ob man dann mit dem Test etwas gewonnen hat.
Zu (2): Ist schon vorhanden gewesen.
-
Au man, das sind ja Helden. :-(
Also hilft da so richtig nur, dass wir die mal anschreiben und denen vorschlagen, einen anderen MIME-Typ zurückzuliefern.
Alternativ könnten wir Heuristiken bauen, die nach bestimmten Zeichen im Inhalt suchen und dann den Inhalt nicht dem Scraper geben. ich habe aber keine gute idee, was man da nehmen sollte.
-
Account Deleted Commented by bse:
Alternativ könnten wir Heuristiken bauen, die nach bestimmten Zeichen im Inhalt suchen [...]
Das "file"-Kommando unter Linux erkennt, dass die Datei vom Typ "BibTeX text file" ist. Vielleicht hilft euch das weiter.
-
- changed component to scraper
-
assigned issue to
- edited description
-
- changed status to open
-
- changed status to resolved
seems to be fixed
- Log in to comment
explanation:
http://scraper.bibsonomy.org/service?url=http%3A%2F%2Fwww.cs.ucr.edu%2F~eamonn%2Fpublic%2FSDM_How_to_do_Research_Keogh.pdf&selection=+
the BibTeX scraper detects some symbols that let it assume it is BibTeX.
solution: make BibTeX scraper more strict (e.g., using MIME magic library or regex on URL).