Extrahieren von Informationen aus PDF-Dateien von Forschungsarbeiten [geschlossen]

https://stackoverflow.com/questions/1813427

06-07-2019
|

Frage

Ich brauche einen Mechanismus für bibliographische Metadaten aus PDF-Dokumenten extrahieren, die Menschen es mit der Hand oder Ausschneiden und Einfügen Eingabe zu speichern.

Am allerwenigsten, den Titel und Abstract. Die Liste der Autoren und ihre Zugehörigkeiten wäre gut. Extrahieren der Referenzen aus wäre erstaunlich.

Im Idealfall würde dies eine Open-Source-Lösung.

Das Problem ist, dass nicht all kodieren PDF-Text, und viele, die es nicht die logische Reihenfolge des Textes zu bewahren, so einfach tun pdf2text geben Sie die Linie 1 der Spalte 1, Zeile 1 der Spalte 2, Zeile 2 der Spalte 1 etc.

Ich weiß, dass viele Bibliotheken gibt. Es ist die Identifizierung der abstrakten, Titel Autoren etc. auf dem Dokument, das ich lösen müssen. Dies wird nie jedes Mal möglich sein werde, aber 80% würde eine Menge menschlicher Anstrengung speichern.

Lösung 2

Wir liefen einen Wettbewerb dieses Problem bei Dev8D in London zu lösen, Feb 2010, und wir haben ein nettes kleines GPL Werkzeug als Ergebnis erstellt. Wir haben noch nicht integriert es in unsere Systeme, aber es ist es auf der Welt.

https://code.google.com/p/pdfssa4met/

Andere Tipps

Ich bin erlaubt nur eine Verbindung pro Posting so das ist es: pdfinfo Linux Handbuch Seite

Dies könnte den Titel und Autoren erhalten. Schauen Sie unten auf der man-Seite, und es gibt einen Link zu www.foolabs.com/xpdf wo die Open-Source für das Programm zu finden ist, sowie Binärdateien für verschiedene Plattformen.

Literaturhinweise ziehen Sie, schauen Sie sich cb2Bib :

cb2Bib ist ein freies, Open-Source-und Multi-Plattform-Anwendung zur schnellen Extraktion unformatierte oder nicht standardisierte bibliographische Referenzen aus E-Mail-Benachrichtigungen, Journal Webseiten und PDF-Dateien.

Sie können auch die Diskussionsforen auf www.zotero.org überprüfen möchten, wo dieses Thema diskutiert wurde.

Könnte ein bisschen simpel, aber „bibtex + Papier Titel“ ussualy bekommt man einen formated bibtex Eintrag aus der ACM, Citeseer oder anderen derartigen Referenznachführmerkmal Websites googeln. Natuerlich ist dies das Papier unter der Annahme, nicht aus einem nicht-Computing Journal: D

- EDIT -

Ich habe das Gefühl, Sie werden nicht eine individuelle Lösung finden müssen, möchten Sie vielleicht Zitat-Tracker wie citeseer, ACM und Google Scholar zu bekommen Ideen für das, was sie getan haben, schreiben. Es gibt Unmengen an andere und Sie könnten ihre Implementierungen sind nicht geschlossen Quelle, aber nicht in einer veröffentlichten Form finden. Es gibt Unmengen von Forschungsmaterial zu diesem Thema.

Das Forschungsteam Ich bin Teil auf solchen Problemen geschaut hat, und wir sind zu dem Schluss gekommen, dass Extraktionsalgorithmen oder maschinelles Lernen handschriftlich ausgefüllt sind die Art und Weise, es zu tun. Handgeschriebene Algorithmen sind wahrscheinlich die beste Wahl.

Dies ist ein ziemlich schwieriges Problem aufgrund der Menge der Variation möglich. Ich schlage vor, die Normalisierung der die PDF in Text (die Sie aus einem der Dutzenden von programmatischen PDF-Bibliotheken erhalten). Sie müssen dann benutzerdefinierten Text Verschrottung Algorithmen implementieren.

Ich würde beginnen rückwärts vom Ende der PDF und sehe, welche Art von Zitat Schlüsseln vorhanden ist - beispielsweise [1], [Autor-Jahr], (Autor-Jahr) und dann versuchen, den Satz folgenden zu analysieren. Sie werden wahrscheinlich Code schreiben müssen Sie den Text aus einer Bibliothek erhalten zu normalisieren (zusätzliche Leerzeichen zu entfernen und so weiter). Ich würde nur für citation Tasten als das erste Wort einer Zeile suchen, und nur für 10 Seiten pro Dokument - das erste Wort muss Schlüssel Trennzeichen hat - zB ‚[‘ oder ‚(‘ Wenn keine Tasten können gefunden werden. 10 Seiten, dann ignorieren sie die PDF und Flagge für menschliches Eingreifen.

Sie können eine Bibliothek wollen, dass Sie weiter für die Formatierung von Meta-Daten programmatisch konsultieren kann innerhalb von Zitaten --e.g., Itallics eine besondere Bedeutung haben.

Ich glaube, Sie könnten die Ausgaben bis einige Zeit am Ende eine funktionierende Lösung zu bekommen, und dann einem kontinuierlichen Prozess der Abstimmung und zur Ergänzung der Verschrottung Algorithmen / Motor.

In diesem Fall würde ich TET von PDFLIB

Wenn Sie ein schnelles Gefühl dafür bekommen müssen, was sie tun können, werfen Sie einen Blick auf dem TET-Kochbuch

Dies ist keine Open-Source-Lösung, aber es ist derzeit die beste Option, meiner Meinung nach. Es ist nicht plattformabhängig und hat einen umfangreichen Satz von Sprachbindungen und kommerzielle Unterstützung.

Ich würde mich freuen, wenn mir jemand gleichwertige oder bessere Open-Source-Alternative zu einem spitz.

Um Text extrahieren Sie die TET_xxx() Funktionen verwenden würden und Metadaten abfragen Sie die pcos_xxx() Funktionen verwenden können.

Sie können auch das commanline-Tool verwenden, um eine XML-Datei enthält alle Informationen, die Sie benötigen.

zu erzeugen,

tet --tetml word file.pdf

Es gibt Beispiele dafür, wie verarbeiten TETML mit XSLT in dem TET-Kochbuch

Was in TETML enthalten?

TETML Ausgang wird in UTF-8 (auf zSeries- mit USS codiert oder MVS: EBCDIC-UTF-8, siehe www.unicode.org/reports/tr16) und enthält die folgenden Informationen: allgemeine Dokumentinformationen und Metadaten Textinhalte von jeder Seite (Wörter oder Absatz) Glyphe Informationen (Schriftart, Größe, Koordinaten) Strukturinformation, z.B. Tabellen Informationen über platzierte Bilder auf der Seite Ressourceninformationen, das heißt Schriftarten, Farbräume und Bilder Fehlermeldungen, wenn eine Ausnahme während der PDF-Verarbeitung aufgetreten

Hier finden Sie aktuelle iText . Es ist eine Java-Bibliothek, die Sie PDFs lesen lassen. Sie werden nach wie vor das Problem, stellen die richtigen Daten zu finden, aber die Bibliothek Formatierungs- und Layoutinformationen bereitzustellen, die verwendbar sein könnte Zweck geschlossen werden.

Eine andere Java-Bibliothek, um zu versuchen wäre PDFBox . PDFs sind wirklich eingesehen und ausgedruckt gestaltet, so dass Sie auf jeden Fall eine Bibliothek für Sie einige der schweres Heben zu tun. Trotzdem könnten Sie wieder ein wenig zusammen Kleben von Textstücken zu tun haben, um die Daten, die Sie extrahiert erhalten möchten. Viel Glück!

Haben Sie einen Blick auf diese Forschungsarbeit - Genaue Information Extraction von Research Papers mit Conditional Random Field

Sie können eine Open-Source-Paket wie Stanford NER verwenden möchten begann am Prüfbogen zu erhalten.

Oder vielleicht könnten Sie versuchen, sie (die Forschungspapiere) importieren zu Mendeley . Offenbar soll es die notwendigen Informationen für Sie extrahiert.

Hope, das hilft.

Hier ist, was ich Linux Sie verwenden und cb2Bib .

Öffnen Sie cb2Bib und stellen Sie sicher, dass die Zwischenablage Verbindung eingeschaltet ist, und dass Ihre Referenzdatenbank geladen
Finden Sie Ihr Papier auf Google scholar
Klicken Sie auf 'Import BIBTEX' unter dem Papier
Wählen (markieren) alles auf der nächsten Seite (dh., Der bibtex-Code)
Es sollte nun erscheinen formatiert in cb2Bib
Optional jetzt drückt Netzwerk suchen (das Globus-Symbol) zusätzliche Informationen hinzuzufügen.
Drücken Sie in cb2Bib speichern Sie das Papier auf Ihre ref Datenbank hinzuzufügen.

Wiederholen Sie diesen Vorgang für alle Papiere. Ich denke, in Ermangelung eines Verfahrens, das zuverlässig Metadaten aus PDF-Dateien extrahiert, ist dies die einfachste Lösung, die ich gefunden.

Ich empfehle gscholar in Kombination mit pdftotext .

Obwohl PDF Meta-Daten liefert, wird es selten mit korrektem Inhalt gefüllt. Oft „None“ oder „Adobe-Photoshop“ oder andere stumm Strings sind inplace des Titelfeldes, zum Beispiel. Deshalb ist keine der oben genannten Werkzeuge könnte richtige Informationen aus PDF-Dateien ableiten, wie der Titel in dem Dokument überall sein könnte. Ein weiteres Beispiel: viele Papiere der Konferenz Verfahren könnte auch den Titel der Konferenz haben, oder den Namen der Redakteure, die automatische Extraktion Tools verwechselt. Die Ergebnisse sind dann völlig falsch, wenn Sie Interesse an den wirklichen Autoren des Papiers sind.

So schlage ich vor, einen halbautomatischen Ansatz, der Google Scholar.

Rendern Sie das PDF zu Text, so dass Sie möglicherweise extrahieren: Autor und Titel
Zweite Kopie einen Teil dieser Informationen und Abfrage Google Scholar einfügen. Um dies zu automatisieren, verwende ich den kühlen Python-Skript gscholar.py.

So im wirklichen Leben ist das, was ich tue:

me@box> pdftotext 10.1.1.90.711.pdf - | head
Computational Geometry 23 (2002) 183–194
www.elsevier.com/locate/comgeo

Voronoi diagrams on the sphere ✩
Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗
a Department of Mathematics, Pohang University of Science and Technology, South Korea
b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands

Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002
Communicated by J.-R. Sack
me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk" 
@article{na2002voronoi,
  title={Voronoi diagrams on the sphere},
  author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried},
  journal={Computational Geometry},
  volume={23},
  number={2},
  pages={183--194},
  year={2002},
  publisher={Elsevier}
}

EDIT: Seien Sie vorsichtig, Sie könnten Captchas begegnen. Ein weiteres großartiges Skript ist bibfetch .

Just gefunden pdftk ... es ist erstaunlich, kommt in einer Binärdistribution für Win / Lin / Mac als auch als Quelle aus.

In der Tat, löste ich mein anderes Problem (auf meinem Profil schauen, fragte ich beantworten dann eine andere pdf Frage .. kann wegen 1-Begrenzung nicht verlinken).

Es kann zum Beispiel PDF-Metadaten-Extraktion, tun, das wird die Zeile mit dem Titel zurück:

 pdftk test.pdf dump_data output test.txt | grep -A 1 "InfoKey: Title" | grep "InfoValue"

Es kann Dump Titel, Autor, mod-date und sogar Lesezeichen und Seitenzahlen (Test pdf Lesezeichen hatte) ... offensichtlich ein bisschen Arbeit wird benötigt, um richtig die Ausgabe grep, aber ich denke, das Ihr passen sollte muss.

Wenn Sie Ihre PDF-Dateien haben keine Metadaten (dh keine „Zusammenfassung“ Metadaten) können Sie Katze den Text ein anderes Werkzeug wie pdf2text verwenden, und einige grep Tricks wie oben verwenden. Wenn Ihre PDF-Dateien nicht OCR sind, haben Sie ein viel größeres Problem, und Ad-hoc-Abfragen des pdf (n) wird sehr langsam (am besten OCR).

Egal, ich würde Ihnen empfehlen, einen Index Ihrer Dokumente zu bauen stattdessen jede Abfrage, die die Datei-Metadaten / Text scannen.

PyPDF könnte hilfreich sein. Es bietet umfangreiche API für das Lesen und Schreiben der Inhalt einer PDF-Datei (unverschlüsselt) und seine in einer einfachen Sprache Python geschrieben.

Versuchen Sie citeyoulike . Es ist eine Website, die Sie zusammen eine Bibliothek von Papieren, weisen Tags zu ihnen suchen, um sie, und fügen Sie Kommentare können. Außerdem können Sie auf eine Schaltfläche, um Ihre Web-Browser hinzufügen, die automatisch versuchen würde, die Informationen, die Sie einschließlich der Zusammenfassung extrahieren möchten. Es ist nicht wirklich viel bekommen von einem obwohl pdf. wenn Sie es zu einem Zitat für ein Papier auf IEEE-Explorer, citeseer oder vielen Zeitschrift Websites weisen jedoch darauf, es ist in der Regel der Lage, all bibtex Informationen zu erhalten.

Die Sache ist, dass PDF-Dateien haben oft nicht alle Zitatinformationen zu beginnen. Normalerweise würden Sie den Titel haben und die Autoren, aber nicht unbedingt den Namen der Konferenz oder das Jahr der Veröffentlichung. Es macht Sinn, zuerst ein Zitat für das Papier auf siteseer, PubMed, oder an einem anderen Ort zu finden, und extrahieren Sie die Informationen von dort aus.

In der Regel habe ich citeyoulike gefunden für die Organisation Papiere äußerst nützlich zu sein. Es ist auch nützlich, um mit anderen Menschen zusammen. Sie können Gruppen erstellen, teilen Papiere, einrichten Foren, etc.

CERMINE - Inhalt Extractor und MINER

in der Veröffentlichung: Tkaczyk, Dominika, et al. CERMINE: automatische Extraktion von Metadaten aus strukturiertem wissenschaftlicher Literatur. International Journal on Document Analysis and Recognition (IJDAR) , 2015, 18,4: 317-335

Vor allem als Open Source in Java und verfügbar geschrieben unter Github .

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow