استخراج المعلومات من ملفات Pdf من الأوراق البحثية [مغلقة]

https://stackoverflow.com/questions/1813427

06-07-2019
|

سؤال

أنا بحاجة إلى آلية استخراج البيانات الوصفية الببليوغرافية من وثائق PDF إلى إنقاذ الناس يدخلون باليد أو قص و لصق.

على الأقل العنوان و الملخص.قائمة المؤلفين وانتماءاتهم أن تكون جيدة.استخراج من المراجع ستكون مذهلة.

ومن الناحية المثالية سيكون هذا حلا مفتوحة المصدر.

المشكلة هي أن ليس كل PDF ترميز النص ، والعديد من التي تفشل في الحفاظ على ترتيب منطقي من النص ، لذا أقوم pdf2text يعطيك خط 1 من العمود 1 1 عمود 2 خط 2 عمود 1.... الخ

أنا أعلم أن هناك الكثير من المكتبات.هو تحديد مجردة ، عنوان الكتاب الخ.على وثيقة التي تحتاج إلى حل.هذا لن يكون ممكنا في كل مرة ، ولكن 80% سوف يوفر الكثير من الجهد البشري.

المحلول 2

وركضنا مسابقة لحل هذه المشكلة في Dev8D في لندن، فبراير 2010، وحصلنا على أداة صغيرة لطيفة GPL تم إنشاؤها نتيجة لذلك. ليس لدينا بعد دمجها في أنظمتنا لكنه هناك في العالم.

https://code.google.com/p/pdfssa4met/

نصائح أخرى

وأنا يسمح فقط وصلة واحدة في نشر ذلك وهذا هو: pdfinfo لينكس الصفحات اليدوية

وهذا قد يحصل على لقب والمؤلفين. نظرة على الجزء السفلي من الصفحة اليدوي، وهناك وصلة لwww.foolabs.com/xpdf حيث يمكن العثور على المصدر المفتوح للبرنامج، فضلا عن ثنائيات لمختلف المنصات.

لسحب المراجع الببليوغرافية، والنظر في cb2bib :

<اقتباس فقرة>

cb2Bib هو حرة ومفتوحة المصدر، وتطبيق المتعدد لاستخراج بسرعة غير منسق، أو unstandardized المراجع الببليوغرافية من تنبيه عبر البريد الإلكتروني، وصفحات مجلة ويب، وملفات PDF.

وأنت قد تحتاج أيضا إلى التحقق منتديات النقاش في www.zotero.org حيث تمت مناقشة هذا الموضوع.

قد يكون صبي في التبسيط ولكن غوغلينغ "ببتخ + عنوان الورقة" يحصل لك ussualy إدخال ببتخ منسقة من ACM، Citeseer، أو غيرها من المواقع تتبع مثل هذه الإشارة. طبعا ... هذا على افتراض ورقة ليست من مجلة غير الحوسبة: D

و- تحرير -

ولدي شعور أنك لن تجد حلا مخصصة لهذا، قد ترغب في الكتابة إلى بتتبع الاقتباس مثل citeseer، ACM وجوجل الباحث للحصول على أفكار لما فعلوه. هناك طن من الآخرين، وأنك قد تجد تطبيقات على عدم مغلقة المصدر ولكن ليس في النموذج المنشور. هناك طن من المواد البحثية حول هذا الموضوع.

وفريق البحث أنا جزء من نظر إلى هذه المشاكل، ونحن قد وصلنا إلى استنتاج مفاده مكتوبة بخط اليد خوارزميات استخراج أو تعلم الآلة هي طريقة للقيام بذلك. ومن ناحية خوارزميات مكتوبة هي على الأرجح أفضل رهان.

وهذا هو تماما مشكلة صعبة نظرا لكمية الاختلاف ممكن. أقترح تطبيع قوات الدفاع الشعبي إلى نص (التي تحصل عليها من أي من عشرات المكتبات PDF البرنامجية). ثم تحتاج إلى تنفيذ نص مخصص الغاء الخوارزميات.

وأود أن تبدأ الوراء من نهاية PDF وانظروا الى ما نوع من مفاتيح الاقتباس موجودة - على سبيل المثال، [1] و [من العمر المؤلف]، (سنة المؤلف) ومن ثم محاولة تحليل الجملة التالية. من المحتمل أن يكون لديك لكتابة رمز لتطبيع النص الذي تحصل عليه من مكتبة (إزالة المسافات الزائدة وكذا). وأود أن ننظر فقط لمفاتيح الاقتباس والكلمة الأولى من خط، وفقط لمدة 10 صفحة في وثيقة - يجب أن يكون الكلمة الأولى المحددات الرئيسية - على سبيل المثال، '[' أو '(' إذا كان من الممكن العثور على أي مفاتيح في. 10 صفحات ثم تجاهل PDF والعلم لأنها تدخل بشري.

وقد ترغب المكتبة التي يمكنك استشارة مزيد برمجيا لتنسيق البيانات الفوقية في الاستشهادات --e.g، itallics لها معنى خاص.

وأعتقد أنك قد ينتهي إنفاق بعض الوقت للحصول على حل العاملة، ومن ثم عملية مستمرة من ضبط وإضافة إلى إلغاء الخوارزميات / المحرك.

في هذه الحالة أنصح تيت من PDFLIB

إذا كنت بحاجة للحصول على السريع ما يمكن القيام به ، نلقي نظرة على تيت طبخ

هذا ليس حلا مفتوحة المصدر, لكنه حاليا الخيار الأفضل في رأيي.ليس منصة تعتمد ويحتوي على مجموعة غنية من اللغة الارتباطات التجارية النسخ.

سأكون سعيدا إذا كان شخص ما أشار لي إلى معادل أو أفضل بديل مفتوح المصدر.

استخراج النص يمكنك استخدام TET_xxx() وظائف الاستعلام البيانات الوصفية يمكنك استخدام pcos_xxx() المهام.

يمكنك أيضا استخدام commanline أداة لإنشاء ملف XML يحتوي على جميع المعلومات التي تحتاج إليها.

tet --tetml word file.pdf

هناك أمثلة على كيفية عملية TETML مع XSLT في تيت طبخ

ما هو مدرج في TETML?

TETML الناتج هو ترميز UTF-8 (على بيئات تشغيل zseries مع يو إس إس أو MVS:EBCDIC-UTF-8 ، انظر www.unicode.org/reports/tr16), و يتضمن المعلومات التالية:الوثيقة العامة والمعلومات الوصفية النص محتويات كل صفحة (الكلمات أو الفقرة) الصورة الرمزية المعلومات (اسم الخط والحجم الإحداثيات) هيكل المعلومات, على سبيل المثالالجداول معلومات عن وضع الصور على الصفحة معلومات الموارد ، أيالخطوط ، colorspaces و الصور رسائل الخطأ إذا حدث استثناء أثناء تجهيز PDF

ونلقي نظرة على iText . ومن مكتبة جافا سيتيح لك قراءة ملفات PDF. وكنت لا تزال تواجه مشكلة في العثور على البيانات الصحيحة، إلا أن المكتبة توفر التنسيق والمعلومات التخطيط الذي قد تكون صالحة للاستعمال لاستنتاج الغرض.

ومكتبة أخرى جافا في محاولة ستكون PDFBox . تم تصميم ملفات PDF حقا لعرضها وطباعتها، لذلك تريد بالتأكيد مكتبة للقيام ببعض من رفع الأحمال الثقيلة بالنسبة لك. وحتى مع ذلك، قد يكون لديك للقيام الإلتصاق القليل من قطع النص معا مرة أخرى للحصول على البيانات التي تريد استخراجها. حظا سعيدا!

وإلقاء نظرة على هذه الورقة البحثية - دقيق استخراج المعلومات من الأبحاث باستخدام الشرطي عشوائية الحقول

وقد ترغب في استخدام حزمة مفتوحة المصدر مثل ستانفورد NER للبدء في CRFs.

وأو ربما، قد تتمكن من محاولة استيراد لهم (الأبحاث) ل Mendeley . على ما يبدو، يجب أن استخراج المعلومات اللازمة لك.

وآمل أن يساعد هذا.

هنا هو ما أقوم به باستخدام لينكس cb2bib.

فتح cb2bib وتأكد من أن الحافظة الاتصال على هذا المرجع يتم تحميل قاعدة البيانات

العثور على الورق الخاص بك على google scholar

انقر فوق استيراد bibtex' تحت الورق

تحديد (تمييز) كل شيء على الصفحة التالية (أي. ، bibtex رمز)

يجب أن تظهر الآن مهيأ في cb2bib

اختياريا الآن اضغط على البحث في الشبكة (رمز الكرة الأرضية) لإضافة معلومات إضافية.

اضغط حفظ في cb2bib لإضافة ورقة المرجع الخاص بك قاعدة البيانات الخاصة بنا.

كرر هذا لمدة جميع الأوراق.أعتقد في غياب أسلوب موثوق المستخلصات الوصفية من ملفات Pdf هذا هو الحل الأسهل وجدت.

أوصي gscholar في تركيبة مع pdftotext.

على الرغم PDF توفر البيانات الوصفية ، فمن seldomly بالسكان مع المحتوى الصحيح.في كثير من الأحيان "لا شيء" أو "أدوبي فوتوشوب" أو غبية أخرى سلاسل بدلا من حقل العنوان ، على سبيل المثال.هذا هو السبب في أي من الأدوات المذكورة أعلاه يمكن استخلاص المعلومات الصحيحة من ملفات Pdf كما أن العنوان قد يكون في أي مكان في المستند.مثال آخر:العديد من الصحف من وقائع المؤتمر قد يكون عنوان المؤتمر أو اسم المحررين الذي يخلط التلقائي وأدوات استخراج.النتائج ثم مخطئ عندما كنت مهتما الحقيقية الكتاب من الورق.

لذا أقترح شبه التلقائي نهج إشراك الباحث العلمي من google.

تجعل PDF إلى نص ، لذلك قد استخراج:المؤلف و العنوان.

الثاني نسخ لصق بعض من هذه المعلومات و الاستعلام الباحث العلمي من google.لأتمتة هذه, توظيف بارد بيثون السيناريو gscholar.py.

حتى في الحياة الحقيقية وهذا هو ما أقوم به:

me@box> pdftotext 10.1.1.90.711.pdf - | head Computational Geometry 23 (2002) 183–194 www.elsevier.com/locate/comgeo Voronoi diagrams on the sphere ✩ Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗ a Department of Mathematics, Pohang University of Science and Technology, South Korea b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002 Communicated by J.-R. Sack me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk" @article{na2002voronoi, title={Voronoi diagrams on the sphere}, author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried}, journal={Computational Geometry}, volume={23}, number={2}, pages={183--194}, year={2002}, publisher={Elsevier} }

تحرير:كن حذرا ، قد تواجه كبتشس.عظيم آخر هو السيناريو bibfetch.

pdftk ... إنه لأمر مدهش، ويأتي في توزيع ثنائي لوين / لين / ماك وكذلك المصدر.

في الواقع، أنا تحل مشكلتي الأخرى (انظر في ملفي الشخصي، سألت ثم أجبت على السؤال قوات الدفاع الشعبي أخرى .. لا يمكن ربط بسبب 1 الحد وصلة).

ويمكن أن تفعل استخراج الشعبي الفوقية، على سبيل المثال، وهذا سيعود السطر الذي يحتوي على عنوان:

pdftk test.pdf dump_data output test.txt | grep -A 1 "InfoKey: Title" | grep "InfoValue"

ويمكن أن تفريغ العنوان، الكاتب، وزارة الدفاع، والتاريخ، وحتى العناوين وأرقام الصفحات (كان الاختبار الشعبي العناوين) ... وستكون هناك حاجة الواضح قليلا من العمل على البقرى الناتج بشكل صحيح، ولكن أعتقد أن هذا يجب أن تناسب الخاص بك يحتاج.

إذا ملفات PDF لم يكن لديك البيانات الوصفية (أي، لا "الخلاصة" الفوقية)، يمكنك القط النص باستخدام أداة مختلفة مثل Pdf2 ****، واستخدام بعض الحيل البقرى مثل أعلاه. إذا لم يتم OCR'd ملفات PDF الخاصة بك، لديك مشكلة أكبر من ذلك بكثير، وسوف مخصصة الاستعلام من قوات الدفاع الشعبي (ق) أن يكون بطيئا للغاية (أفضل لOCR).

وبغض النظر، وأنصح لك إنشاء فهرس من المستندات الخاصة بك بدلا من الاضطرار كل استعلام مسح البيانات الوصفية ملف / النص.

PyPDF قد تكون عونا. ويوفر API واسعة لقراءة وكتابة محتويات ملف PDF (مشفرة الامم المتحدة)، ولها كتب في بيثون لغة سهلة.

citeyoulike . وهو الموقع الذي يتيح لك وضع معا مكتبة من الأوراق، تعيين علامات لهم، تفتيشها، وإرفاق التعليقات. كما أنه يتيح لك إضافة زر إلى متصفح الويب الخاص بك، والذي سيحاول استخراج المعلومات التي تريد بما في ذلك مجردة تلقائيا. فإنه لا حقا الحصول على الكثير من قوات الدفاع الشعبي على الرغم من. ومع ذلك، إذا قمت بالإشارة إلى الاقتباس عن ورقة عن اكسبلورر IEEE، citeseer، أو العديد من المواقع مجلة، وهي عادة ما تكون قادرة على الحصول على كل المعلومات ببتخ.

والشيء هو أن ملفات PDF في كثير من الأحيان لم يكن لديك كل المعلومات الاقتباس لتبدأ. سيكون لديك عادة العنوان والمؤلفين، ولكن ليس بالضرورة اسم المؤتمر أو سنة النشر. فمن المنطقي أن تجد أولا الاقتباس للورقة على siteseer، مجلات، أو في مكان آخر، واستخراج المعلومات من هناك.

في عام لقد وجدت citeyoulike أن تكون مفيدة للغاية لتنظيم الأوراق. ومن المفيد أيضا للتعاون مع الآخرين. يمكنك إنشاء مجموعات وأوراق سهم، وإنشاء المنتديات وغيرها.

CERMINE - مستخرج المحتوى ومينر

وصفها في ورقة: TKACZYK، دومينيكا، وآخرون. CERMINE: استخراج التلقائي لبيانات تعريف منظم من الأدبيات العلمية. المجلة الدولية لتحليل الوثائق والاعتراف (IJDAR) ، 2015، 18.4: 317-335
.
ومكتوبة بشكل رئيسي في جاوة ومتاحة كمصدر مفتوح على جيثب .

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow