كيف يمكنني أن عدد الكلمات في الوثائق المعقدة (.rtf, .doc،.odt ، إلخ) ؟

StackOverflow https://stackoverflow.com/questions/2256881

سؤال

أنا أحاول أن أكتب وظيفة بيثون أنه بالنظر إلى المسار إلى ملف المستند ، إرجاع عدد الكلمات في المستند.هذا هو السهل القيام به مع .ملفات txt و هناك الأدوات التي تسمح لي هاك دعم بعض أكثر تعقيدا تنسيقات المستندات معا ، ولكن أريد حقا حل شامل.

تبحث في OpenOffice.org's py-أونو البرمجة واجهة قائمة التنسيقات يبدو مثالية لتحميل الوثائق في مقطوعة الرأس OOo والدعوة لها كلمة وظيفة العد.ومع ذلك, لا أستطيع العثور على أي py-أونو الدروس أو نموذج التعليمات البرمجية التي تتجاوز الوثيقة الأساسية الجيل حتى التعليمات البرمجية المتكررة وجدت قديمة قبل نصف عقد من الزمن و لم تعد تعمل.

سواء باستخدام OOo و أونو أو لا, كيف يمكنني الحصول على موثوقية كلمة التهم على وثائق من مختلف الأشكال?

هل كانت مفيدة؟

المحلول

تحميل الوثائق في مقطوعة الرأس OOo و الاتصال كلمة وظيفة العد

PyODConverter هي الأخيرة (11-2009) سيناريو استخدام OOo تحويل العديد من أنواع الملفات.تبحث في البرنامج النصي الأساسية التحميل من جميع OOo دعم الوثائق.

هذا كيف يمكنك بدء OOo كما مقطوعة الرأس الخدمة:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

ثم لديك فقط لكتابة صغيرة الإطلاق أن يدعو OOo على فلكس, يعمل البرنامج النصي الخاص بك ، ثم يغلق OOo.


نصائح أخرى

وهذا يمكن أن يكون لا خيار لك، ولكن في الحالة هو - يمكنك تحميل المستندات إلى محرر مستندات جوجل ومن ثم تصدير في شكل. TXT. جوجل عادة لا وظيفة لطيفة جدا للتحويل.

ويمكنك أن تجد واجهات برمجة التطبيقات ذات الصلة هنا: HTTP: //code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

ونلقي نظرة على تسجيل الدخول، تحميل وأقسام تصدير.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top