كيفية استخراج نص عادي من ملف Docx باستخدام دعم OOXML الجديد في Apache Poi 3.5؟

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

سؤال

في 28 سبتمبر 2009 مشروع أباتشي POI إصدار الإصدار 3.5 الذي يدعم رسميا تنسيقات OOXML التي تم تقديمها في Office 2007، مثل Docx و XLSX.

يرجى تقديم عينة رمز لاستخراج محتوى ملف DOCX في نص عادي، تجاهل أي أنماط أو تنسيق.

أنا أسأل هذا لأنني غير قادر على العثور على أي أمثلة أباتشي POI التي تغطي دعم OOXML الجديد.

هل كانت مفيدة؟

المحلول

هذا عملت بالنسبة لي. تأكد من إضافة الجرار المطلوب (ترقية XMLBeans، إلخ)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

نصائح أخرى

هذا هو أكثر عام

poitextextractor poitex = exclactorfactory.creatextronsor (in)؛

العودة poitex.getText ()؛

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top