Frage

I `d mögen den Inhalt der Office-Dokumente (für einen benutzerdefinierten Crawler) in der Lage sein zu lesen.

Die Office-Version, die lesbar sein muß, ist von 2000 bis 2007 habe ich hauptsächlich Worte werden will kriechen, Excel und Powerpoint-Dokumente.

I don `t will die Formatierung abrufen, nur den Text in ihm.

Der Crawler basiert auf lucene.NET wenn die eine Hilfe sein kann und in c #.

ich bereits verwendet iTextSharp für PDF-Parsing

War es hilfreich?

Lösung

Hier ist ein netter kleiner Beitrag auf c-charpcorner von Krishnan LN, die gibt grundlegenden Code den Text aus einem Word-Dokument mit dem Wort Primary Interop Assemblies zu greifen.

Grundsätzlich erhalten Sie die „WholeStory“ Eigenschaft aus dem Word-Dokument, fügen Sie ihn in die Zwischenablage, dann ist es aus der Zwischenablage ziehen, während sie zu konvertieren Format in Text. Der Zwischenablage Schritt wird vermutlich auf Streifen aus Formatierung getan.

Für Powerpoint, Sie tun etwas ähnliches, aber Sie müssen durch die Folien in einer Schleife, dann für jede Folie einer Schleife durch die Formen und greifen die „TextFrame.TextRange.Text“ Eigenschaft in jeder Form.

Für Excel, da Excel eine OLEDB-Datenquelle sein kann, ist es am einfachsten ADO.NET zu verwenden. Hier ist ein guten Beitrag von Laurent Bugnion rel="nofollow, die durch diese Technik geht.

Andere Tipps

Wenn Sie bereits Lucene.NET verwenden möchten Sie vielleicht nur die Vorteile der verschiedenen IFiltern nehmen bereits zur Verfügung, dies zu tun. Werfen Sie einen Blick auf die Open-Source- SeekAFile Projekt. Es zeigt Ihnen, wie einen IFilter verwenden zu öffnen und diese Informationen von jedem Dateityp zu extrahieren, wo ein IFilter verfügbar ist. Es gibt IFiltern für Word, Excel, Powerpoint, PDF, und die meisten der anderen gängigen Dokumenttypen.

Es ist ein ausgezeichneter Open-Source-Projekt POI , nur Nachteil - es ist für Java geschrieben . Die .net Port ist irgendwie sehr Beta.

Hier ist eine gute Liste der verschiedenen Werkzeuge für die Umwandlung von Word-Dokumenten in Klartext, die Sie tun kann, dann was auch immer mit.

Sie auch interessieren könnten DtSearch Check-out (www.DtSearch.com). Obwohl es in erster Linie ein Suchwerkzeug ist, es macht einen guten Job Text aus einer Vielzahl von Dateitypen zu extrahieren und ist deutlich günstiger als andere Optionen wie die Oracle / Stellent OutsideIn Technologie oder das Äquivalent von Autonomy.

Ich habe seit Jahren mit DtSearch und es unverzichtbar für diese Art von Aufgabe finden.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top