解析事務書類

https://stackoverflow.com/questions/115445

02-07-2019
|

質問

持ってき方など、さすがだなと私読むことのできる、コンテンツオフィス文書のためのカスタムクローラー).

事務所のバージョンが必要な読みは2000年から2007年.いいク語、excel、powerpointます。

ならないようにしたい検索フォーマットのテキストです。

のクローラーに基づくlucene.NET ができるのはクライアントまで、フルのc#.

って使用されてiTextSharp解析PDF

解決

このちょっとしたポストc-charpcorner によるKrishnan LNる基本的なコーヒーのテキストから資料を、Wordドキュメントという単語を使った主なInterop構成に基づいています。

原則的には個人契約の場合は、ご"を取得しますWholeStory"プロパティの資料を、Wordドキュメント、ペーストのクリップボード、ワイヤーに引っ掛けて引っ張ってからのクリップボードが変換テキスト形式です。クリップボードに一歩がここから行して設定します。

パワーポイントのみなさん、同様のものが必要ですがループを通じて、スライドは、各スライドのループを通じて、形状のなかの"TextFrame.TextRange.テキスト"の物件になります。

Excel、ExcelでOleDbデータソースでも簡単に利用ADO.NET.この良いポストによるローランBugnion 散策を。

他のヒント

だが既に使用Lucene.NET いにしたいの特長を活かした様々なIFiltersできていないと思うからです。のオープンソース SeekAFile プロジェクト.することによって初期の使用方法IFilter開抽出すこれらの情報からfiletypeがIFilterが可能です。あIFiltersのためのWord、Excel、Powerpoint、PDf、その他の一般的なドキュメントタイプ.

あのエオープンソースプロジェクト POI, だけが難点で書かれたJava.の .netポートなんとなくでもβ.

こちらのはリストの各種ツールに変換する単語の書類を平文でしています。

すものと考えップ(www.DtSearch.com).これは、主に検索ツールではジョブを抽出するテキストから多数のファイルの種類はかなり安いのでオプションのようにOracle/Stellent OutsideIn技術又はこれと同等からの自治の

まとめてプロととって欠かせないことが課題です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow