パッケージ形式からインデックス/抽出ファイルへのSolr CELLのExtractingRequestHandlerを使用して

StackOverflow https://stackoverflow.com/questions/4017200

質問

あなたはExtractingRequestHandlerとティカのいずれかを使用できます 圧縮されたファイル形式(ZIP、タール、GZ、など)インデックスのコンテンツを抽出するには?

私はカールを使用してarchived.tarファイルSOLR送ります。カール " ます。http:// localhostを:8983 / Solrの/更新/エキス?literal.id = DOC1&fmap.content = body_texts&コミット=真を」 -H 'コンテンツタイプ:アプリケーション/ octet-streamと' --data-バイナリ "@ /ホーム/ archived.tar" 私は、文書照会すると、私が得る結果は、内部に、そのファイル名であります アーカイブは「body_texts」としてインデックス付けされているが、これらのファイルの内容は、 抽出されたか含まれておりません。これは私が期待される動作ではありません。参考: のhttp:// WWW .lucidimagination.com /コミュニティ/聞く-から--専門家/記事/コンテンツ抽出-ティカ#article.tika.example に。 私は同じカールを使用してアーカイブ内の実際の文書の1を送信すると 抽出されたコンテンツは、その後、「body_texts」フィールドに格納されるコマンド。アム 私は、圧縮されたファイルのためのステップを逃す?

にマットによって示されるように、

私はすべての抽出の依存関係を追加しました http://outoftime.lighthouseapp.com/projects/20339/tickets/98 -solr細胞と 成功したMSワード、PDF、HTML文書からデータを抽出することができています。

私は、次のライブラリのバージョンを使用しています。   ティカコア0.4

とのSolr 1.40、Solrのセル1.4.1、

私はティカのこのバージョンを読んだことがあるすべてのものを考えるには、抽出支援すべきです 圧縮ファイル内のすべてのファイルからのデータ。すべてのヘルプや提案だろう 理解されます。

役に立ちましたか?

解決

短い答え:Solrのセル1.4.1およびティカコア0.6

長い答え:頭痛の多くの後、私はこの作業を取得することができました。私はSolrの直接使用して、両方の人々のためにと(私の問題だった)Rubyのライブラリの黒点でのSolrを使用している人々のためにそれをお答えします。

ここで私がやったことだった。私が使用この https://github.com/tomasc/sunspot_cellする黒点を拡張し、それを添付機能を提供するプラグイン。

(あなたはルビー/黒点を使用していない場合は、この手順を無視します) 私は少しを探求しなければならなかったので、

V1.4.1は、圧縮されたファイルで、個々のファイルに対して動作しますが、ありません。私は http://lucene.apache.org/solr/するからV1.4.1のコードベースをダウンロードしてつかんDIST / apacheの-Solrの細胞-1.4.1.jar私は、Aのhref = "http://svn.apache.org/viewvc/lucene/solr/branches/ <1.5ブランチからティカライブラリをプルダウンしなければなりませんでしたブランチ-1.5-devの/ contribの/抽出/ libに/」のrel = "nofollowを"> http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ 。

あなたは個別にダウンロードすることができ、またはあなたが

でブランチをチェックアウトするためにSVNを使用することができます
svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

それとも、ライブラリフォルダをチェックアウトします:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top