質問

私は、ランダムな Web ページの主題やトピックを見つけて、これを dbpedia などの RDF データベース内のエンティティにリンクすることに興味があります。これを行うためのツール/ライブラリはあるのか、それともこれまでにこのようなことを試みた人はいるのか、疑問に思いました。

役に立ちましたか?

解決

Web ページの主題を見つけるのがおそらく最も近いでしょう。 自動要約 (同名の Wikipedia ページを参照してください)。そのために使用されるサブタスクの 1 つは、キーフレーズ抽出 (KE) です。KE は、入力テキストから、そのテキスト項目に重要/顕著/関連する部分文字列 (フレーズ) を返します。通常、固有表現が入力テキストの主題のキーであると仮定する場合、固有表現認識 (NER) が、必要なサブタスクの 1 つとして考えられます。NER は、エンティティのタイプとともに、エンティティの名前である部分文字列を返します。

あなたの説明から、DBpedia などのナレッジ ベース (KB) へのリンクについて言及しているため、KE や NER だけではないものを探しているようです。DBpedia Spotlight というツールはまさにそれを行います。入力テキスト内のすべての DBpedia リソース、またはキーフレーズのみ、名前付きエンティティのみなどを検索するように設定できます。最終的には DBpedia にリンクしながらの作業です。それをチェックしてください: http://spotlight.dbpedia.org

他にも AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycher などのツールがあります。しかし、私の知る限り、DBpedia Spotlight は、無料のオープンソース (Apache V2) で、フレーズ認識と曖昧さ回避の動作を同様に設定できる唯一のものです。(免責事項:私は DBpedia Spotlight の共同作成者です)

他のヒント

本質的に求めているのは、固有表現認識ツールです。利用可能な無料および商用サービスが多数あります。 錬金術API, オープンカレー, ルペディア またはによって ゼマンタ. 。私の同僚の中には、 ブログに書きました について これらのサービスの体験談。

相互リンク部分には通常、次のようなフレームワークを使用します。 シルク または ライム;もうすぐ、 クラウド上のサービス連携 EC FP7 プロジェクト LATC 経由で利用可能です。免責事項:私は LATC プロジェクト コーディネーターで、Silk/LIMES は LATC コンソーシアム メンバーの製品です。

OpenLink Virtuoso はすでにこれを実現しています。 居候 OpenCalais、Alchemy、Pingar、DBPedia Spotlight 用の (RDFizer) メタ カートリッジ。つまり、ページをフィードすると、上記のサイトにエンティティを要求し、識別されたエンティティに基づいてトリプルを提供します。

(免責事項:私は知っておくべきだ。)

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top