Webページの主題を見つける
-
26-10-2019 - |
質問
私は、ランダムな Web ページの主題やトピックを見つけて、これを dbpedia などの RDF データベース内のエンティティにリンクすることに興味があります。これを行うためのツール/ライブラリはあるのか、それともこれまでにこのようなことを試みた人はいるのか、疑問に思いました。
解決
Web ページの主題を見つけるのがおそらく最も近いでしょう。 自動要約 (同名の Wikipedia ページを参照してください)。そのために使用されるサブタスクの 1 つは、キーフレーズ抽出 (KE) です。KE は、入力テキストから、そのテキスト項目に重要/顕著/関連する部分文字列 (フレーズ) を返します。通常、固有表現が入力テキストの主題のキーであると仮定する場合、固有表現認識 (NER) が、必要なサブタスクの 1 つとして考えられます。NER は、エンティティのタイプとともに、エンティティの名前である部分文字列を返します。
あなたの説明から、DBpedia などのナレッジ ベース (KB) へのリンクについて言及しているため、KE や NER だけではないものを探しているようです。DBpedia Spotlight というツールはまさにそれを行います。入力テキスト内のすべての DBpedia リソース、またはキーフレーズのみ、名前付きエンティティのみなどを検索するように設定できます。最終的には DBpedia にリンクしながらの作業です。それをチェックしてください: http://spotlight.dbpedia.org
他にも AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycher などのツールがあります。しかし、私の知る限り、DBpedia Spotlight は、無料のオープンソース (Apache V2) で、フレーズ認識と曖昧さ回避の動作を同様に設定できる唯一のものです。(免責事項:私は DBpedia Spotlight の共同作成者です)
他のヒント
OpenLink Virtuoso はすでにこれを実現しています。 居候 OpenCalais、Alchemy、Pingar、DBPedia Spotlight 用の (RDFizer) メタ カートリッジ。つまり、ページをフィードすると、上記のサイトにエンティティを要求し、識別されたエンティティに基づいてトリプルを提供します。
(免責事項:私は知っておくべきだ。)