多言語OpenCalaisはシステムに似ていますか?
-
11-07-2019 - |
質問
OpenCalaisシステムには非常に感銘を受けました。テキストを送信して分析するWebサービスである(または持っている)場合、ドキュメントが属する一連の分類(RDF対応)タグが提供されます。
しかし、現時点では、サポートされている言語は英語のみです。
多言語ドキュメントを処理する同様のシステムをご存知ですか? (私はイタリア語に興味がありますが、もちろん多言語はプラスです)
解決
Apache Stanbol は、さまざまな言語のテキストを分析できます。これまでのところ、次の言語がサポートされています(精度とリコール値は言語によって異なる場合があります):
- 英語、
- 中文 (中国語)、
- Españ ol(スペイン語)、
- Русский (ロシア語)、
- ポルトガル語(ポルトガル語)、
- ドイツ語(ドイツ語)
- イタリア語(イタリア語)、
- オランダ(オランダ)、
- スベンスカ(スウェーデン語)、
- ダンスク(デンマーク語)、
- العربية (アラビア語)、
- עברית (ヘブライ語)、
- 日本語 (日本語)。
分析により、検出されたエンティティが返されます。分析の出力形式は次のとおりです。
- JSON-LD、
- RDF / XML、
- RDF / JSON、
- カメ、
- Nトリプル。
テキストのエンティティ、またはタグ付けは、システム構成に従ってさらに調整できます。理想的には、任意のカスタム語彙をシステムにプラグインできます。
デモのエンドポイントがいくつかあります:
上記のすべての言語が前述のエンドポイントでサポートされているかどうかわからない。
RedLink GmbH は、Apache Stanbolおよび関連ソフトウェアに基づいてクラウドサービスを提供します。
WordPressの WordLiftプラグインは、すべての前述の言語(現在テスト段階)。プラグインをWordPressにインストールして、投稿本文にテキストコンテンツを送信してみてください。
また、特定の Apache Stanbolメーリングリストに登録して書き込むこともできます。リクエストまたは情報。
他のヒント
OpenCalaisは、エンティティのフランス語とスペイン語の両方のメタデータタグ付けをサポートしています。エンティティのセットは、将来のリリースで拡張される予定です。 http://www.opencalais.com/documentation/calaisのオンラインドキュメントを参照してください。 -web-service-api