質問

OpenCalaisシステムには非常に感銘を受けました。テキストを送信して分析するWebサービスである(または持っている)場合、ドキュメントが属する一連の分類(RDF対応)タグが提供されます。

しかし、現時点では、サポートされている言語は英語のみです。

多言語ドキュメントを処理する同様のシステムをご存知ですか? (私はイタリア語に興味がありますが、もちろん多言語はプラスです)

役に立ちましたか?

解決

Apache Stanbol は、さまざまな言語のテキストを分析できます。これまでのところ、次の言語がサポートされています(精度とリコール値は言語によって異なる場合があります):

  • 英語、
  • 中文 (中国語)、
  • Españ ol(スペイン語)、
  • Русский (ロシア語)、
  • ポルトガル語(ポルトガル語)、
  • ドイツ語(ドイツ語)
  • イタリア語(イタリア語)
  • オランダ(オランダ)、
  • スベンスカ(スウェーデン語)、
  • ダンスク(デンマーク語)、
  • العربية (アラビア語)、
  • עברית (ヘブライ語)、
  • 日本語 (日本語)。

分析により、検出されたエンティティが返されます。分析の出力形式は次のとおりです。

  • JSON-LD、
  • RDF / XML、
  • RDF / JSON、
  • カメ、
  • Nトリプル。

テキストのエンティティ、またはタグ付けは、システム構成に従ってさらに調整できます。理想的には、任意のカスタム語彙をシステムにプラグインできます。

デモのエンドポイントがいくつかあります:

上記のすべての言語が前述のエンドポイントでサポートされているかどうかわからない。

RedLink GmbH は、Apache Stanbolおよび関連ソフトウェアに基づいてクラウドサービスを提供します。

WordPressの WordLiftプラグインは、すべての前述の言語(現在テスト段階)。プラグインをWordPressにインストールして、投稿本文にテキストコンテンツを送信してみてください。

また、特定の Apache Stanbolメーリングリストに登録して書き込むこともできます。リクエストまたは情報。

他のヒント

OpenCalaisは、エンティティのフランス語とスペイン語の両方のメタデータタグ付けをサポートしています。エンティティのセットは、将来のリリースで拡張される予定です。 http://www.opencalais.com/documentation/calaisのオンラインドキュメントを参照してください。 -web-service-api

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top