我印象非常深刻的OpenCalais系统。它的(是/有)一个网服务发送文本,它们进行分析,然后您提供了一系列的分类(卢旺达国防军启用)标签你的文件。

但是,在目前的英语是唯一支持的语言。

你知道的类似的系统,处理多语言的文件吗?(我感兴趣n意大利,但多语言是另外,当然)

有帮助吗?

解决方案

Apache Stanbol 可以分析的案文在许多不同的语言。迄今为止的支持以下语言(精确度和召回值可以根据不同的语言):

  • 英语,
  • 文(中文),
  • 西班牙语(西班牙),
  • Русский(俄罗斯),
  • 葡萄牙语(葡萄牙),
  • 德语(德国),
  • 意大利(意大利),
  • 荷兰(荷兰),
  • 瑞典(瑞典),
  • 丹麦语(丹麦),
  • 意义(阿拉伯),
  • עברית(希伯来文),
  • 日本语(日本).

该分析将返回所发现的实体。分析输出格式可以是:

  • 星LD,
  • 卢旺达国防军/XML,
  • 卢旺达国防军/式,
  • 海龟
  • N-三倍。

实体,或者标记的文本可以进一步制根据本系统的配置。理想情况下任何定义的词汇可以插入该系统。

有几个演示的终点:

不知道是否是上述所有语言中支持前面提到的终点。

RedLink GmbH 是要提供服务的基础上Apache Stanbol和相关的软件。

WordLift插件 WordPress已经提供的文本分析的内新建了 所有上述语言 (目前正在测试阶段)。你可以试一下安装的插在主提交的文本内容在后身体。

你也可以订阅写的 Apache Stanbol的邮件列表 对于具体要求,或者信息。

其他提示

OpenCalais支持标记功能实体法语和西班牙语的元数据。该组实体将在未来的版本中得到扩展。请参阅我们的在线文档在 http://www.opencalais.com/documentation/calais -web服务的API

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top