Frage

Ich war sehr beeindruckt von dem OpenCalais System. Es ist (ist / hat) ein Web-Service, wo Sie Ihren Text senden, sie zu analysieren, dann werden Sie mit einer Reihe von kategorisierten bereitgestellt (RDF aktiviert) Tags, die Ihr Dokument gehört.

Aber - im Moment -. Englisch ist die einzige unterstützte Sprache

Kennen Sie ähnliche Systeme, die mehrere Sprachen Dokumente handhaben? (Ich bin interessiert n Italienisch, aber multi Sprache ist ein Plus, natürlich)

War es hilfreich?

Lösung

Apache Stanbol können Texte in vielen verschiedenen Sprachen analysieren. Bisher wurden folgende Sprachen unterstützt (Precision und Recall-Werte entsprechend der Sprache variieren kann):

  • Englisch,
  • 中文 (Chinese),
  • Español (Spanisch),
  • Русский (Russisch),
  • Português (Portugiesisch),
  • Deutsch (German),
  • Italiano (Italienisch) ,
  • Nederlands (Dutch),
  • Svenska (Schwedisch),
  • Dansk (Dänisch),
  • العربية (Arabisch),
  • עברית (Hebräisch),
  • 日本語 (Japanisch).

Die Analyse wird die entdeckten Einheiten zurück. Die Analyse Ausgabeformat kann sein:

  • JSON-LD,
  • RDF / XML,
  • RDF / JSON,
  • Schildkröten,
  • N-Triples.

Entities oder Tagging von Texten können weiter nach der Systemkonfiguration angepasst werden. Im Idealfall kann eine beliebige benutzerdefinierte Vokabular in das System gesteckt werden.

Es gibt ein paar Demo-Endpunkte:

Nicht sicher, ob alle oben genannten Sprachen in den zuvor genannten Endpunkte unterstützt werden.

RedLink GmbH wird Cloud-Service auf Basis von Apache Stanbol und zugehöriger Software.

Die Word Plugin für Wordpress bietet bereits Textanalyse innerhalb Wordpress für alle oben genannte Sprachen (derzeit in Testphase). Sie können es versuchen, die Plug-in in Wordpress Installation und Einreichen Textinhalte im Post Körper.

Sie können auch auf die Stanbol Mailingliste Apache für spezifische abonnieren und schreiben Anfragen oder Informationen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top