Frage

Ich suche Wort Alignment-Tools und Algorithmen.
Ich beschäftige mich mit zweisprachig Englisch - Hindi Text und arbeitet derzeit an

Könnten Sie bitte andere Algorithmus / Werkzeug vorzuschlagen, die sprachunabhängig ist und die erreichen könnte Statistische Wortausrichtung für parallel Englisch Hindi Corpora und deren Auswertung .
Einige Tools sind am besten für bestimmte Sprachen; könnten Sie mir bitte sagen, wie wahr das ist und, wenn ja, könnten Sie bitte ein Beispiel für das, was für asiatische Sprachen wie Hindi besser geeignet wäre. Gegenbeispiele von dem, was soll ich nicht verwenden für diese Sprachen ist auch willkommen.

Ich habe ein bisschen über Uplug Wort Ausrichter ... Könnte mir jemand sagen, ob dieses Tool für meine Zwecke geeignet ist.

Danke ..:)

War es hilfreich?

Lösung

Berkeley Aligner ist sehr gut. Dadurch gemeinsame Ausbildung der IBM Wortausrichtung Modelle, es ist in der Lage eine viel geringere Ausrichtung Fehlerrate (AER) als ältere Pakete wie GIZA ++ zu bekommen.

Es unterstützt auch einige erweiterte Funktionen wie syntaktische Verzerrung (das heißt unter Verwendung von Parse-Baum Informationen zu einem besseren Ausrichtungen zu erhalten). Dazu müssen Sie nur Bäume analysieren für eine der Sprachpaare. Also, sollten Sie in Ordnung sein tun Hindi <->. Englisch, da gibt es viele frei verfügbar und gut Englisch Parser

Wenn Sie sich entscheiden, nicht mit dem Berkeley Aligner zu gehen, sollten Sie wahrscheinlich verwenden nur GIZA ++. Seit Jahren ist es im Wesentlichen der Standard Wort Ausrichter in der maschinellen Übersetzung Gemeinschaft.

Andere Tipps

Uplug ist ein großes Werkzeug, ich benutze es für die Ausrichtung Englisch <-> Mazedonisch Texte. Es baut im Wesentlichen auf dem Giza ++, indem die so genannten Anhaltspunkt Ausrichtungen. Es ist erweiterte Einstellung kombiniert tatsächlich die die clue Ausrichtungen und Giza ++ und führt drei solcher Iterationen. Je mehr Hinweise (pos-Tags, Lemmata ...) bieten Ihnen besser die Ergebnisse sein. Aber ich habe zu erwähnen, dass Sie sollten nicht grundsätzlich andere Ergebnisse zu erhalten erwarten dann von nur Giza ++ verwenden.

Wie auch immer, wenn Sie ernsthaft planen, das Thema von SMT zu studieren, schlage ich vor, dass Sie das Papier (Doktorarbeit) über Uplug lesen, wird es für Sie sehr vorteilhaft sein.

Moses ist eine statistische maschinelle Übersetzung Suite Sie auf einen Blick nehmen möchten. Seine Wortausrichtungskomponente wird auf GIZA gebaut ++ aber optimiert werden kann besser mit bestimmten Sprachpaaren als reine GIZA ++ zu arbeiten. Ihre Mailing-Liste und die Ressourcen, die Sie auf http://www.statmt.org/ kann auch sein, zu einem besseren Ort Fragen als SO zu diesem Thema zu stellen. Eine Sache, die Sie nicht über etwas zu sagen haben, aber den ich halte noch problematischer ist, wo einen parallelen Korpus Hindi bekommen <-> Englisch.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top