Frage

wird der Levenshtein Abstand Algorithmus arbeiten gut für nicht-englische Sprache Strings auch?

Aktualisieren : Würde diese Arbeit automatisch in einer Sprache wie Java, wenn asiatische Schriftzeichen Vergleich

War es hilfreich?

Lösung

Nur wenn Sprache Brief basiert. Zum Beispiel Russisch, Deutsch, ... aber Hieroglyphe (China zum Beispiel) oder Silbe (wie Laos) - nicht.

Andere Tipps

Ja. Aber Sie müssen das nicht-Englisch-Zeichen als „1 Zeichen“, nicht als mehrere Zeichen (zum Beispiel mit utf-8) behandeln. Zum Beispiel in Python würden Sie die Unicode-Klasse verwenden, um die Zeichenfolge (und Zeichen) darstellen.

Levenshtein schert sich nicht um Sprachen, es sagt Ihnen, wie viele Zeichen geändert werden müssen (hinzugefügt, entfernt, ausgetauscht) von einer Saite zur anderen zu gelangen.

Also:. Ja, aber du wirst mein Ihre charset, einige ausländischen „single“ Zeichen anders als zwei (oder mehr) Zeichen behandelt werden muß, um überprüfen

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top