Gibt es Bibliotheken oder Techniken für "lauende" Textdaten?

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

Frage

Datenvergrößerung Techniken für Bilddaten und Audiodaten (z. B. Spracherkennung) haben sich als erfolgreich erwiesen und sind jetzt häufig.

Gibt es Bibliotheken oder Techniken zum Augmentieren? Text Daten?

Zum Beispiel:

In: "Wie geht es dir?"
OUT: ['Wie geht es dir?', 'Wie geht es dir?', 'Hwo bist du?', 'Wie bist du?', 'Wie geht es dir', ...

Lösung

I Sie möchten einige Datensätze wie Google-Zaubersprüche-Daten. Ich schlage vor, Sie prüfen in die Der Wiked ERROR CORPUS Datensatz. Das Korpus besteht aus mehr als 12 Millionen Sätzen mit insgesamt 14 Millionen Änderungen anhand verschiedener Typen. Diese Änderungen umfassen: Rechtschreibfehlerkorrekturen, grammatikalische Fehlerkorrekturen, stilistische Änderungen. All dies aus der Wikipedia -Korrekturgeschichte. Die Eigentümer (Autoren) des Datensatzes beschreiben in diesem Papier. Überprüfen Sie auch diese Frage in Quora Es enthält Links zu verschiedenen Datensätzen mit Rechtschreibfehlern. Endlich das Seite kann auch nützlich sein.

Andere Tipps

Sie können bestimmte einfache Regeln wie die in der Frage erwähnt codieren. Zusätzlich können Sie Wissensbasen wie verwenden Werfebasis und Wordnet um Ihr Sprachmodell zu bereichern. Beachten Sie, dass dies Ihre Daten nicht unbedingt "laugiert", aber ähnlich wie die Auswirkungen auf die Datenvergrößerung auf die Bilder für nachgeschaltete Aufgaben ähnelt.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange