Frage

Dieses Papier enthält Verwirrungsmatrizen für Rechtschreibfehler in einem verrauschten Kanal.Es beschreibt, wie die Fehler basierend auf bedingten Eigenschaften korrigiert werden.

Die bedingte Wahrscheinlichkeitsberechnung finden Sie auf Seite 2, linke Spalte.In Fußnote 4, Seite 2, linke Spalte, sagen die Autoren:"Die Zeichenmatrizen können leicht repliziert werden und sind daher aus dem Anhang weggelassen." Ich kann nicht herausfinden, wie sie repliziert werden können!

Wie repliziert man sie?Benötige ich den Originalkorpus?Oder meinten die Autoren, dass sie aus dem Material in der Arbeit selbst neu berechnet werden könnten?

War es hilfreich?

Lösung

Wenn Sie sich die Arbeit ansehen, müssen Sie sie nur anhand eines Korpus berechnen, entweder demselben oder einem, der für Ihre Anwendung relevant ist.

Beachten Sie beim Replizieren der Matrizen, dass sie implizit zwei verschiedene definieren chars Matrizen:ein Vektor und eine n-mal-n-Matrix.Für jeden Charakter x, der Vektor chars enthält eine Zählung, wie oft das Zeichen vorkommt x im Korpus aufgetreten.Für jede Zeichenfolge xy, die Matrix chars enthält eine Zählung, wie oft diese Sequenz im Korpus vorkam.

chars[x] stellt eine Suche nach dar x im Vektor; chars[x,y] stellt eine Suche nach der Sequenz dar xy in der Matrix.Beachten Sie, dass chars[x] = die Summe vorbei chars[x,y] für jeden Wert von y.

Beachten Sie, dass ihre Zählungen alle auf dem AP Newswire-Korpus von 1988 basieren (erhältlich beim LDC).Wenn Sie ihr genaues Korpus nicht verwenden können, wäre es meiner Meinung nach nicht unangemessen, einen anderen Text aus demselben Genre zu verwenden (d. h.(ein anderes Newswire-Korpus) und skalieren Sie Ihre Zählungen so, dass sie zu den Originaldaten passen.Das heißt, die Häufigkeit eines bestimmten Zeichens sollte von einem Text zum anderen nicht zu sehr variieren, wenn sie ähnlich genug sind. Wenn Sie also einen Nachrichtenkorpus von 22 Millionen Wörtern haben, können Sie die Zeichen in diesem Text zählen und verdoppeln Sie sie dann, um sich der ursprünglichen Anzahl anzunähern.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top