Frage

Ich bin viele Beispiele für die Verwendung von Markov-Ketten zum Erzeugen von zufälligen Wörtern basierend auf Quelldaten , aber sie scheinen mir oft etwas übermäßig mechanisch und abstrakt zu sein. Ich versuche, ein besseres zu entwickeln.

Ich glaube, ein Teil des Problems ist, dass sie sich ganz auf das statistische Gesamtaufkommen von Paaren verlassen, und ignorieren die Tendenz von Wörtern, um auf bestimmte Weise zu beginnen und zu enden. Wenn Sie beispielsweise die Top-1000-Babynamen als Quelldaten verwenden, ist der Buchstabe J insgesamt relativ selten, doch ist es der zweithäufigste Buchstabe für Namen in starten mit. Wenn Sie lateinische Quelldaten verwenden, wären Wortendings wie -um und -us üblich Endens , aber nicht so häufig, wenn Sie alle Paare gleich in Betracht ziehen.

Ich versuche grundsätzlich, einen Markov-Ketten-basierten Word-Generator zusammenzustellen, der die Art des Starts und das Ende in den Quelldaten berücksichtigt.

konzeptionell, das ist sinnvoll für mich, aber ich kann nicht herausfinden, wie er dies aus einer Software-Perspektive umsetzen kann. Ich versuche, ein kleines PHP-Tool zusammenzustellen, mit dem Sie die Quelldaten (z. B. einer Liste von 1000 Wörtern) ablegen können, aus denen er eine Vielzahl von zufälligen Wörtern mit realistischen Starts, Middles und Enden erzeugt. (Im Gegensatz zu den meisten markov-basierten Word-Generatoren, die gerade auf dem statistischen Auftreten von Paaren insgesamt basieren.)

Ich möchte dies auch mit der Wortlänge tun, die von den Quelldaten, wenn möglich, bestimmt; d. H. Die Längenausfall der zufällig erzeugten Wörter sollte ungefähr gleich der Längenausfall der Quelldaten sein.

Alle Ideen würden massiv geschätzt! Danke.

War es hilfreich?

Lösung

Der Teil, den gängigen Anfängen nicht respektieren, trifft eigentlich nicht wahr, wenn Sie "Platz zwischen Wörtern" in Betracht ziehen, um ein Symbol zu seinVorangehender "Raum zwischen Wörtern".Die korrekte Wortlänge setzt sich auch aus dem mehr oder weniger natürlich - die mittlere Anzahl der von Ihnen ausgegebenen Buchstaben abDie Rückseite meines Geistes sagt mir, dass die Verteilung ausgeschaltet sein könnte.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top