より現実的なランダムな単語ジェネレータを構築する？

https://stackoverflow.com/questions/6012842

14-11-2019
|

質問

マルコフチェーンの使用の例は、ソースデータに基づいてランダムな単語を生成するための多くの例を見ました。しかし、彼らはしばしば少し機械的で、私にとって抽象的なようです。私はより良いものを開発しようとしています。

問題の一部は、彼らがペアの全体的な統計的な発生に完全に頼り、単語の始まりを無視し、特定の方法で終わるという傾向を無視しています。たとえば、上位1000の赤ちゃん名をソースデータとして使用する場合、文字jは全体的には比較的まれですが、 start の名前には2番目に一般的な文字です。あるいは、ラテン語のソースデータを使用している場合、-umと-usのような単語終了は一般的な endings になりますが、すべてのペアを同じであれば一般的ではありません。

それで、基本的には、単語の開始とソースデータで終わる方法と終了を考慮したマルコフチェーンベースのワープジェネレータをまとめています。

概念的には、それは私にとって理にかなっていますが、ソフトウェアの観点からこれを実装する方法を理解することはできません。私は、それが現実的なスタート、ミドル、および終末のさまざまなランダムな単語を生成するソースデータ（例えば1000ワードのリスト）を削除することを可能にする小さなPHPツールをまとめようとしています。（ほとんどのマルコフベースの単語ジェネレータとは対照的に、これは全体のペアの統計的な発生に基づいています。）

可能であれば、ソースデータによって決定された単語長でもこれをやりたいです。すなわち、ランダムに生成された単語の長さの内訳は、ソースデータの長さの内訳とほぼ同じであるべきである。

どんなアイデアも大量に評価されます！ありがとう。

解決

一般的な始まりと終わりを尊重しない部分は、シンボルになる「単語間のスペース」を検討する場合は実際には真実ではありません。「単語間のスペース」の前に。正しい単語の長さもその他の自然にも安定しています - 単語の間のスペースに移行する前に出力した文字の平均数は、トレーニングデータの単語あたりの文字数の平均数と同じです。私の心の後ろは、配布がオフになるかもしれないことを私に言っています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow