Строительство более реалистичных случаев генератора слова?

https://stackoverflow.com/questions/6012842

14-11-2019
|

Вопрос

Я видел много примеров использования используя Markov Chatsains для генерации случайных слов на основе исходных данных Но они часто кажутся немного чрезмерно механическими и аннотациями для меня. Я пытаюсь развить лучшего.

Я считаю, что часть проблемы состоит в том, что они полностью полагаются на общее статистическое возникновение пар и игнорируют тенденцию начала и конца и заканчиваться. Например, если вы используете топ-1000 детских имен в качестве исходных данных, буква J является относительно редким в целом, но это второе самое распространенное письмо для имени для запускается с. Или, если вы используете данные латинского исходных данных, окончания слов, как -ul и -US будет распространенным концовками , но не так часто, если вы считаете все пары одинаково.

Итак, я в основном пытаюсь собрать генератор слова на основе цепи Маркова, который учитывает способ начала и конца слова в исходных данных.

Концептуально, что имеет смысл для меня, но я не могу понять, как реализовать это с точки зрения программного обеспечения. Я пытаюсь собрать небольшой PHP-инструмент, который позволяет вам упасть в исходные данные (например, список 1000 слов), из которых он будет генерировать различные случайные слова с реалистическими запусками, серединами и концовками. (В отличие от большинства генераторов слов на основе Марков, которые просто основаны на статистическом возникновении пар в целом.)

Я также хотел бы сделать это со словом, определяемой исходными данными, если это возможно; В.

Любые идеи будут оценены в массовом порядке! Спасибо.

Решение

Часть о том, что не соответствует общим началам и концом, не на самом деле не правда, если вы рассматриваете «пространство между словами», чтобы быть символом - общие начала будут иметь высокие частоты после «пространства между словами», и общие окончания будут иметь высокие частотыпредыдущее «пространство между словами».Правильная длина слова также оседает из этого более или менее, естественно - среднее количество вывода букв, прежде чем перейти к «пространству между символом слова», должны равняться среднему количеству букв за слово в учебных данных, хотя и что-то вСаната моего разума говорит мне, что распространение может быть выключено.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow