Pregunta

Estoy buscando herramientas para generar texto aleatorio, pero realista. He implementado un generador de texto Cadena de Markov mí mismo y si bien los resultados fueron prometedores, mis intentos de mejora de ellos no han dado ningún grandes éxitos.

Sería feliz con herramientas que consumen un corpus o que funcionan basado en una gramática sensible al contexto o libres de contexto. Me gustaría que la herramienta sea adecuada para su inclusión en otro proyecto. La mayor parte de mi trabajo reciente ha sido en Java por lo que se prefiere una herramienta en ese idioma, pero me gustaría estar bien con C #, C, C ++, o incluso JavaScript.

Esto es similar a esta pregunta , pero más grande en su alcance.

¿Fue útil?

Solución

La extensión de su propio generador de cadena de Markov es probablemente la mejor opción, si desea que el texto "al azar". La generación de algo que no tiene contexto es un problema de investigación abierta.

Trate (si no lo ha hecho):

  • Tokenising puntuacion separado, o incluir en su cadena de puntuacion si no está ya. Esto incluye las marcas de párrafo.
  • Si estás usando una historia de 2 ó 3 cadenas de Markov, para intentar restablecer el uso de un 1-historia de uno cuando se encuentra con puntos ni saltos de línea.

Como alternativa, se puede usar WordNet en dos pasadas con su corpus:

  1. Analizar frases para determinar las secuencias comunes de tipos de palabra , es decir, nombres, verbos, adjetivos, y adverbios. WordNet incluye estos. Todo lo demás (pronombres, conjunciones, lo que sea) se excluye, pero se podía pasar esencialmente aquellos directamente. Esto convertiría a "El rápido zorro marrón salta sobre el perro perezoso" en "El [adjetivo] [adjetivo] [nombre] [verbo (s)] sobre el [adjetivo] [sustantivo]"
  2. reproducir frases eligiendo aleatoriamente una sentencia de plantilla y la sustitución de [adjetivo], [sustantivos] y [verbos] con adjetivos nombres y verbos reales.

Hay bastantes problemas con este enfoque también: por ejemplo, es necesario contexto de las palabras del contexto para saber qué homónimo para elegir. Mirando hacia arriba "rápida" en wordnet produce la materia por ser rápido, sino también el trozo de uña.


Sé que esto no soluciona el requisito de una biblioteca o una herramienta, pero podría darle algunas ideas.

Otros consejos

Algo así como href="http://www.lipsum.com/" rel="nofollow noreferrer"> este generador Lorem ipsum

Lo he utilizado para este propósito muchos conjuntos de datos, incluyendo los artículos de Wikinoticias.

he extraído el texto de ellos el uso de esta herramienta: http://alas.matf.bg.ac.rs/~mr04069/WikiExtractor .py

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top