Generación de texto utilizando factorización tensor

https://datascience.stackexchange.com/questions/23382

30-10-2019
|

Pregunta

La generación de texto está bien estudiada usando las cadenas de Markov o NNS, pero no conozco ninguna predicción de secuencia de palabras en términos de aprendizaje subespacial.

Tratando frases o oraciones como datos temporales como series de tiempo, es posible representar secuencias de palabras como un tensor $ t = ws times w times k $, donde $ ws $ es el conjunto de secuencias de palabras presentes en el corpus, $ W $ representa el conjunto de palabras segmentadas, y $ k $ es la longitud máxima de las secuencias observadas, por ejemplo, para una frase, ws = word sequence prediction, entonces $ t (ws, `` secuencia ", 2) = 1 $

Para un tensor incompleto, donde faltan las entradas ST predicción, el tensor reconstruido después de la descomposición puede usarse para generar textos, en términos del espacio de palabras observado.

Mis preguntas son las siguientes:

1) ¿Hay algún trabajo utilizando máquinas de factorización o factorización de tensor para la generación de secuencias de palabras?

2) ¿Cómo difieren los modelos de aprendizaje del subespacio de esos modelos generativos, como redes neuronales recurrentes o redes de creencias? ¿Cuáles son las desventajas del uso de métodos subespaciales en comparación con otros métodos establecidos?

2) ¿Cómo establecer el umbral para la longitud de la secuencia predicha? Por ejemplo, ¿se puede ver el espacio $ ws_r times k_r $ y usar validación cruzada para encontrar el umbral para cada secuencias de palabras?

Cualquier puntería o respuesta a cualquiera de las preguntas anteriores es muy apreciado.

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange