Pregunta

Lo que quiero hacer es analizar el texto natural crudo y encontrar todas las frases que describen las fechas.

Tengo un corpus bastante grande con todas las referencias a las fechas marcadas:

I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>

No quiero interpretar las frases de fecha, solo localice.El hecho de que son fechas es irrelevante (en la vida real, ni siquiera son fechas, pero no quiero aburrirte con los detalles), básicamente es solo un conjunto abierto de valores posibles.La gramática de los valores en sí misma se puede aproximar como libre de contexto, sin embargo, es bastante complicado construir manualmente y con la creciente complejidad, es cada vez más difícil evitar falsos positivos.

Sé que esto es un poco de tiro largo, por lo que no estoy esperando que exista una solución fuera de la caja, ¡pero qué tecnología o investigación puedo usar potencialmente?

¿Fue útil?

Solución

Uno de los enfoques genéricos utilizados en la academia y en la industria se basa en campos aleatorios condicionales. Básicamente, es un modelo probabilístico especial, lo entrena primero con sus datos marcados y luego puede etiquetar ciertos tipos de entidades en un texto dado.

Incluso puedes probar uno de los sistemas del Grupo de procesamiento de idiomas natural de Stanford: Stanford nombrado Reconocimiento de entidades

Cuando descarga la herramienta, tenga en cuenta que hay varios modelos, necesita el último:

incluido con el Stanford NER son un modelo de 4 clases capacitado para CONLL, Un modelo de 7 clases entrenado para MUC, y un modelo de 3 clases entrenado en ambos Conjuntos de datos para la intersección de esos conjuntos de clases.

3 ubicación de clase, persona, organización

4 ubicación de clase, persona, organización, misc

7 Tiempo de clase, ubicación, organización, persona, dinero, porcentaje, fecha

actualización. Puede intentar esa herramienta en línea aquí . Seleccione el clasificador de muc.7class.distsim.crf.ser.gz e intente un poco de texto con fechas. No parece reconocer "ayer", pero reconoce "siglo XX", por ejemplo. Al final, esta es una cuestión de entrenamiento de CRF.


stanford ner captlenshot

Otros consejos

Tenga en cuenta que los CRF son bastante lentos para entrenar y requieren datos anotados humanos, por lo que hacerlo usted mismo no es fácil.Lea las respuestas a este para otro ejemplode cómo las personas a menudo lo hacen en la práctica, no mucho en común con la investigación académica actual.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top