Pregunta

Estoy tratando de encontrar una forma de pasar por un millón de documentos que son documentos formales (por el bien de los argumentos, son documentos de tesis). No todos están estandarizados pero lo suficientemente cerca. Son títulos, secciones, párrafos, etc. Hay diferencias sutiles que podrían surgir, como en inglés, llamamos un título de "título", pero en francés es "Título".

Por lo tanto, en mi opinión, la mejor manera de hacer esto sería crear un EBNF con todas las combinaciones posibles de título: = Título | Título, por ejemplo.

No estoy demasiado preocupado por encontrar el EBNF. Mi principal preocupación es cómo lograr el análisis. He mirado a Antlr, Oslo, ironía y una gran cantidad de otros, pero no tengo la experiencia en ellos para juzgar si serían perfectos para mi tarea.

Entonces, mi pregunta a los aprendidos entre ustedes es

  1. ¿Qué herramienta DSL recomendaría para analizar documentos en esta escala?
  2. ¿Qué herramienta DSL es la más precisa para analizar pero perdonando la coincidencia (es decir, tenemos que definir reglas para mayúsculas y minúsculas? ¿Qué pasa con los números frente a los números romanos y al idioma extranjero (francés)?
  3. ¿Hay un proceso/algoritmo que no haya considerado que recomendaría como alternativa a DSL? (Reescribir desde cero es una opción, pero me gustaría que algo funcione rápidamente).
  4. ¿Alguien ha intentado agregar aprendizaje e inteligencia a los algoritmos para analizar a través de DSL (piense en algoritmos genéticos y redes neuronales)?
  5. ¿Utilizaría estas herramientas DSL en un entorno de producción?

Mi plataforma de desarrollo de elección es C#. Menciono esto porque idealmente me gustaría integrar la herramienta DSL en el código para que podamos trabajar con ella desde aplicaciones existentes.

¿Fue útil?

Solución

Encontré una herramienta llamada Tinypg. No es completamente lo que necesitaba, pero tener el código fuente para mirar me permitirá generar lo que necesito.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top