En busca de una aplicación de minería de recuperación de información / texto o de la biblioteca
Pregunta
Estamos extracto de diversa información de correos electrónicos - vuelos, alquiler de coches, hoteles y más. el método consiste en extraer el cuerpo del correo electrónico, por lo general en forma de HTML, pero en algún momento es texto o utilizamos la información en un archivo PDF / Palabra / RTF adjunto. A continuación, aplicamos las expresiones regulares (a veces en varias etapas) con el fin de obtener información, que se proporciona en forma de tabla (se puede pensar en una mesa de vuelo, mesa de hotel, etc.). Aviso, a pesar de que analizar HTML, esto no es raspado web.
Actualmente estamos usando el motor de WebQL QL2, sino que buscamos que reemplazar de razones comerciales. ¿Me puede recomendar en otro motor? Se debe ejecutar en Linux y ser accesible desde Java (una API de Java sería el mejor, pero los servicios Web son una buena solución también). También debe ser compatible con las expresiones regulares para la extracción de texto y no sólo a ser sobre la base de la estructura HTML.
Solución 3
Sólo quería actualizar - nuestra decisión final fue implementar el análisis en maravilloso , y para añadir un poco funcionalidad requerida (html a texto, PDF a texto, espacio en blanco limpio, etc.), ya sea mediante la implementación en Java ot apoyándose en las bibliotecas 3 ª parte.
Otros consejos
Me recomendamos que tenga un vistazo a R . Cuenta con una extensa serie de paquetes de minería de texto: echar un vistazo a la Procesamiento del Lenguaje Natural ver . En particular, mirar el paquete tm
. Estos son algunos enlaces relevantes:
- Papel sobre el paquete en el Journal of Computing estadísticos: http://www.jstatsoft.org/v25/i05/paper . El documento incluye un buen ejemplo de un análisis de la R-devel lista de correo ( https://stat.ethz.ch/pipermail/r-devel/) grupos de noticias desde 2006.
- página de inicio del paquete: http: //cran.r-project. org / web / paquetes / tm / index.html
- Mira la viñeta introductoria: http: // cran .R-project.org / web / paquetes / TM / viñetas / tm.pdf
Además, R proporciona muchas herramientas para el análisis de HTML o XML. un vistazo a esta pregunta como ejemplo del uso los paquetes RCurl
y XML
.
Editar: Puede integrar R con Java con JRI . Es un paquete muy ampliamente utilizado, con muchos ejemplos. También puede ver estas preguntas relacionadas .
Yo uso un analizador personalizado hecho con Flex y C ++ para fines similares. Te sugiero que eche un vistazo a generadores de analizadores sintácticos en Java (archivos) javacc .jj javacc-FAQ Nutch lo hace de esta manera. (NutchAnalysis.jj)