Vous cherchez une recherche d'information / texte application minière ou à la bibliothèque
Question
Nous extrayons diverses informations de e-mails - vols, location de voiture, hôtels et plus. la méthode est d'extraire le corps du courrier, généralement sous forme HTML, mais parfois il est du texte ou nous utilisons les informations dans un fichier PDF / Word / RTF pièce jointe. Nous appliquons ensuite des expressions régulières (parfois en plusieurs étapes) afin d'obtenir de l'information, qui est fourni sous forme de tableau (vous pouvez penser à une table de vol, table d'hôtel, etc.). Remarquez, même si nous analysons HTML, ce n'est pas racler web.
À l'heure actuelle, nous utilisons le moteur WebQL de QL2, mais nous cherchons à le remplacer par des raisons d'affaires. Pouvez-vous recommander sur un autre moteur? Il doit fonctionner sur Linux et être accessible à partir de Java (une API Java serait le meilleur, mais les services Web sont une bonne solution aussi bien). Il doit également prendre en charge les expressions régulières pour l'extraction de texte et non pas seulement à partir de la structure HTML.
La solution 3
Je voulais juste mettre à jour - notre décision finale était de mettre en œuvre l'analyse syntaxique groovy , et d'ajouter un peu fonctionnalités requises (html au texte, pdf au texte, propre des espaces, etc.), soit par la mise en œuvre en Java ot en se basant sur les bibliothèques 3ème partie.
Autres conseils
Je recommande que vous avez un oeil à R . Il a un nombre important de paquets de text mining: un coup d'oeil au traitement du langage naturel voir . En particulier, regardez le paquet tm
. Voici quelques liens pertinents:
- Papier sur le paquet dans le Journal of Statistical Computing: http://www.jstatsoft.org/v25/i05/paper . Le document comprend un bel exemple d'une analyse de la R-devel liste de diffusion ( https://stat.ethz.ch/pipermail/r-devel/) envoi de messages de 2006.
- Page d'accueil du paquet: http: //cran.r-project. org / web / packages / tm / index.html
- Regardez la vignette d'introduction: http: // Cran .R-project.org / web / packages / tm / vignettes / tm.pdf
En outre, R fournit de nombreux outils pour l'analyse syntaxique HTML ou XML. un oeil à cette question pour un exemple d'utilisation les forfaits RCurl
et XML
.
Edit: Vous pouvez intégrer R avec Java avec JRI. Il est un paquet très largement utilisé, avec de nombreux exemples. Vous pouvez aussi voir ces questions liées .
J'utilise un analyseur personnalisé réalisé avec Flex et C ++ à des fins similaires. Je vous suggère de jeter un oeil à des générateurs d'analyseur en Java (fichiers .jj javacc) javacc-faq Nutch il le fait de cette façon. (NutchAnalysis.jj)