Question

Nous extrayons diverses informations de e-mails - vols, location de voiture, hôtels et plus. la méthode est d'extraire le corps du courrier, généralement sous forme HTML, mais parfois il est du texte ou nous utilisons les informations dans un fichier PDF / Word / RTF pièce jointe. Nous appliquons ensuite des expressions régulières (parfois en plusieurs étapes) afin d'obtenir de l'information, qui est fourni sous forme de tableau (vous pouvez penser à une table de vol, table d'hôtel, etc.). Remarquez, même si nous analysons HTML, ce n'est pas racler web.

À l'heure actuelle, nous utilisons le moteur WebQL de QL2, mais nous cherchons à le remplacer par des raisons d'affaires. Pouvez-vous recommander sur un autre moteur? Il doit fonctionner sur Linux et être accessible à partir de Java (une API Java serait le meilleur, mais les services Web sont une bonne solution aussi bien). Il doit également prendre en charge les expressions régulières pour l'extraction de texte et non pas seulement à partir de la structure HTML.

Était-ce utile?

La solution 3

Je voulais juste mettre à jour - notre décision finale était de mettre en œuvre l'analyse syntaxique groovy , et d'ajouter un peu fonctionnalités requises (html au texte, pdf au texte, propre des espaces, etc.), soit par la mise en œuvre en Java ot en se basant sur les bibliothèques 3ème partie.

Autres conseils

Je recommande que vous avez un oeil à R . Il a un nombre important de paquets de text mining: un coup d'oeil au traitement du langage naturel voir . En particulier, regardez le paquet tm. Voici quelques liens pertinents:

En outre, R fournit de nombreux outils pour l'analyse syntaxique HTML ou XML. un oeil à cette question pour un exemple d'utilisation les forfaits RCurl et XML .

Edit: Vous pouvez intégrer R avec Java avec JRI. Il est un paquet très largement utilisé, avec de nombreux exemples. Vous pouvez aussi voir ces questions liées .

Jetez un oeil à:

  • LingPipe - LingPipe est une suite de bibliothèques Java pour l'analyse linguistique de l'homme langue.
  • Lucene - Apache Lucene est une haute performance, le texte complet de la bibliothèque moteur de recherche entièrement écrit en Java.

J'utilise un analyseur personnalisé réalisé avec Flex et C ++ à des fins similaires. Je vous suggère de jeter un oeil à des générateurs d'analyseur en Java (fichiers .jj javacc) javacc-faq Nutch il le fait de cette façon. (NutchAnalysis.jj)

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top