Comment commencer l'extraction de l'information?

https://stackoverflow.com/questions/573620

05-09-2019
|

Question

Pouvez-vous recommander un parcours de formation pour commencer et devenir très bon dans l'extraction de l'information. J'ai commencé à lire à ce sujet pour faire un de mon projet passe-temps et vite rendu compte que je dois être bon en mathématiques (algèbre, Statistiques, prob). J'ai lu quelques-uns des livres d'introduction sur différents sujets de mathématiques (et son tellement amusant). Vous recherchez quelques conseils. S'il vous plaît aider.

Mise à jour: Juste pour répondre à l'un des commentaires. Je suis plus intéressé par texte Extraction d'information.

La solution

Juste pour répondre à l'un des commentaires. je je suis plus intéressé par l'information du texte Extraction.

En fonction de la nature de votre projet, le traitement du langage naturel et noreferrer linguistique informatique peut à la fois venir en -Ils à portée de main fournir des outils pour mesurer, et les caractéristiques d'extraire des informations textuelles, et appliquer la formation, la notation ou classification. Les bons livres introductionary comprennent Programmation Intelligence Collective OReilly (chapitres sur « la recherche, et le classement » , filtrage de documents, et peut-être des arbres de décision).

Les projets suggérés en utilisant cette connaissance: POS (partie du discours) de marquage et de reconnaissance des entités nommées (capacité à reconnaître les noms, les lieux et dates de texte brut). Vous pouvez utiliser Wikipédia comme un corpus de formation, étant donné que la plupart des informations cible est déjà extraite dans infoboxes -Ce pourrait vous fournir une quantité limitée de rétroaction mesure.

L'autre gros marteau dans IE est la recherche, un champ ne doit pas être sous-estimé. Encore une fois, le livre de OReilly fournit une introduction dans le classement de base; une fois que vous avez un grand corpus de texte indexé, vous pouvez faire des tâches vraiment IE avec elle. Consultez Peter Norvig: théorisation à partir des données comme point de départ, et une très bonne source de motivation -peut-être vous pouvez ré-écrire certains de leurs résultats comme un exercice d'apprentissage.

En avant-garde, je pense que je suis obligé de vous dire, que l'extraction de l'information est dur . Le premier 80% d'une tâche donnée sont généralement trivial; Cependant, la difficulté de chaque pourcentage supplémentaire pour les tâches IE sont de plus en plus souvent de façon exponentielle -Dans le développement, et le temps de recherche. Il est également tout à fait underdocumented -La plupart des informations de haute qualité est actuellement en livres blancs obscurs ( Google Scholar est votre ami) -Ne les vérifier une fois que vous avez votre main brûlée deux ou trois fois. Mais surtout, ne laissez pas ces obstacles que vous jeter au large sont certainement grandes -Il y occasions de faire des progrès dans ce domaine.

Autres conseils

Je recommande l'excellent livre Introduction à la recherche d'information par Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze. Il couvre une vaste zone de questions qui forment une grande et une base pour l'extraction de l'information (2008) mise à jour et est disponible en ligne en texte intégral (sous le lien donné).

Je vous suggère de jeter un oeil à la Natural Language Toolkit (NLTK) et NLTK livre . Les deux sont disponibles gratuitement et sont d'excellents outils d'apprentissage.

Vous n'avez pas besoin d'être bon en maths pour faire IE juste comprendre comment fonctionne l'algorithme, les essais sur les cas pour lesquels vous avez besoin d'une performance résultat optimal, et l'échelle avec laquelle vous avez besoin pour atteindre le niveau de précision de la cible et le travail avec ça. Vous essentiellement travaillez avec des algorithmes et de la programmation et les aspects de la théorie CS / AI / apprentissage machine ne pas écrire un papier phd sur la construction d'un nouvel algorithme d'apprentissage machine où vous devez convaincre quelqu'un par des principes mathématiques pourquoi l'algorithme fonctionne si je suis en désaccord totalement avec cette notion. Il y a une différence entre la théorie et la pratique - comme nous le savons tous les mathématiciens sont coincés plus sur la théorie alors la praticabilité des algorithmes pour produire des solutions d'affaires viables. Vous, cependant, besoin de faire quelques informations à lire les deux livres en PNL ainsi que des documents de journal pour savoir ce que les gens ont trouvé de leurs résultats. IE est un domaine spécifique très contextuel donc vous devez d'abord définir dans quel contexte vous essayez d'extraire des informations - Comment définiriez-vous cette information? Quel est votre modèle structuré? Supposons que vous extrayez à partir d'ensembles de données semi et non structurées. Alors vous voulez aussi de peser si vous voulez aborder votre IE à partir d'une approche humaine standard qui implique des choses comme des expressions régulières et la correspondance de motif ou voudriez-vous le faire en utilisant des approches d'apprentissage statistique comme des chaînes de Markov. Vous pouvez même regarder des approches hybrides.

Un modèle de processus standard, vous pouvez suivre pour faire votre extraction est d'adapter une approche d'exploration de données / texte:

prétraitement - définir et normaliser vos données à l'extraction à partir de sources différentes ou spécifiques de nettoyage de vos données segmentation / classification / regroupement / association - votre Blackbox où la majeure partie de votre travail d'extraction sera effectuée post-traitement - le nettoyage de vos données à l'endroit où vous souhaitez stocker ou le représenter à titre d'information

, vous devez également comprendre la différence entre ce qui est des données et ce qui est l'information. Comme vous pouvez le réutiliser vos informations découvertes comme sources de données pour construire plus de cartes d'information / arbres / graphiques. Il est très contextualisée.

étapes standard pour: entrées-> Process-> Sortie

Si vous utilisez Java / C ++ il y a beaucoup de cadres et bibliothèques disponibles, vous pouvez travailler avec. Perl serait une excellente langue pour faire votre travail d'extraction de la PNL avec si vous voulez faire beaucoup d'extraction de texte standard.

Vous pouvez représenter vos données au format XML ou même sous forme de graphiques RDF (Web sémantique) et pour votre modèle contextuel défini, vous pouvez construire des graphiques de relations et d'association qui vont très probablement changer à mesure que vous faites de plus en plus de demandes d'extractions. Déployer comme un service reposant que vous voulez le traiter comme une ressource pour les documents. Vous pouvez même le relier à taxonomized ensembles de données et la recherche à facettes dire en utilisant Solr.

Les bonnes sources sont à lire:

Manuel de Compuational linguistique et traitement du langage naturel
Bases de traitement du langage naturel statistique
Applications Extraction d'information à Prospect
Introduction à traitement du langage Perl et Prolog
Discours et traitement automatique des langues (Jurafsky)
Text Mining Application Programming
Le texte Manuel Mining
Taming Texte
Les algorithmes du Web Intelligent
Immeuble Recherche Applications
Journal IEEE

Assurez-vous de faire une évaluation approfondie avant de déployer ces applications / algorithmes dans la production car ils peuvent récursive augmenter vos besoins de stockage de données. Vous pouvez utiliser AWS / Hadoop pour le regroupement, Mahout pour grande classification à l'échelle entre autres. Stockez vos ensembles de données dans MongoDB ou décharges non structurées dans Jackrabbit, etc. Essayez d'expérimenter avec des prototypes d'abord. Il existe différentes archives que vous pouvez utiliser pour baser votre formation sur corpus dire reuters, tipster, TREC, etc. Vous pouvez même vérifier alchemyapi, GATE, UIMA, OpenNLP, etc.

extractions de construction de texte standard est plus facile dire alors un document Web afin représentation à l'étape de pré-traitement devient encore plus crucial de définir ce qu'est exactement ce que vous essayez d'extraire d'une représentation de document normalisé.

Les mesures standard comprennent: précision, rappel, mesure f1, entre autres,

Je suis en désaccord avec les gens qui recommandent la lecture collective de programmation Intelligence.If que vous voulez faire quoi que ce soit de la complexité même modérée, vous devez être bon en mathématiques appliquées et PCI vous donne un faux sentiment de confiance. Par exemple, quand il parle de SVM, il dit juste que libsvm est une bonne façon de les mettre en œuvre. Maintenant libsvm est certainement un bon paquet, mais qui se soucie de paquets. Ce que vous devez savoir est pourquoi SVM donne les résultats fantastiques qu'il donne et comment il est fondamentalement différent de bayésien de la pensée (et comment Vapnik est une légende).

à mon humble avis, il n'y a pas une solution. Vous devriez avoir une bonne adhérence sur l'algèbre linéaire et de la probabilité et de la théorie bayésienne. Bayes, je dois ajouter, est aussi important pour ce que l'oxygène pour les êtres humains (son un peu exagéré, mais vous obtenez ce que je veux dire, non?). En outre, obtenir une bonne adhérence sur l'apprentissage machine. Tout en utilisant le travail des autres est tout à fait bien, mais dès que vous voulez savoir pourquoi quelque chose a été fait la façon dont il était, vous devez savoir quelque chose au sujet de ML.

Vérifier ces deux pour cela:

http://pindancing.blogspot.com/2010/ 01 / apprentissage à propos de la machine-learniing.html

http://measuringmeasures.com/blog/ 2010/1 / 15 / apprentissage statistique sur les-learning.html

http: // measuringmeasures. com / blog / 2010/3/12/2-ed.html-apprentissage à propos de la machine-learning

Bon, maintenant des thats trois d'entre eux :) / froid

L'article de Wikipedia Extraction d'information de est une introduction rapide.

A un niveau plus académique, vous voudrez peut-être à écumer un papier comme L'intégration de modèles d'extraction et d'exploration de données probabilistes à découvrir des relations et des modèles de texte .

Jetez un oeil si vous avez besoin de services de qualité entreprise NER. L'élaboration d'un système de NER (et des ensembles de formation) est une très longue et haute tâche qualifiée.

Ceci est un peu hors sujet, mais vous pouvez lire la programmation Intelligence Collective de O'Reilly. Il traite indirectement à l'extraction de l'information de texte, et il ne suppose pas beaucoup d'un arrière-plan mathématique.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow