Aide: tuples de données Extraction du texte ... Regex ou l'apprentissage machine?

https://stackoverflow.com/questions/6323740

27-10-2019
|

Question

Je voudrais vraiment apprécier vos réflexions sur la meilleure approche pour le problème suivant. J'utilise une voiture classée par exemple la liste qui est similaire dans la nature pour donner une idée.

Problème:. Extraire un tuple de données du texte donné

Voici quelques caractéristiques des données.

Le vocabulaire (mots) dans le texte est limité à un domaine spécifique. Laisse supposer au plus 100-200 mots.
Le texte qui doit être analysée est un titre comme une donnée annonce Car ci-dessous. Ainsi, chaque enregistrement correspond à une tuple (ligne).
Dans certains cas, certains des attributs peuvent être manquants. Ainsi, par exemple, dans la ligne de données brutes 5 ci-dessous l'année est manquante.
Quelques mots vont ensemble (bigrammes). Comme "Low miles".
Données historiques disponibles = 10.000 enregistrements
De nouvelles données entrant volume = 1000-1500 records / semaine

Le résultat attendu devrait être sous la forme de (Année, Marque, modèle, fonction). Ainsi, la sortie devrait ressembler à

1 -> (2009, Ford, Fusion, SE)
2 -> (1997, Ford, Taurus, Wagon)
3 -> (2000, Mitsubishi, Mirage, DE)
4 -> (2007, Ford, Expedition, EL Limited)
5 -> (, Honda, Accord, EX)
....
....

Raw Titre données:

1 -> 2009 Ford Fusion SE - 7000 $
2 -> 1997 Ford Taurus Wagon - 800 $ (San José est)
3 -> '00 Mitsubishi Mirage DE - 2499 $ (saratoga) pic
4 -> 2007 Ford Expedition EL limitée - 7800 $ (x)
5 -> Honda Accord ex miles faible - 2800 $ (dublin / Pleasanton / livermore) pic
6 -> 2004 HONDA ODASSEY LX 68K MILES - 10800 $ (danville / san ramon)
7 -> 93 MARK LINCOLN - $ 2000 (est oakland) pic
8 -> ####### 2006 GS 430 LEXUS NOIR SUR NOIR 114KMI ####### - 19700 $ (san rafael) pic
9 -> 2004 Audi A4 1.8T à traction avant - 8900 $ (Sacramento) pic
10 -> ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI BLANC 4X4 ####### - 10575 $ (san rafael) pic
11 -> 1990 Toyota Corolla FONCTIONNE BIEN! GAZ SAVER! 5VIT propre! REG 2011 O.B.O - 1600 $ (hayward / vallée castro) pic img
12 -> HONDA ACCORD EX 2000-4900 $ (dublin / Pleasanton / livermore) pic
13 -> 2009 Chevy Silverado Crew Cab LT - 23900 $ (dublin / Pleasanton / livermore) pic
14 -> 2010 Acura TSX - V6 - TECH - 299,00 $ (dublin / Pleasanton / livermore) pic
15 -> 2003 Nissan Altima - 1830 $ (SF) pic

Choix possibles:

Un apprentissage machine Texte classificateur (Naive Bayes etc)
Regex

Ce que je suis en train de comprendre est si RegEx est trop compliqué pour le travail et un classificateur de texte est un surpuissant?

Si le choix est d'aller avec un classificateur texte alors qu'est-ce que vous considérez comme le plus facile à mettre en œuvre.

Merci d'avance pour votre aide genre.

La solution

Ceci est un problème bien étudié appelé de href="http://en.wikipedia.org/wiki/Information_extraction". Il n'est pas avant de faire directement ce que vous voulez faire, et il est pas aussi simple que vous le faites du son (à savoir l'apprentissage de la machine est pas une réaction trop). Il existe plusieurs techniques, vous devriez lire un aperçu de la zone de recherche.

Autres conseils

Vérifier cette bibliothèque IE pour écrire règle d'extraction correspondant rapide dictionnaire.

Je pense que les ARX ou les systèmes de Phoebus peut répondre à vos besoins si vous avez déjà des données annotées et une liste de mots associés à chaque champ. Leur approche est un mélange d'extraction de l'information et de l'intégration de l'information.

Il y a quelques bonnes bibliothèques de reconnaissance de l'entité. Avez-vous pris un coup d'œil à Apache opennlp ?

En tant qu'utilisateur la recherche d'un modèle spécifique de voiture la tâche est plus facile. Je suis sûr que je pourrais classer, par exemple, la plupart des Rangers Ford depuis que je sais ce qu'il faut chercher avec regexp.

Je pense que le mieux est d'écrire une fonction pour chaque modèle de voiture de type String -> Peut-être Tuple. Ensuite, exécutez tous ces sur chaque entrée et jeter les entrées à zéro ou résultant trop de tuples.

Vous devez utiliser un outil comme Amazon Mechanical Turk pour cela. microtasking humaine. Une autre alternative est d'utiliser un free-lance d'entrée de données. oDesk est un excellent endroit pour regarder. Vous pouvez obtenir d'excellents résultats de qualité et le coût est très raisonnable pour chacun.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow