python - Est-ce que ce travail d'approche data mining? Est-ce que c'est une bonne idée?

https://datascience.stackexchange.com/questions/6301

python
data

16-10-2019
|

Question

Je dois champs d'extrait comme le numéro de document, la date et le montant de la facture d'un groupe de fichiers .csv, que je crois sont appelés « texte non structuré. » J'ai quelques fichiers d'entrée étiquetés et utilisera les NLTK et Python pour concevoir un algorithme d'extraction de données.

Pour le premier tour de classement, je prévois d'utiliser la pondération tf-idf avec un classificateur pour identifier le type de document -. Il y a plusieurs fichiers qui utilisent le même format

A ce point, je dois ma façon d'extraire le champ du document, étant donné que ce type de document est X. Je pensais à l'utilisation des fonctions comme les « la plupart des numéros communs » ou « le plus grand nombre avec une virgule » pour trouver le montant de la facture, par exemple, mais étant donné que le montant de la facture peut une valeur numérique, je crois que la taille de l'échantillon serait inférieur au nombre de caractéristiques possibles? (Je n'ai pas de formation ici, ours avec moi.)

Y at-il une meilleure façon de faire la deuxième partie? Je pense que la première partie devrait être d'accord, mais je ne suis pas sûr que la deuxième partie fonctionnera ou si je comprends même pas vraiment le problème. Comment est mon approche en général? Je suis nouveau à ce genre de chose et ce fut le meilleur que je pouvais trouver.

La solution

I am not sure if using a classifier is the best way to approach this problem. If it is something which can be easily extracted using regex, then that is the best way to do it. If however, you want to use classifiers, here are two questions you need to ask yourself.

One, what does the unlabelled data look like and can you design good features from it? Depending on the kind of feature vector you design, the complexity of the classification task may range from very easy, to impossible. (A perceptron cannot solve XOR usually, except when you provide it with specific linear combinations of the input variable).

Two, what does the labelled data look like? Is it representative of the entire dataset or does it only contain very specific types of format? If it is the former, then your classifier will not work well on files which are not represented in the labelled data.

If you just want to test run a classifier first, you can solve the problem of having more features than training samples by using Regularization. Regularization forces the training algorithm of the classifier to accept the simplest possible solution (think occam's razor).

Almost all Machine Learning related packages in Python will have regularization options you can use, so enjoy.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange