python - Sarà questo lavoro approccio data mining? E 'una buona idea?

https://datascience.stackexchange.com/questions/6301

python
data

16-10-2019
|

Domanda

Ho bisogno di campi di estrazione, come il numero del documento, la data e importo della fattura da un gruppo di file .csv, che credo sono indicati come "testo non strutturato". Ho alcuni file di input etichettati e userò il NLTK e Python per la progettazione di un algoritmo di estrazione dei dati.

Per il primo turno di qualificazione, ho intenzione di usare TF-IDF ponderazione con un classificatore per identificare il tipo di documento -. Ci sono più file che utilizzano lo stesso formato

A questo punto, ho bisogno di mio modo di estrarre il campo dal documento, dato che si tratta di X tipo di documento. Ho pensato di usare funzioni come la "maggior parte dei numeri comuni" o "il più grande numero con una virgola" per trovare l'importo della fattura, per esempio, ma dal momento che l'importo della fattura posso qualsiasi valore numerico Credo che la dimensione del campione non sia inferiore al numero di possibili caratteristiche? (Non ho una formazione qui, orso con me.)

C'è un modo migliore per fare la seconda parte? Penso che la prima parte dovrebbe essere a posto, ma non sono sicuro che la seconda parte funzionerà o se ho ancora veramente capito il problema. Come è il mio approccio in generale? Sono nuovo a questo genere di cose e questo era il meglio che potevo trovare.

Soluzione

Non sono sicuro se si utilizza un classificatore è il modo migliore per affrontare questo problema. Se si tratta di qualcosa che può essere facilmente estratto utilizzando espressioni regolari, allora questo è il modo migliore per farlo. Se, tuttavia, si desidera utilizzare classificatori, qui ci sono due domande che dovete chiedere a te stesso.

Uno, che cosa l'aspetto dei dati senza etichetta come e si può progettare buone caratteristiche da esso? A seconda del tipo di funzione di vettore a progettare, la complessità del compito classificazione può variare da molto facile, se non impossibile. (A perceptron non può risolvere XOR di solito, tranne quando si fornisce con particolare lineare combinazioni di grandezza in ingresso).

Due, che cosa fa i dati etichettati assomigliano? E 'rappresentante di tutta la serie di dati oppure contiene solo tipi molto particolari di formato? Se è la prima, allora il vostro classificatore non funziona bene su file che non sono rappresentati nei dati etichettati.

Se si desidera solo per test di eseguire un classificatore prima, si può risolvere il problema di avere più funzioni di addestramento campioni utilizzando Regolarizzazione. le forze di regolarizzazione l'algoritmo di formazione del classificatore ad accettare la soluzione più semplice possibile (si pensi rasoio di Occam).

Quasi tutti i pacchetti relativi macchina di apprendimento in Python avranno opzioni di regolarizzazione è possibile utilizzare, in modo da godere.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange