Come iniziare l'Estrazione di Informazioni?

https://stackoverflow.com/questions/573620

05-09-2019
|

Domanda

Mi consiglia un percorso di formazione per iniziare e diventare molto buona per l'Estrazione di Informazioni.Ho iniziato a leggere su di esso per fare uno dei miei hobby progetto e presto si rese conto che avrei dovuto essere bravo in matematica (Algebra, Statistiche, Prob).Ho letto alcuni dei introduttivo libri su diversi argomenti di matematica (e la sua molto divertente).Cercando un po ' di orientamento.Si prega di aiutare.

Aggiornamento:Solo per rispondere a un commento.Mi interessa molto di più il Testo di Estrazione di Informazioni.

Soluzione

Proprio per rispondere a uno dei commenti. io Sono più interessato a informazioni sul testo Estrazione.

A seconda della natura del vostro progetto, elaborazione del linguaggio naturale , e noreferrer linguistica computazionale possono tornare utili sia -Hanno fornire strumenti per misurare e funzionalità estratto da informazioni testuali, e applicare la formazione, scoring , o classificazione. I buoni libri introduttive includono di OReilly Programmazione Intelligenza Collettiva (capitoli su "la ricerca, e la classifica" , il filtraggio dei documenti, e forse alberi di decisione).

progetti suggeriti che utilizzano questa conoscenza: POS (part-of-speech) di tagging e riconoscimento entità chiamata (capacità di riconoscere i nomi, i luoghi e le date dal testo in chiaro). È possibile utilizzare Wikipedia come un corpus di formazione, dal momento che la maggior parte delle informazioni di destinazione è già estratto in InfoBoxes -Questo potrebbe fornire una certa quantità limitata di feedback di misura.

L'altro grande martello in IE è di ricerca, un campo da non sottovalutare. Anche in questo caso, il libro di OReilly fornisce qualche introduzione nella classifica di base; una volta che hai un grande corpus di testi indicizzati, si possono fare alcune operazioni davvero IE con esso. Scopri Peter Norvig: Teorizzare dai dati come punto di partenza, e molto buon motivatore -Forse si potrebbe reimplementare alcuni dei loro risultati come un esercizio di apprendimento.

Come un fore-avvertimento, penso di essere obbligato a dire, che l'estrazione di informazioni è difficile . Il primo 80% di tutte le lavorazioni sono di solito banali; tuttavia, la difficoltà di ogni percentuali in più per le attività di IE di solito sono in crescita esponenziale -nel di sviluppo, e il tempo di ricerca. E 'anche abbastanza -più underdocumented di informazioni di alta qualità è attualmente in white paper oscuri ( Google scholar è tuo amico) -do check them out una volta che hai la mano bruciato un paio di volte. Ma, soprattutto, non lasciate che questi ostacoli che buttare fuori -ci sono certamente grandi opportunità di fare progressi in questo settore.

Altri suggerimenti

Lo consiglio l'eccellente libro Introduzione alla Information Retrieval da Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze. Si estende su una vasta area di questioni che formano un grande e up-to-date (2008) base per l'informazione di estrazione ed è disponibile online il testo integrale (sotto il link indicato).

Vorrei suggerire di dare un'occhiata al href="http://www.nltk.org" rel="nofollow noreferrer"> Natural Language Toolkit (NLTK) NLTK libro . Entrambi sono disponibili gratuitamente e sono grandi strumenti di apprendimento.

Non c'è bisogno di essere bravo in matematica per fare IE basta capire come funziona l'algoritmo, esperimento sui casi per i quali è necessario un risultato ottimale di prestazioni, e la scala con cui avete bisogno per raggiungere il target livello di precisione e lavorare con quella.Si sono fondamentalmente di lavoro con algoritmi e programmazione e aspetti di CS/AI/Macchina di apprendimento teoria che non è la scrittura di un dottorato di carta sulla costruzione di una nuova macchina algoritmo di apprendimento in cui devi convincere qualcuno di principi matematici perché l'algoritmo funziona così e non sono assolutamente d'accordo con questo concetto.C'è una differenza tra pratica e teoria - come tutti sappiamo i matematici sono bloccato più sulla teoria quindi la praticabilità di algoritmi per generare praticabili soluzioni di business.Si dovrebbe, tuttavia, è necessario fare un po ' di sfondo a leggere entrambi i libri in PNL così come articoli di giornale per scoprire che cosa la gente trovato dai risultati.IE è un contesto specifico dominio, è necessario definire prima in quale contesto si sta tentando di estrarre informazioni - Come definireste questa informazione?Qual è il vostro modello strutturato?Supponendo che si estrae dai semi di dati strutturati e non imposta.Quindi sarebbe anche voler pesare, se si desidera un approccio il vostro internet explorer, da uno standard di approccio umano che coinvolge le cose come le espressioni regolari e pattern matching o vuoi farlo utilizzando statistiche approcci di apprendimento automatico come le Catene di Markov.Si può anche guardare approcci ibridi.

Un processo standard per il modello che si possono seguire per fare il vostro estrazione è quello di adattare un data/text mining approccio:

pre-elaborazione - definire e standardizzare i dati per l'estrazione da diverse o specifiche fonti di pulizia i tuoi dati la segmentazione/classificazione/clustering/associazione - il blackbox, dove la maggior parte del vostro lavoro di estrazione sarà fatto post-trattamento purificante, i dati a cui si desidera memorizzare o rappresentare come informazioni

Inoltre, è necessario comprendere la differenza tra ciò che è data e che cosa è l'informazione.Come si può riutilizzare la vostra scoperto informazioni come fonti di dati per costruire ulteriori informazioni mappe/alberi/grafici.È tutto molto contestualizzati.

misure standard per:input->processi->output

Se si utilizza Java/C++ ci sono un sacco di framework e librerie disponibili si può lavorare.Perl sarebbe un ottimo linguaggio per fare la tua NLP estrazione lavorare se si vuole fare un sacco di testo standard di estrazione.

È possibile rappresentare i dati come XML o, addirittura, come RDF di grafici (Web Semantico) e per la definizione di modello contestuale si può costruire un rapporto di associazione e di grafici che molto probabilmente cambierà come si fare di più e di più estrazioni richieste.La distribuzione come un servizio restful come si vuole trattare come una risorsa per i documenti.È possibile anche il collegamento al taxonomized insiemi di dati e sfaccettato dire la ricerca utilizzando Solr.

Buone fonti di leggere sono:

Manuale di Compuational Linguistica e di Elaborazione del Linguaggio Naturale
Fondamenti di Statistica, Elaborazione del Linguaggio Naturale
Estrazione di informazioni Applicazioni in Prospettiva
Un'Introduzione all'Elaborazione del Linguaggio Perl e Prolog
La parola e il Linguaggio di Elaborazione (Jurafsky)
Text Mining Application Programming
Il Text Mining Manuale
Domare Testo
Algoritmi Intelligenti Web
Costruzione Di Applicazioni Di Ricerca
IEEE Journal

Assicurati di effettuare una valutazione approfondita prima di distribuire tali applicazioni/algoritmi in produzione in quanto possono in modo ricorsivo aumentare i requisiti di archiviazione dati.Si potrebbe utilizzare AWS/Hadoop per il clustering, Mahout su larga scala per la classificazione tra gli altri.Memorizzare il set di dati in MongoDB o non strutturati discariche in jackrabbit, etc.Provate a sperimentare con i prototipi prima.Ci sono vari archivi è possibile utilizzare per la vostra base di formazione sul dire reuters corpus, informatore, TREC, etc.Si possono anche controllare alchemyapi, CANCELLO, UIMA, OpenNLP, etc.

Edificio estrazioni dal testo standard è più facile poi dire di un documento web in modo rappresentanza in pre-fase di lavorazione diventa ancor più cruciale per definire che cosa è esattamente che si sta tentando di estratto standardizzato documento di rappresentazione.

Le misure Standard sono:precision, recall, f1 misura tra gli altri.

Non sono d'accordo con le persone che consiglio di leggere Programming Collective Intelligence.If si vuole fare qualcosa di complessità anche moderata, è necessario essere bravo in matematica applicata e PCI ti dà un falso senso di fiducia. Ad esempio, quando si parla di SVM, si dice solo che libSVM è un buon modo di applicazione delle stesse. Ora libSVM è sicuramente un buon pacchetto, ma che si preoccupa per i pacchetti. Quello che dovete sapere è il motivo per cui SVM dà i risultati formidabili che dà e come è fondamentalmente diversa da modo bayesiano di pensare (e come Vapnik è una leggenda).

IMHO, non c'è nessuno soluzione ad esso. Si dovrebbe avere una buona presa sul Algebra lineare e la probabilità e la teoria bayesiana. Bayes, devo aggiungere, è importante per questo, come l'ossigeno per gli esseri umani (è un po 'esagerato, ma si ottiene quello che voglio dire, giusto?). Inoltre, ottenere una buona presa sul Machine Learning. Usando solo il lavoro degli altri è perfettamente bene, ma nel momento in cui volete sapere perché qualcosa è stato fatto il modo in cui era, si dovrà sapere qualcosa di ML.

Controlla questi due per che:

http://pindancing.blogspot.com/2010/ 01 / apprendimento-su-macchina-learniing.html

http://measuringmeasures.com/blog/ 2010/1 / 15 / apprendimento-about-statistico-learning.html

http: // measuringmeasures. com / blog / 2010/3/12 / apprendimento-su-machine-learning-secondo-ed.html

Ok, ora thats tre di loro :) / fresco

L'articolo Wikipedia Informazioni Extraction è una breve introduzione.

A un livello più accademico, si potrebbe desiderare di scremare un giornale come L'integrazione di modelli probabilistici di estrazione e di data mining per Scoprite Relazioni e pattern nel testo .

Date un'occhiata qui se avete bisogno di un servizio Enterprise Grado NER. Lo sviluppo di un sistema NER (e insieme di apprendimento) è un molto tempo e alto lavoro qualificato.

Questo è un po 'fuori tema, ma si potrebbe desiderare di leggere programmazione Intelligenza Collettiva da O'Reilly. Si tratta indirettamente con l'estrazione delle informazioni di testo, e non si assume molto di un fondo per la matematica.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow