Come trovare i riferimenti alle date naturale di testo?
Domanda
Quello che voglio fare è quello di analizzare grezzo naturale di testo e trovare tutte le frasi che descrivono le date.
Ho una abbastanza grande corpus con tutti i riferimenti per le date segnate up:
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
Non voglio interpretare la data frasi, individuare la loro.Il fatto che sono date è irrilevante (nella vita reale non sono date, ma non voglio annoiarvi con i dettagli), in fondo è solo un open-ended insieme di valori possibili.La grammatica dei valori stessi, possono essere riassunti nel contesto, tuttavia, è molto difficile da costruire manualmente e con l'aumento della complessità diventa sempre più difficile evitare i falsi positivi.
So che questo è un po ' un tiro lungo in modo che io non sono in attesa di un out-of-the-box, la soluzione esiste, ma ciò che la tecnologia o la ricerca posso utilizzare potenzialmente?
Soluzione
Uno degli approcci generici utilizzato nel mondo accademico e l'industria è Condizionato Campi di Casuale.Fondamentalmente, si tratta di un particolare modello probabilistico, si allena con il tuo segnato il backup dei dati e poi si può etichettare alcuni tipi di entità in un testo dato.
Si può anche provare uno dei sistemi di Stanford, l'Elaborazione del Linguaggio Naturale Gruppo: Stanford Entità Con Un Nome Di Riconoscimento
Quando si scarica lo strumento di nota ci sono diversi modelli, è necessario l'ultimo:
Incluso con la Stanford NER sono 4 modello di classe addestrati per CoNLL, 7 modello di classe addestrati per MUC, e un 3 modello di classe addestrati su entrambi insiemi di dati per l'incrocio di quelle serie di lezioni.
3, in Posizione eccellente, Persona, Organizzazione
4 Location di classe, Persona, Organizzazione, Misc
7 classe l'Ora, il Luogo, l'Organizzazione, Persona, Denaro, per Cento, Data
Aggiornamento. Si può effettivamente provare questo strumento online qui.Selezionare il muc.7class.distsim.crf.ser.gz
classificazione e provare un po ' di testo con le date.Non mi sembra di riconoscere "ieri", ma riconosce "del 20 ° secolo", per esempio.Alla fine, questa è una questione di CRF di formazione.
Altri suggerimenti
Tieni presente I crfs sono piuttosto lenti per allenare e richiedono dati annotati dall'uomo, quindi farlo da solo non è facile.Leggi le risposte a Questo per un altro esempiodi come le persone spesso lo fanno in pratica, non molto in comune con la ricerca accademica attuale.