Domanda

Quello che voglio fare è quello di analizzare grezzo naturale di testo e trovare tutte le frasi che descrivono le date.

Ho una abbastanza grande corpus con tutti i riferimenti per le date segnate up:

I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>

Non voglio interpretare la data frasi, individuare la loro.Il fatto che sono date è irrilevante (nella vita reale non sono date, ma non voglio annoiarvi con i dettagli), in fondo è solo un open-ended insieme di valori possibili.La grammatica dei valori stessi, possono essere riassunti nel contesto, tuttavia, è molto difficile da costruire manualmente e con l'aumento della complessità diventa sempre più difficile evitare i falsi positivi.

So che questo è un po ' un tiro lungo in modo che io non sono in attesa di un out-of-the-box, la soluzione esiste, ma ciò che la tecnologia o la ricerca posso utilizzare potenzialmente?

È stato utile?

Soluzione

Uno degli approcci generici utilizzato nel mondo accademico e l'industria è Condizionato Campi di Casuale.Fondamentalmente, si tratta di un particolare modello probabilistico, si allena con il tuo segnato il backup dei dati e poi si può etichettare alcuni tipi di entità in un testo dato.

Si può anche provare uno dei sistemi di Stanford, l'Elaborazione del Linguaggio Naturale Gruppo: Stanford Entità Con Un Nome Di Riconoscimento

Quando si scarica lo strumento di nota ci sono diversi modelli, è necessario l'ultimo:

Incluso con la Stanford NER sono 4 modello di classe addestrati per CoNLL, 7 modello di classe addestrati per MUC, e un 3 modello di classe addestrati su entrambi insiemi di dati per l'incrocio di quelle serie di lezioni.

3, in Posizione eccellente, Persona, Organizzazione

4 Location di classe, Persona, Organizzazione, Misc

7 classe l'Ora, il Luogo, l'Organizzazione, Persona, Denaro, per Cento, Data

Aggiornamento. Si può effettivamente provare questo strumento online qui.Selezionare il muc.7class.distsim.crf.ser.gz classificazione e provare un po ' di testo con le date.Non mi sembra di riconoscere "ieri", ma riconosce "del 20 ° secolo", per esempio.Alla fine, questa è una questione di CRF di formazione.


Stanford NER screenshot

Altri suggerimenti

Tieni presente I crfs sono piuttosto lenti per allenare e richiedono dati annotati dall'uomo, quindi farlo da solo non è facile.Leggi le risposte a Questo per un altro esempiodi come le persone spesso lo fanno in pratica, non molto in comune con la ricerca accademica attuale.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top