Rilevamento del testo in argomento?

https://stackoverflow.com/questions/1151347

18-09-2019
|

Domanda

Mi piacerebbe vagliare il testo (in particolare, i messaggi di Twitter) per vedere se si riferiscono ad un particolare argomento. Sei stato su questa strada? Se è così, mi piacerebbe sentire cosa approccio usereste.

Per il mio caso, proprio alla ricerca di parole chiave argomento mi fa testo utile circa il 7% del tempo; le parole chiave hanno molteplici significati, alcuni dei quali non sono in tema. Per il mio uso, filtraggio automatico non ha bisogno di essere perfetti; Sarei felice se i messaggi estratti legati al tema '80% del tempo. Sono anche disposto a perdere il 10-30% dei messaggi sul tema.

Facendo un primo passaggio a mano, ci sono alcune caratteristiche che rendono i messaggi abbastanza probabile che sia buona, come certe frasi in inglese. Altre caratteristiche conferiscono una elevata probabilità di rigetto, come gli URL, più tag hash, e altre frasi. Altri sono più difficili da valutare.

ho potuto fare manualmente una serie di espressioni regolari e pesi associati, e modificare le cose a mano finché non ho avuto uscita mi piaceva. Questo potrebbe ben funzionare. Ma posso citare molti altri approcci possibili, e mi chiedo quali i lettori Stack Overflow hanno avuto fortuna con.

Grazie!

Soluzione

Questo è un intero campo in sé! Mi consiglia di fare qualche ricerca nella letteratura elaborazione del linguaggio naturale.

Ci sono modi ad hoc per farlo, ma questi metodi sarebbero molto soggetto ad errori: molti falsi positivi e falsi negativi. Può essere un buon inizio però.

Se si utilizza una parola chiave, è possibile tentare di disambiguare il significato della parola chiave (se ne ha molteplici significati) utilizzando le parole intorno alla parola chiave in questione. Ma, per fare questo disambiguazione richiederebbe un corpus elaborato (mucchio di documenti) per essere in grado di determinare quali parole appaiono insieme più di frequente, e può significare la stessa cosa.
Si potrebbe misurare la distanza tra il testo che si sta analizzando e un documento che è noto per essere simile. Si avrebbe bisogno di usare le parola conta da entrambe le fonti di testo, e quindi confrontare i vettori termine / documento. Look up "modello documento vettore" per un trattamento più approfondito.

Questo è un buon progetto su cui lavorare, ma non è semplice.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow