Domanda

Sto generando alcune statistiche per alcuni testi in lingua inglese e vorrei saltare parole poco interessanti come " a " e " il " ;.

  • Dove posso trovare alcuni elenchi di queste parole poco interessanti?
  • Un elenco di queste parole è uguale a un elenco delle parole più utilizzate in inglese?

aggiornamento: apparentemente sono chiamati "quotazioni di stop" e non " salta parole " ;.

È stato utile?

Soluzione

La parola magica da inserire in Google è "stop parole". In questo modo un elenco dall'aspetto ragionevole .

MySQL ha anche un elenco incorporato di parole stop , ma questo è troppo completo per i miei gusti. Ad esempio, nella nostra biblioteca universitaria abbiamo avuto problemi perché "terzo" nel "terzo mondo" è stata considerata una parola d'ordine.

Altri suggerimenti

questi sono chiamati stop words , controlla questo esempio

A seconda del sottodominio dell'inglese in cui stai lavorando, potresti avere / desiderare di compilare il tuo elenco di parole di arresto. Alcune parole di arresto generiche potrebbero essere significative in un dominio. Per esempio. La parola " sono " potrebbe effettivamente essere un'abbreviazione / acronimo in alcuni domini . Al contrario, potresti voler ignorare alcune parole specifiche del dominio a seconda della tua applicazione che potresti non voler ignorare nel dominio dell'inglese generale. Per esempio. Se stai analizzando un corpus di referti ospedalieri, potresti voler ignorare parole come "storia" e "sintomi" come potrebbero essere trovati in ogni referto e potrebbero non essere utili (da una semplice prospettiva di indice inverso alla vaniglia).

Altrimenti, gli elenchi restituiti da Google dovrebbero andare bene. Il Porter Stemmer utilizza questo e l'implementazione del motore di ricerca Lucene usa questo .

Ottieni statistiche sulla frequenza delle parole in corpora di testo di grandi dimensioni. Ignora tutte le parole con frequenza > un numero.

Penso di aver usato l'elenco di parole d'ordine per il tedesco da qui quando ho creato un'applicazione di ricerca con lucene.net qualche tempo fa. Il sito contiene anche un elenco per l'inglese e gli elenchi sul sito sono evidentemente quelli che il progetto lucene utilizza anche come predefinito.

In genere queste parole compaiono nei documenti con la frequenza più alta. Supponendo che tu abbia un elenco globale di parole:

{ Word Count }

Con l'elenco delle parole, se ordinassi le parole dal conteggio più alto al più basso, avresti un grafico (conteggio (asse y) e parola (asse x) che è la funzione di registro inversa. le parole sarebbero a sinistra e il punto di arresto del "stop words" sarebbe nel punto in cui esiste la prima derivata più alta.

Questa soluzione è migliore di un tentativo di dizionario:

  • Questa soluzione è un approccio universale che non è vincolato dalla lingua
  • Questo tentativo impara quali parole sono considerate "stop parole"
  • Questo tentativo produrrà risultati migliori per raccolte molto simili e produrrà elenchi di parole univoci per gli articoli nelle raccolte
  • Le parole di arresto possono essere ricalcolate in un secondo momento (con ciò può esserci la memorizzazione nella cache e una determinazione statistica che le parole di arresto potrebbero essere cambiate rispetto a quando sono state calcolate)
  • Questo può anche eliminare parole e nomi basati sul tempo o informali (come gergo, o se avevi un mucchio di documenti che avevano un nome di società come intestazione)

Il tentativo del dizionario è migliore:

  • Il tempo di ricerca è molto più veloce
  • I risultati sono precollegati
  • È semplice
  • Qualcun altro ha escogitato le parole di stop.
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top