Question

Je génère des statistiques pour un texte en anglais et je souhaite éviter les mots inintéressants tels que "a" et "le".

  • Où puis-je trouver des listes de ces mots sans intérêt?
  • Une liste de ces mots est-elle identique à une liste des mots les plus fréquemment utilisés en anglais?

update: ces mots sont apparemment appelés "mots vides". et non pas "ignorer les mots".

Était-ce utile?

La solution

Le mot magique à utiliser dans Google est "mots vides". Il en résulte une liste assez raisonnable .

MySQL possède également une liste de mots vides intégrée , mais c'est beaucoup trop complet à mes goûts. Par exemple, à la bibliothèque de notre université, nous avons eu des problèmes parce que "troisième" dans le "tiers monde" a été considéré comme un mot d'arrêt.

Autres conseils

on les appelle mots vides , vérifiez cette exemple.

En fonction du sous-domaine de l'anglais dans lequel vous travaillez, vous voudrez peut-être créer votre propre liste de mots vides. Certains mots vides génériques peuvent avoir un sens dans un domaine. Par exemple. Le mot " sont " pourrait en fait être une abréviation / un acronyme dans un domaine . Inversement, vous pouvez ignorer certains mots spécifiques à un domaine en fonction de votre application , mais que vous ne souhaitez peut-être pas ignorer dans le domaine de l'anglais général. Par exemple. Si vous analysez un corpus de rapports d'hôpitaux, vous voudrez peut-être ignorer des mots tels que "historique" et "symptômes", car ils figureraient dans chaque rapport et pourraient ne pas être utiles (du point de vue de l'index inversé vanille).

Sinon, les listes renvoyées par Google devraient être correctes. Le Porter Stemmer utilise cela et l'implémentation du moteur de recherche Lucene utilise ceci .

Obtenez des statistiques sur la fréquence des mots dans les grands corpus txt. Ignorer tous les mots avec la fréquence > un certain nombre.

Je pense avoir utilisé la liste de mots vides en allemand de ici . quand j'ai construit une application de recherche avec lucene.net il y a quelque temps. Le site contient également une liste pour l'anglais, et les listes sur le site sont apparemment celles que le projet lucene utilise par défaut également.

En règle générale, ces mots apparaissent dans les documents les plus fréquents. En supposant que vous ayez une liste globale de mots:

{ Word Count }

Avec la liste de mots, si vous classiez les mots du plus grand nombre au plus bas, vous auriez un graphique (nombre (axe des y) et mot (axe des x)) qui correspond à la fonction de log inverse. les mots seraient à gauche et le point d'arrêt des "mots d'arrêt" serait à l'endroit où la première dérivée la plus élevée existe.

Cette solution est préférable à une tentative de dictionnaire:

  • Cette solution est une approche universelle qui n'est pas liée par le langage
  • Cette tentative apprend quels mots sont réputés être des "mots vides".
  • Cette tentative produira de meilleurs résultats pour des collections très similaires et produira des listes de mots uniques pour les éléments des collections
  • Les mots vides peuvent être recalculés ultérieurement (avec cela, il peut y avoir une mise en cache et une détermination statistique que les mots vides peuvent avoir changé depuis leur calcul)
  • Ceci peut également éliminer les mots et les noms informels ou basés sur le temps (tels que l'argot ou si vous avez un tas de documents dont le nom de l'entreprise est un en-tête)

La tentative de dictionnaire est préférable:

  • Le temps de recherche est beaucoup plus rapide
  • Les résultats sont précachés
  • C'est simple
  • Certains autres sont venus avec les mots vides.
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top