Frage

Ich bin Erzeugung Statistiken für einige englischsprachigen Text, und ich möchte uninteressant Wörter wie „a“ und „das“ überspringen.

  • Wo kann ich einige Listen dieser uninteressant Worte finden?
  • Ist eine Liste dieser Wörter das gleiche wie eine Liste der am häufigsten verwendeten Wörter auf Englisch?

Update:. Diese scheinbar „Stoppwörter“ und nicht „überspringen Worte“

genannt werden
War es hilfreich?

Lösung

Das Zauberwort in Google zu setzen ist „Worte stoppen“. Damit wird rel="noreferrer">.

MySQL hat auch eine eingebaute Liste der Stoppwörter , aber das ist viel zu umfassend, um meinen Geschmack. Zum Beispiel in unserer Universitätsbibliothek hatten wir Probleme, weil „dritte“ in der „Dritten Welt“ ein Stoppwort betrachtet wurde.

Andere Tipps

diese werden als Stoppwörter , lesen Sie in diesem Probe

Je nach Sub-Domain der englischen Sprache Sie arbeiten in, müssen Sie / wollen Ihre eigene Stoppwortliste erstellen. Einige allgemeinen Stoppwörter könnten in einer Domäne sinnvoll sein. Z.B. Das Wort „werden“ könnte tatsächlich sein eine Abkürzung / Akronym in irgendeiner Domäne . Im Gegensatz dazu können Sie einige domänenspezifische Wörter je nach Anwendung ignorieren , die Sie nicht in den Bereich der allgemeinen Englisch ignorieren möchten. Z.B. Wenn Sie eine Sammlung von Krankenhaus Berichte analysieren, können Sie Worte ignorieren wie ‚Geschichte‘ wollen und ‚Symptome‘, wie sie in jedem Bericht finden würde und kann nicht sinnvoll sein (von einem Plain-Vanilla-invertierten Index Perspektive).

Ansonsten werden die von Google zurück Listen sollten in Ordnung sein. Der Porter Stemmer verwendet diese und der Motor Implementierung Suchanfrage Lucene verwendet diese .

Erhalten Sie Statistiken über Worthäufigkeit in großen txt Korpora. Ignorieren Sie alle Wörter mit einer Frequenz> eine Zahl.

Ich glaube, ich die Stoppwortliste für Deutsch verwendet hier wenn ich gebaut vor einer Weile eine Suchanwendung mit lucene.net. Die Website enthält eine Liste für Englisch, auch, und die Listen auf der Website sind apparaently diejenigen, die die Lucene Projekt Verwendung als Standard auch.

Typischerweise sind diese Wörter in den Dokumenten mit der höchsten Frequenz angezeigt. Angenommen, Sie haben eine globale Liste von Worten:

{ Word Count }

Mit der Liste von Worten, wenn Sie die Worte von der höchsten Zählung auf die niedrigsten bestellt hat, würden Sie einen Graphen (count (y-Achse) und Wort (x-Achse), das ist die inverse Log-Funktion. Alle des Anschlags Worte auf der linken Seite sein würden, und der Haltepunkt der „Stoppwörter“ an wäre, wo die höchste 1. Ableitung existiert.

Diese Lösung ist besser als ein Wörterbuch Versuch:

  • Diese Lösung ist ein universeller Ansatz, der nicht durch die Sprache
  • gebunden ist
  • Dieser Versuch lernt, was Worte gelten als „Stoppwörter“
  • sein
  • Mit diesem Versuch wird bessere Ergebnisse für die Sammlungen produzieren, die sehr ähnlich sind, und produzieren einzigartige Wortanzeigen für Artikel in den Sammlungen
  • Die Stoppwörter können zu einem späteren Zeitpunkt neu berechnet werden (damit kann es Caching und eine statistische Bestimmung, dass die Stoppwörter aus geändert haben können, wenn sie berechnet)
  • Dies kann auch eliminieren zeitbasierte oder informelle Worte und Namen (wie Jargon, oder wenn Sie eine Reihe von Dokumenten haben, die einen Firmennamen als Header hatte)

Der Wörterbuch Versuch ist besser:

  • Die Suchzeit ist viel schneller
  • Die Ergebnisse sind precached
  • Die einfach
  • Einige kamen auch mit den Stoppwörter auf.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top