Frage

Ich sammle Neuigkeiten für bestimmte Themen und betreibe dann Bayesian Classfier, um sie als interessant oder nicht interessant zu markieren. Ich sehe, dass es Neuigkeiten gibt, die unterschiedliche Artikel sind, die im Wesentlichen die gleichen Nachrichten sind. EG - Ben Kingsley besucht Taj Mahal mit Frau - Kingsley Romances Frau in Tajs Rasenflächen

Wie bringe ich das System bei, all diese als Duplikate zu markieren?

Danke Sanjay

War es hilfreich?

Lösung

Interessante Idee. Ich würde vermuten, dass dies schon einmal untersucht wurde. Ein Blick in ein COMP-Sci-Journal sollte ein paar gute Zeiger auftauchen. Das heißt, hier ist ein paar Idee, die ich habe:

Methode

Sie können die wichtigsten Schlüsselphrasen finden und sehen, wie gut sie mit den wichtigsten Phrasen mit den anderen Artikeln übereinstimmen. Ich würde mir die Daten vorstellen, die von veröffentlicht wurden von Google Über die Häufigkeit von Phrasen im Web erhalten Sie Grundlinien.

Sie müssen irgendwie die Tatsache abholen, dass "in der" ein sehr häufiger Satz ist, aber "Kingsley -Besuche" wichtig sind. Sobald Sie den gesamten Text auf die wichtigsten Sätze gefiltert haben, konnten Sie sehen, wie viele von ihnen übereinstimmen.

Schlüsselphrasen:

  • Set aller Verben, Substantive, Namen und neuen (neuen/Mis-Spelt-) Wörter
  • Sie könnten Phrasen schnappen, die sagen, zwischen einem und fünf Wörtern lange
  • Entfernen Sie alles, was sehr häufig ist (könnte Klassifizierer für gemeinsame Phrasen haben)
  • Sehen Sie, wie viele von ihnen zwischen Artikeln passen.
  • einen steuerbaren Schieberegler haben, um die passende Schwelle festzulegen

Es wird nicht einfach, wenn Sie dies selbst schreiben, aber ich würde sagen, es ist ein sehr interessanter Problembereich.

Beispiel

Wenn wir nur die Titel verwenden und die Methode durch Hand befolgen.

Ben Kingsley besucht Taj Mahal mit Frau Erstellt die folgenden Schlüsselwörter:

  • Ben Kingsley
  • Kingsley
  • Kingsley Besuche
  • Ehefrau
  • Mahal
  • ... etc ...

Diese sollten jedoch entfernt werden, da sie zu häufig sind (daher helfen Sie nicht, den Inhalt eindeutig zu identifizieren).

  • Ben
  • mit Frau

Sobald das gleiche mit dem anderen Titel erledigt ist Kingsley Romances Frau in Tajs Rasenflächen Dann können Sie vergleichen und feststellen, dass einige wichtige Phrasen zueinander übereinstimmen. Daher sind sie auf demselben Thema.

Obwohl dies bereits ein großes Unterfangen ist, können Sie viele tun, um die Übereinstimmung zu fördern.

Erweiterungen

Dies sind alle Möglichkeiten, das festgelegte Keyword abzuschneiden, sobald es erstellt wurde.

  1. Wordnet Wäre ein guter Beginn, um ein Match zwischen "länger" und "Ausdehnung" zu erreichen. Dies wäre nützlich, da Artikel nicht dasselbe Lexikon für ihr Schreiben verwenden.

  2. Sie könnten a laufen Bayesianer Klassenfier auf was zählt als Schlüsselphase. Es kann durch den Satz aller passenden/nicht passenden Artikel und ihre Schlüsselphrasen geschult werden. Sie müssten vorsichtig sein, wie Sie mit unsichtbaren Phrasen umgehen, da diese wahrscheinlich das Wichtigste sind, auf das Sie stoßen. Es könnte sogar besser sein, es auf was zu führen nicht eine Schlüsselphase.

  3. Es könnte sogar eine Idee sein, das zu kalklusieren Levenshtein -Entfernung Zwischen einigen der Schlüsselphrasen fand nichts anderes ein Match. Ich vermute, es ist wahrscheinlich, dass es immer einige Übereinstimmungen geben wird.

Ich habe das Gefühl, dass dies eines dieser Dinge ist, in denen eine sehr gute Antwort Sie promoviert. Ich nehme an, es wurde bereits getan Vor (Google muss eine automatische Möglichkeit haben, all diese Nachrichtenseiten zu kratzen und sie in Kategorien und ähnliche Artikel zu passen.)

viel Glück damit.

Andere Tipps

Dies ist ein Klassifizierungsproblem, aber angesichts der Anzahl der unterschiedlichen Klassen, die Sie haben werden. Eine Option könnte darin bestehen, die Größe jedes Dokuments mithilfe der Dokument zu reduzieren Merkmalsauswahl (Mehr Info). Die Feature -Auswahl umfasst die Auswahl der Oberseite n Begriffe (ausgenommen Stoppen Sie Wörter, und möglicherweise bewirbt sich Stamm auch jedes Wort). Tun Sie dies, indem Sie für jedes Dokument berechnen, die gegenseitige Information (Mehr Info) der einzelnen Begriffe bestellen die Begriffe nach dieser Nummer und Auswahl der Top -N -Begriffe für jedes Dokument. Dieser reduzierte Funktionssatz von Top -N -Begriffen für jedes Dokument kann jetzt die Grundlage für die Durchführung Ihrer doppelten Auswahl bilden (z. B. wenn es mehr als gibt x% Gemeinsame Begriffe zwischen Dokumenten, erneut x berechnet durch Backtesting),

Das meiste davon ist in diesem kostenlosen Buch über behandelt Informationsrückgewinnung.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top