Frage

Lassen Sie uns sagen, man sollte die Marke „ONE“ Online-Überwachung. Welche Algorithmen können auf separaten Seiten über die Marke ONE von Seiten verwendet werden, um das gemeinsame Wort, die ein?

Ich denke, vielleicht Bayes könnte funktionieren, aber es gibt auch andere Möglichkeiten, dies zu tun?

War es hilfreich?

Lösung

Wenn es nicht wirklich eindeutiges Wort ist, dann würde ich den nächsten Ansatz vorschlagen.

Stellen wir uns vor, dass unsere Schlüssel-Wort Java ist. Dann gibt es mindestens zwei Kategorien: über die Programmierung und über den Tourismus in Indonesien. Wir sind in der ersten interessiert.

Wirft sich einen kleinen Text über Java nehmen (vielleicht aus Büchern oder aus Wikipedia). Dann läßt einige Schwelle annehmen (beispielsweise 0,7). Dann vergleichen wir unseren Text mit verschiedenen Seiten (einer der schnellsten Wege, wird mit classic Vector Space Model Algorithmus, können Sie es selbst implementieren oder die Implementierung in google finden). Dann vergleichen Sie die Ergebnisse mit Ihrer Schwelle und Filter schwachen Ergebnissen.


über Bayes-Algorithmus: es ist nicht schlecht Ansatz imo. Aber Sie sollten ‚teach‘ Ihr Algorithmus sehr vorsichtig, weil einige schlechte Eingänge können die ganze Arbeit verderben.

Lassen Sie mich erklären. Eingang für Ihren Bayes-Algorithmus ist Text mit Ihrem brand Wort. Die Ausgabe erfolgt Wahrscheinlichkeit [0 .. 1], dass Ihr Text über Ihre Marke ist, aber nicht über etwas anderes. In der Praxis gibt diesen Algorithmus sehr oft Ergebnisse, die Sie in der Nähe von 0 oder in der Nähe von 1 und es selten kehren Werte zwischen 0,2 und 0,8. Es bedeutet, dass der Algorithmus sehr empfindlich auf kleine Veränderungen ist und 1 oder 2 Wörter in Text von 100 Wörtern kann das Ergebnis ernsthaft beeinträchtigen.

Andere Tipps

Sie möchten vielleicht Associate Marke ONE mit seinen Produkten, seinen leitenden Angestellten oder seinen Herausforderern in Ihrer Überwachung.

Der Begriff Sie suchen ist Konzept Lernen oder Konzept Extraktion . Das Wort Ein erscheint in vielen Seiten, aber meistens verweist sie auf die Konzept von einer als Quantität. Nur selten bezieht er sich auf das Konzept der ONE die Marke. (Ein anderes häufig verwendetes Beispiel ist SUN wie in der Astral Objekt Sonne, oder der Firma mit dem Namen Sun).

ich weiß Ari Rappoport viel Forschung zu diesem Thema hat. Praktisch läuft dies auf etwas nach unten wie mouviciel Antwort , aber Ari Forschung auch darüber, wie ist, können Sie automatisch schließen was ähnliche Worte, die Sie brauchen suchen, um von einer-the-Marke One-as-Nummer zu unterscheiden.

Ich habe Annäherung an Dinge getan von Wikipedia als eine riesige Ontologie zu sehen (wo jeder Hyperlink ist eine Beziehung zwischen Quellenknoten und Endknoten).

EDIT: Eine sehr grobe algo, mit dem "Java" Beispiel:

  • Abfrage "Java" in der Wikipedia. Unter andere, sollte dies Ihnen (bei dest) die Insel und der Programmier Sprache.
  • Lernen Sie die in / out Knoten dieser Basis Seiten (von den Basisseiten Hyperlinks).
  • Sie haben nun kleine Sätze von zueinander in Beziehung stehenden Wörtern.
  • Compute einen „Abstand“ jeden Satz auf der Seite und finden Sie das Minimum dieser Abstände.

Die Strecke, die Sie verwenden werden, ist sehr subjektiv und muss ein bisschen gezwickt werden, um Ihre Bedürfnisse anzupassen. Sie könnten Schwierigkeiten haben, den „Kern“ von jeder Seite zu bekommen, als Parsing HTML wird ein großer Schmerz sein.

Ich würde eine unüberwachte Herangehensweise an das Problem vorschlagen:

  1. Get so viele mögliche Dokumente, die die "ONE" in richtigen Kontext zu beschreiben und einen Korpus erstellen.

  2. Finden Statistisch unwahrscheinlich Sätze in diesem Korpus gegen einen Standard Englisch Korpus.

gibt diese Website ein gutes Beispiel
http: //sip.s-anand ? .net / url = http: //en.wikipedia.org/wiki/Apple_Inc .

Wie Sie die markenspezifische Begriffe wie iPod sehen können, powerpc usw. werden einfach herausgefiltert werden.

Wenn Sie diejenigen haben extrahiert Sie einen Google Alert oder ähnliches Äquivalent erstellen können (wenn Google Alerts sind zu einfach) mit Abfragen wie „SIP“ und „One“ , um neue Artikel zu überwachen.

Natürlich gegeben ist dieser Ansatz nicht überwacht es nicht sehr effizient sein könnte, soll aber die Arbeit machen.

Ein anderer Ansatz könnte sein, die Seite zu sehen in Google Verzeichnis , die ‚hat die Bahn organisiert thematisch in Kategorien. Sie könnten möglicherweise die Kategorieinformationen für jede Seite verwenden, um zu entscheiden, was es überhaupt geht.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top