Frage

Für eine Unternehmensanwendung Forschungsprojekt mich und eine andere Person arbeitet, suchen wir bestimmte Inhalte von der Seite zu entfernen, die geposteten Nachrichten universal zu halten (was bedeutet, nicht verletzend und im Wesentlichen anonym). Gerade jetzt wollen wir eine Nachricht nehmen, dass ein Benutzer auf eine Nachricht im Forum gepostet hat, und entfernen Sie jede Art von Namen, Namen einer Hochschule oder Institution, und Profanität (und wenn später möglich möchten wir Firmennamen entfernen).

Gibt es eine Datenbank, dass wir eine Verbindung herstellen können, dass wir schrubben unsere Botschaften mit ausführen können gegen Werte in der Datenbank, um zu überprüfen, diese zu erkennen?

War es hilfreich?

Lösung

Die Frage scheint eine Online-Datenbank zu implizieren, die bei der Verarbeitung von Nachrichten abgefragt werden würden. Operative Aspekte (Zuverlässigkeit solcher Dienste, liegen in Reaktionszeit etc.) sowie Vollständigkeit Ausgabe macht diese Online / Echtzeit-Ansatz unpraktisch (Notwendigkeit zur Abfrage mehrerer Datenbanken, da keine einzelnen 100% des lexikalischen Bedürfnisses des Projektes decken). Es gibt jedoch viele Datenbanken zum Herunterladen und die Ihnen erlauben würde, Ihre eigene lokale Datenbank von „hot Worte“ zu bauen.

Ein guter Anfang sein könnte WordNet , waren Sie würden wahrscheinlich verwenden alle „ Instanz “ Wörter als Wörter, die normalerweise benötigen, sollten von Nachrichten entfernt werden, da Sie anonymisieren / reinigen sie. (Vielleicht werden Sie wollen auch die „ nicht Instanz “ halten Wörter in einer separaten Tabelle / Liste der Wörter „eher in Ordnung zu sein“). Diese Liste könnte allein wahrscheinlich ehrenvoll auch eine „0,9“ Version Ihrer Anwendung unterstützen.

Sie wollen schließlich auf Diese lexikalische Datenbank erweitern von „schlechten Worte“ jedoch zum Beispiel alle Universitäten Akronymen enthalten (CMU, UCSD, DU, MIT, UNC und so weiter), Sportmannschaften Namen (Celtics, Bruins, Bruins, Red Sox ...) und je nach Bereich Ihrer Nachrichten, zusätzliche Namen von Persönlichkeiten des öffentlichen Lebens (Wordnet hat mehrere, wie George Bush oder Robert De Niro, aber es fehlt weniger berühmten Menschen oder Menschen, die kam der Ruhm in jüngerer Zeit: zB Barack Obama)

Um Wordnet zu ergänzen, zwei verschiedene Arten von Quellen in den Sinn kommen:

  • traditionelle Online-Datenbanken
  • Ontologien und folksonomies

Beispiele für erstere sind sagen: „Städte / Staat von Postleitzahl“ in der USPS. Beispiele für letztere sind verschiedene „Listen“, zusammengestellt von Wissenschaftlern, Organisationen oder verschiedenen Personen. Es ist unmöglich, eine erschöpfende Liste von jedem dieser Quellentypen zu liefern, aber das ist folgendes zu helfen:

  • DAML.ORG Katalog von Ontologien
  • US-Regionen und Staaten Beispiel eine Ontologie DAML-Format
  • Open Directory Projekt Open Source Directory (Aufmerksamkeit, bekommt schnell chaotisch)
  • SourceWatch.org Beispiel eines " Liste der Listen: Leute in Journalismus / Politik "
  • Seach Motor Stichworte:. „ Liste von Listen “, oder auch drei oder vier der Wörter verwenden, die Sie erwarten würden in der Liste finden Sie suchen

In einfacheren Fällen kann man nur Listen herunterladen und so, oder auch: "Cut-and-Paste". Die Ontologien „belastet“ mit zusätzlichen Attributen, dass Sie (in der Zukunft analysieren, müssen Sie diese Attribute tatsächlich wünschen können und verwenden Sie die Ontologien in einer eher traditionellen Art und Weise, denn jetzt, die lexikalischen Einheiten greifen ist alles, was benötigt wird, ).

Diese lexikalische Datenbank Kompilation Aufgabe mag entmutigend. Aber die 80-20 Regel , heißt es, dass 20% der „heißen Worte“ für 80% der Zitate in den Nachrichten ausgemacht werden, und daher mit einem relativ geringen Aufwand, sollten Sie produzieren können, ein System, dass Abdeckungen 90% + Ihre Anwendungsfälle.

Blick auf die Zukunft: Über die "heiße Worte" Datenbank
Es gibt viele Möglichkeiten, diese Aufgabe nähern, mit verschiedenen Techniken und Konzepten von Natural Language Processing (NLP). Als Ihr Projekt in Raffinesse erhält, möchten Sie vielleicht über einige dieser Konzepte lernen und sie möglicherweise implementieren. Zum Beispiel kommen ein einfacher POS-Tagger in dem Sinne, wie es [teilweise] Unterscheidung zwischen etwa verschiedener Nutzung der helfen kannken „Schraube“ wie Ihre Anwendung verwirft beleidigende Worte. ( "Der Vorstand möchte Schraube die Schüler" vs. "Der Vorstand sollte von 4 mit einem Minimum befestigt werden Schrauben pro Yard".

Bevor auch diese formalen NLP-Techniken benötigen, können Sie ein paar musterbasierte Regeln verwenden gemeinsame Fälle zu behandeln, mit der Domäne verbunden ist (s) in Bezug auf die Art von Nachrichten, die Projektziele. Zum Beispiel können Sie prüfen, wie folgt vor:
  - (Wort) State University
  - Senator (Word_Starting_with_Capital Brief)
  - Wörter, die Mischung von Buchstaben und Ziffern (diese werden zu misspell Namen häufig verwendet, und die Art der Filter Ihre Projekte Wünsche umzusetzen umgehen)

Ein weiteres Werkzeug, das ein System insbesondere am Anfang, dass sammelt statistische Informationen über die Nachricht corpus kann nützlich sein wird. Worthäufigkeit, am häufigsten verwendeten Worten, am häufigsten Bigramme (zwei aufeinander folgenden Worten) etc

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top