Frage

Ich habe mit der Umsetzung einer schwarzen Liste basierten Profanität Filter für eine Rails-Anwendung beauftragt. Ich weiß, dass es eine Tonne Probleme mit schwarzer Liste basierte Filterung ist, aber die Entscheidung wurde über meinem Kopf gemacht. Herausforderung: Ich bin für eine gute Liste der spanischen Profanität in den Filter laufen. Für Englisch, wir bauen auf einer Liste, die erschöpfend Listen Konjugationen / Plurale / etc, eine pro Zeile einer Textdatei. Gibt es eine solche Liste gibt es in der Public Domain für Spanisch?

War es hilfreich?

Lösung

Finding gute Listen und sie abgestimmt ist, ist schwierig. Es klingt auch wie Sie viel manuelle Arbeit tun, die automatisiert werden können (das heißt Konjugation). Ich habe viel für meine Firma Profanität Filter mit dem Namen CleanSpeak und viel von diesem automatisiert werden können POS-Kennungen für Wörter verwenden und in vielen Fällen können Sie manuell POS-Tagging tun oder eine POS-Quelle finden.

Sie werden auch die Qualität der Listen und den Aufwärtshalt und Verwaltung eines Filters berücksichtigen müssen. Viele Leute denken, es ist einfach und dann erkennen, dass es extrem schwierig ist, falsch-positive Ergebnisse zu verhindern.

Alles, was gesagt, wir die meisten unserer Listen für andere Sprachen gefunden schwer durch Online zu kommen und von anderen Unternehmen viele der eingebauten oder gekauft zu haben, zahlen am Ende. Die Listen wir online beendet fanden fast wertlos, sobald wir hatten sie übersetzt. Wir haben versucht, auch schwarze Liste zu nehmen und haben das übersetzt, was ein völliger Fehlschlag war, weil die meisten englischen Schimpfwörter haben keine Entsprechungen in anderen Sprachen. Ich würde vorschlagen, Listen oder die Arbeit mit Studenten an Ihrer örtlichen Universität Einkaufslisten zu erzeugen. Eine Reihe unserer Kunden fanden diese Methode relativ gut und nicht übermäßig teuer.

Ich würde auch vorschlagen, dass Sie auf einige der Ressourcen da draußen einen Blick darauf werfen, dass die besten Möglichkeiten definieren Benutzergenerierte Inhalte zu verwalten. Diese helfen Sie durch irgendwelche Build vs. Kaufentscheidungen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top