質問

RailsアプリにブラックリストベースのPrepanityフィルターを実装することをお勧めします。ブラックリストベースのフィルタリングには多くの問題があることは知っていますが、決定は私の頭の上に行われました。チャレンジ:フィルターにぶつかるスペインの冒とくの良いリストを探しています。英語の場合、テキストファイルの1行ごとに、共役/複数などを徹底的にリストするリストに基づいています。そのようなリストはスペイン語のパブリックドメインに存在しますか?

役に立ちましたか?

解決

良いリストを見つけて調整することは難しいです。また、自動化できる(つまり共役)多くの手動作業を行っているように聞こえます。私は私の会社のためにこれをたくさんしました Cleanspeakという名前の冒とく的なフィルター そして、これの多くは、単語のPOS識別子を使用して自動化できます。多くの場合、POSタグを手動で実行したり、POSソースを見つけることができます。

また、リストの品質とフィルターの維持と管理を考慮する必要があります。多くの人はそれが単純だと思っており、偽陽性を防ぐことは非常に難しいことを認識しています。

とは言っても、他の言語のリストの大部分はオンラインで提供するのが難しく、他の会社から建設または購入したものの多くを支払うことになりました。オンラインで見つけたリストは、翻訳された後、ほとんど価値がなくなりました。また、ブラックリストを取り出して翻訳しようとしましたが、ほとんどの英語の冒とくは他の言語でも同等のものを持っていないため、完全に失敗しました。リストを購入するか、地元の大学の学生と協力してリストを生成することをお勧めします。多くのお客様は、この方法が比較的良好であり、過度に高価ではないことを発見しました。

また、ユーザー生成コンテンツを管理する最良の方法を定義するリソースのいくつかを見てみることをお勧めします。これらは、ビルドと購入の決定をガイドするのに役立ちます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top