Domanda

Sono stato incaricato con l'attuazione di un filtro di blasfemo black list-based per un'applicazione Rails. So che ci sono un sacco di problemi con filtraggio blacklist-based, ma la decisione è stata presa sopra la mia testa. Sfida: Sto cercando l'elenco di parolacce buona spagnolo a correre nel filtro. Per l'inglese, stiamo costruendo su una lista che elenca in modo esaustivo le coniugazioni / plurali / etc, uno per riga di un file di testo. Fa l'elenco come un esistere di dominio pubblico per lo spagnolo?

È stato utile?

Soluzione

liste buoni trovare e averli sintonizzati è difficile. Suona anche come si sta facendo un sacco di lavoro manuale che può essere automatizzato (vale a dire coniugazione). Ho fatto un sacco di questo per filtro parolacce della mia azienda denominata CleanSpeak e molto di questo può essere automatizzato utilizzando identificatori POS per le parole e in molti casi si può fare manualmente POS codifica o trovare una fonte POS.

Sono necessari a prendere in considerazione la qualità delle liste e l'up-mastio e la gestione di un filtro. Un sacco di gente pensa che sia semplice e poi rendersi conto che è estremamente difficile da evitare falsi positivi.

Detto questo, abbiamo trovato la maggior parte delle nostre liste per le altre lingue difficili da trovare on-line e abbiamo finito per pagare per avere molte delle costruiti o acquistati da altre aziende. Le liste abbiamo trovato on-line ha finito per essere quasi inutile una volta che abbiamo avuto li tradotti. Abbiamo anche tentato di stipulare blacklist e che hanno tradotto, che è stato un completo fallimento perché la maggior parte bestemmie inglesi non hanno equivalenti in altre lingue. Vorrei suggerire l'acquisto di elenchi o di lavoro con gli studenti presso la vostra università locale per generare elenchi. Un certo numero di nostri clienti ha trovato questo metodo relativamente buona e non eccessivamente costoso.

Vorrei anche suggerire che si prende uno sguardo ad alcune delle risorse là fuori che definiscono i modi migliori per gestire User Generated Content. Questi aiutano volontà guida l'utente attraverso tutte le decisioni accumulo vs. buy.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top