Вопрос

Я был настроен на реализацию фильтра лексики на основе черного списка для приложения Rails. Я знаю, что есть тонна вопросов с фильтрацией на основе черной списки, но решение было сделано над моей головой. Задача: Я ищу хороший список испанской ненормативной лексики для запуска в фильтр. Для английского языка мы строим в списке, который исчерпывающе перечисляет конъюгирование / промышленники / и т. Д., По одному на линию текстового файла. Существует ли такой список в общественном доступе для испанского языка?

Это было полезно?

Решение

Нахождение хороших списков и на то, что они настроили сложно. Он также звучит так, как будто вы делаете много ручной работы, которая может быть автоматизирована (т.е. конъюгация). Я сделал много этого для моей компании Фильтр ломания с именем Cleanspeak И большая часть этого может быть автоматизирована с использованием идентификаторов POS для слов и во многих случаях вы можете вручную выполнить POS-метеры или найти источник POS.

Вам также потребуется рассмотреть качество списков и UP-Confer и управление фильтром. Многие люди думают, что это просто, а затем понимает, что чрезвычайно трудно предотвратить ложные позитивы.

Все, что сказано, мы нашли большую часть наших списков для других языков, которые трудно прийти в Интернете и оказались на оплате, чтобы иметь много построенных или приобретенных у других компаний. Списки, которые мы нашли в Интернете, закончились почти бесполезными, как только мы их перевели. Мы также попытались взять черный список и, которые были переведены, что было полным провалом, потому что большинство английских лексиков не имеют эквивалентов на других языках. Я бы предложил покупки списков или работать со студентами в вашем местном университете для генерации списков. Ряд наших клиентов нашли этот метод относительно хорошим и не слишком дорогим.

Я также бы предположил, что вы взглянуте на некоторые из ресурсов, которые определяют лучшие способы управления сгенерированным пользователем контента. Это поможет руководить вами через любую сборку по сравнению с решениями.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top