Что такое хорошая библиотека фильтров питона? [закрыто

StackOverflow https://stackoverflow.com/questions/3531746

  •  30-09-2019
  •  | 


Нравиться https://stackoverflow.com/questions/1521646/best-profanity-filter, но для Python - и я ищу библиотеки, которые я могу запустить и контролировать себя на местном уровне, в отличие от веб -сервисов.

(И хотя всегда приятно услышать ваши фундаментальные возражения принципа в фильтрации ненормативной лексики, я не ищу их здесь конкретно. Что касается того, не особенно большая проблема. Я знаю, что вам нужен человеческий вклад, чтобы решать проблемы контента. Я бы просто хотел найти хорошую библиотеку и посмотреть, какое использование я могу из этого сделать.)

Это было полезно?


Я не нашел библиотеки ненормативной лексики Python, поэтому я сам сделал.



Список регулярных выражений, которые соответствуют запрещенному слову. Пожалуйста, не используйте \b, он будет вставлен в зависимости от inside_words.

Пример: ['bad', 'un\w+']


По умолчанию: True



По умолчанию: "$@%-?!"

Строка с символами, из которых строки замены будут сгенерированы случайным образом.

Примеры: "%&$?!" или "-" и т. д.


По умолчанию: True

Элементы управления, если вся строка будет заменена или будет сохранен первый и последний Chars.


По умолчанию: False

Элементы управления, если слова и поиск в других словах. Отключив это

Источник модуля

(Примеры в конце)

Module that provides a class that filters profanities


__author__ = "leoluk"
__version__ = '0.0.1'

import random
import re

class ProfanitiesFilter(object):
    def __init__(self, filterlist, ignore_case=True, replacements="$@%-?!", 
                 complete=True, inside_words=False):
        Inits the profanity filter.

        filterlist -- a list of regular expressions that
        matches words that are forbidden
        ignore_case -- ignore capitalization
        replacements -- string with characters to replace the forbidden word
        complete -- completely remove the word or keep the first and last char?
        inside_words -- search inside other words?


        self.badwords = filterlist
        self.ignore_case = ignore_case
        self.replacements = replacements
        self.complete = complete
        self.inside_words = inside_words

    def _make_clean_word(self, length):
        Generates a random replacement string of a given length
        using the chars in self.replacements.

        return ''.join([random.choice(self.replacements) for i in

    def __replacer(self, match):
        value = match.group()
        if self.complete:
            return self._make_clean_word(len(value))
            return value[0]+self._make_clean_word(len(value)-2)+value[-1]

    def clean(self, text):
        """Cleans a string from profanity."""

        regexp_insidewords = {
            True: r'(%s)',
            False: r'\b(%s)\b',

        regexp = (regexp_insidewords[self.inside_words] % 

        r = re.compile(regexp, re.IGNORECASE if self.ignore_case else 0)

        return r.sub(self.__replacer, text)

if __name__ == '__main__':

    f = ProfanitiesFilter(['bad', 'un\w+'], replacements="-")    
    example = "I am doing bad ungood badlike things."

    print f.clean(example)
    # Returns "I am doing --- ------ badlike things."

    f.inside_words = True    
    print f.clean(example)
    # Returns "I am doing --- ------ ---like things."

    f.complete = False    
    print f.clean(example)
    # Returns "I am doing b-d u----d b-dlike things."

Другие советы

arrBad = [
'2 girls 1 cup',
'auto erotic',
'baby batter',
'ball gag',
'ball gravy',
'ball kicking',
'ball licking',
'ball sack',
'ball sucking',
'barely legal',
'beaver cleaver',
'beaver lips',
'bi curious',
'big black',
'big breasts',
'big knockers',
'big tits',
'black cock',
'blonde action',
'blonde on blonde action',
'blow j',
'blow your l',
'blue waffle',
'booty call',
'brown showers',
'brunette action',
'bullet vibe',
'bung hole',
'camel toe',
'carpet muncher',
'chocolate rosebuds',
'cleveland steamer',
'clover clamps',
'date rape',
'deep throat',
'dirty pillows',
'dirty sanchez',
'dog style',
'doggie style',
'doggy style',
'donkey punch',
'double dong',
'double penetration',
'dp action',
'eat my ass',
'ethical slut',
'female squirting',
'foot fetish',
'fuck buttons',
'fudge packer',
'gang bang',
'gay sex',
'giant cock',
'girl on',
'girl on top',
'girls gone wild',
'golden shower',
'goo girl',
'group sex',
'hand job',
'hard core',
'hot chick',
'how to kill',
'how to murder',
'huge fat',
'jack off',
'jail bait',
'jerk off',
'leather restraint',
'leather straight jacket',
'lemon party',
'make me come',
'male squirting',
'menage a trois',
'missionary position',
'mound of venus',
'mr hands',
'muff diver',
'nig nog',
'nsfw images',
'one cup two girls',
'one guy one jar',
'phone sex',
'piece of shit',
'piss pig',
'pleasure chest',
'pole smoker',
'poop chute',
'prince albert piercing',
'raging boner',
'reverse cowgirl',
'rosy palm',
'rosy palm and her 5 sisters',
'rusty trombone',
'shaved beaver',
'shaved pussy',
'spread legs',
'strap on',
'strip club',
'style doggy',
'suicide girls',
'sultry women',
'tainted love',
'taste my',
'tea bagging',
'tied up',
'tight white',
'tongue in a',
'tub girl',
'two girls one cup',
'urethra play',
'venus mound',
'violet blue',
'violet wand',
'wet dream',
'white power',
'women rapping',
'wrapping men',
'wrinkled starfish',
'yellow showers',

def profanityFilter(text):
brokenStr1 = text.split()
badWordMask = '!@#$%!@#$%^~!@%^~@#$%!@#$%^~!'
new = ''
for word in brokenStr1:
    if word in arrBad:
        print word + ' <--Bad word!'
        text = text.replace(word,badWordMask[:len(word)])
        #print new

return text

print profanityFilter("this thing sucks sucks sucks fucking stuff")

Вы можете добавить или удалить из списка плохих слов, Arrbad, как вам нравится.

WebPurify - это библиотека фильтров по ненормативной лексике для Python

Ненормативная лексика? Что, черт возьми, это? ;-)

Прошло все равно пару лет, прежде чем компьютер действительно сможет распознать ругательства и проклятия, и я искренне надеясь, что к тому времени люди поняли, что ненормативная лексика является человеческой, а не «опасной».

Вместо глупого фильтра, имейте умного человеческого модератора, который может сбалансировать тон обсуждения в зависимости от необходимости. Модератор, который может обнаружить злоупотребление, как:

«Если бы ты был моим мужем, я бы отравил твой чай». - «Если бы ты была моей женой, я бы выпил».

(Это было от Уинстона Черчилля, кстати.)

Конечно, пользователи могут обойти это, но это должно сделать довольно тщательную работу по устранению ненормативной лексики:

import re
def remove_profanity(s):
    def repl(word):
        m = re.match(r"(\w+)(.*)", word)
        if not m:
            return word
        word = "Bork" if m.group(1)[0].isupper() else "bork"
        word += m.group(2)
        return word
    return " ".join([repl(w) for w in s.split(" ")])

print remove_profanity("You just come along with me and have a good time. The Galaxy's a fun place. You'll need to have this fish in your ear.")
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top