1 миллион предложений для сохранения в БД - удаление нелентальных английских слов

https://stackoverflow.com/questions/4259044

27-09-2019
|

Вопрос

Я пытаюсь обучить Naive Bayes классификатор с положительными / негативными словами, извлечениями из чувства. пример:

Я люблю этот фильм :))

Я ненавижу, когда идет дождь :(

Идея заключается в том, что я извлекаю положительные или отрицательные предложения, основанные на используемых эмоциях, но для обучения классификатора и сохраняют его в базу данных.

Проблема в том, что у меня есть более 1 миллиона таких предложений, поэтому, если я тренирую его слово по Word, база данных будет пойти на бросок. Я хочу удалить все неоправданные слова «я», «это», «когда», «оно» так, чтобы количество раз я должен сделать запрос базы данных, меньше.

Пожалуйста, помогите мне в разрешении этой проблемы, чтобы предложить мне лучшие способы сделать это

Спасибо

Решение

Возможно, вы захотите проверить этоhttp://books.google.com/books?id=ce1qzecovf4c&lpg=pa390&ots=oguywlrhag&dq=sentimation%20%20miniance%20For%20FATONE%20500&pg=pa379#v=onePage&q=sentiment%20%20Mining%20For%20Fortune%20500&f=. ЛОЖЬ

Другие советы

Есть два распространенных подхода:

Компилировать А. Стоп списка.
POS TAG. Приговоры и выбросить те части речи, которые вы думаете, не интересны.

В обоих случаях определение того, какие слова / POS теги актуальны могут быть выполнены с использованием такой меры, как PMI.

Уменьшите вам: Стандартные списки стоп из поиска информации могут или не могут работать в анализе настроения. Недавно я прочитал газету (без ссылки, извините), где его заявили! И?, обычно удаленные в поисковых системах, являются ценными подсказками для анализа настроений. (Так что может «я», особенно, когда у вас также есть нейтральная категория.)

Редактировать: Вы также можете безопасно выбросить все, что происходит только один раз в учебном наборе (так называемый Hapax Legomena). Слова, которые когда-то возникают, имеют мало информации для вашего классификатора, но может занять много места.

Чтобы уменьшить количество данных, полученных из вашей базы данных, вы можете создать в своей базе данных словарь - таблица, которая отображает слова * к номерам ** - и, чем извлекать только векторный вектор для обучения и полное предложение для ручной маркировки настроения Отказ

| * Научная публикация не приходит к моему мнению, но, возможно, достаточно использовать только стебли или леммы вместо слов. Это уменьшит размер словаря.

| ** Если эта операция убивает вашу базу данных, вы можете создать словарь в локальном приложении - что использует механизм индексации текста (например, Apache Lucene) - и хранить только результат в вашей базе данных.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow