Как включить слова в качестве численной функции в классификации

https://stackoverflow.com/questions/4207057

25-09-2019
|

Вопрос

Какой лучший способ использовать саму слова как функции в любом алгоритме обучения машины?

Проблема, которую я должен извлечь функцию, связанную с ним из определенного абзаца. Должен ли я использовать индекс в словаре в качестве численной функции? Если это так, как я нормализую это?

В целом, как сами такие слова используются в качестве функций в NLP?

Решение

Есть несколько обычных методов, по которым слова сопоставлены на Особенности (столбцы в 2D-матрице данных, в которых строки представляют собой отдельные векторы данных) для ввода в модели обучения машин.классификация:

а. Логический поле, которое кодирует наличие или отсутствие этого слова в данном документе;
а. частотная гистограмма заранее определенного набора слов, часто X наиболее часто встречающихся слов из всех документов, содержащих учебные данные (подробнее об этом в последнем абзаце этого ответа);
то сопоставление из двух или более слов (например, «альтернатива» и «образ жизни» в последовательном порядке имеют смысл не связанный ни словом компонента); Это сопоставление может быть захвачено в самой самой модели данных, например, логическая особенность, которая представляет собой наличие или отсутствие двух конкретных слов, непосредственно рядом друг с другом в документе, или эти отношения могут быть использованы в технике ML, как наивный Байесовский классификатор будет делать в этом случаеподчеркнул текст;
Слова как сырой данные Извлечь скрытые особенности, например, ЛСА или скрытый семантический анализ (также иногда называют LSI для скрытой семантической индексации). LSA - это матричная технология, основанная на разложении, которая вытекает скрытые переменные из текста, не очевидного из слов самого текста.

Общие ссылочные данные, установленные в машинном обучении, состоят из частот 50 или около того наиболее распространенных слов, ака «Стоп слова» (например, а., ан., из, а также, то, там, если) Для опубликованных работ Шекспира, Лондона, Остина и Милтона. Базовый многослойный PercePtron с одним скрытым слоем может отделить этот данные, установленный на 100% точности. Этот набор данных и вариации на нем широко доступны в ML репозиториях данных и академические работы Представление результатов классификации также являются распространенными.

Другие советы

Стандартный подход - это представление «Сумки-слов», где у вас есть одна функция за слово, давая «1», если слово происходит в документе и «0», если оно не произойдет.

Это дает много особенностей, но если у вас есть простой учащийся, как наивный байс, это все еще хорошо.

«Индекс в словаре» - бесполезная особенность, я бы не использовал ее.

TF-IDF. является довольно стандартным способом поворота слов в числовые функции.

Вам нужно не забывать использовать алгоритм обучения, который поддерживает числовые счета, как СВМ.. Отказ Naive Bayes не поддерживает числовые функции.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow