Как включить слова в качестве численной функции в классификации
-
25-09-2019 - |
Вопрос
Какой лучший способ использовать саму слова как функции в любом алгоритме обучения машины?
Проблема, которую я должен извлечь функцию, связанную с ним из определенного абзаца. Должен ли я использовать индекс в словаре в качестве численной функции? Если это так, как я нормализую это?
В целом, как сами такие слова используются в качестве функций в NLP?
Решение
Есть несколько обычных методов, по которым слова сопоставлены на Особенности (столбцы в 2D-матрице данных, в которых строки представляют собой отдельные векторы данных) для ввода в модели обучения машин.классификация:
а. Логический поле, которое кодирует наличие или отсутствие этого слова в данном документе;
а. частотная гистограмма заранее определенного набора слов, часто X наиболее часто встречающихся слов из всех документов, содержащих учебные данные (подробнее об этом в последнем абзаце этого ответа);
то сопоставление из двух или более слов (например, «альтернатива» и «образ жизни» в последовательном порядке имеют смысл не связанный ни словом компонента); Это сопоставление может быть захвачено в самой самой модели данных, например, логическая особенность, которая представляет собой наличие или отсутствие двух конкретных слов, непосредственно рядом друг с другом в документе, или эти отношения могут быть использованы в технике ML, как наивный Байесовский классификатор будет делать в этом случаеподчеркнул текст;
Слова как сырой данные Извлечь скрытые особенности, например, ЛСА или скрытый семантический анализ (также иногда называют LSI для скрытой семантической индексации). LSA - это матричная технология, основанная на разложении, которая вытекает скрытые переменные из текста, не очевидного из слов самого текста.
Общие ссылочные данные, установленные в машинном обучении, состоят из частот 50 или около того наиболее распространенных слов, ака «Стоп слова» (например, а., ан., из, а также, то, там, если) Для опубликованных работ Шекспира, Лондона, Остина и Милтона. Базовый многослойный PercePtron с одним скрытым слоем может отделить этот данные, установленный на 100% точности. Этот набор данных и вариации на нем широко доступны в ML репозиториях данных и академические работы Представление результатов классификации также являются распространенными.
Другие советы
Стандартный подход - это представление «Сумки-слов», где у вас есть одна функция за слово, давая «1», если слово происходит в документе и «0», если оно не произойдет.
Это дает много особенностей, но если у вас есть простой учащийся, как наивный байс, это все еще хорошо.
«Индекс в словаре» - бесполезная особенность, я бы не использовал ее.