Является ли латентная семантическая индексация (LSI) алгоритмом статистической классификации?
-
06-07-2019 - |
Вопрос
Является ли скрытое семантическое индексирование (LSI) алгоритмом статистической классификации? Почему или почему нет? Р>
В основном я пытаюсь выяснить, почему страница Википедии для статистической классификации не говоря уже о LSI. Я просто разбираюсь в этом и пытаюсь понять, как различные подходы для классификации чего-либо связаны друг с другом.
Решение
Нет, они не совсем одинаковые. Статистическая классификация предназначена для того, чтобы разделить элементы по категориям настолько четко, насколько это возможно, чтобы принять четкое решение о том, является ли элемент X более похожим, например, на элементы в группе A или группе B.
БИС предназначена для отображения степени, в которой элементы похожи или различаются, и, прежде всего, для поиска элементов, которые показывают степень сходства с указанным элементом. Хотя это похоже , это не совсем то же самое.
Другие советы
LSI / LSA - это в конечном итоге метод уменьшения размерности , который обычно объединяется с алгоритмом ближайшего соседа, чтобы превратить его в систему классификации. Следовательно, сам по себе, это единственный способ «индексации». данные в более низком измерении, используя SVD.
Читали ли вы о БИС в Википедии ? В нем говорится, что используется матричная факторизация ( SVD ), которая, в свою очередь, иногда используется в классификации. р>
Основное различие в машинном обучении - «контролируемый». и «без присмотра»; моделирование. р>
Обычно слова «статистическая классификация» обратитесь к контролируемым моделям, но не всегда.
При контролируемых методах обучающий набор содержит «основополагающую истину» обозначить, что вы строите модель для прогнозирования. Когда вы оцениваете модель, цель состоит в том, чтобы предсказать наилучшую догадку (или распределение вероятностей) истинной метки, которой у вас не будет во время оценки. Часто есть метрика производительности, и совершенно ясно, что правильный ответ против неправильного. Р>
Методы неконтролируемой классификации пытаются объединить большое количество точек данных, которые могут сложным образом варьироваться в меньшее число «похожих». категории. Данные в каждой категории должны быть похожи в каком-то «интересном» или «глубоком» смысле. Так как нет «наземной правды» Вы не можете оценить «правильно или неправильно», но «больше» против «меньше» интересно или полезно. Р>
Аналогичным образом, во время оценки вы можете поместить новые примеры в потенциально один из кластеров (четкая классификация) или дать некоторый весовой коэффициент, определяющий, как сходные или разные элементы выглядят как " архетип " кластера. Р>
Таким образом, в некоторых случаях контролируемые и неконтролируемые модели могут давать что-то, что является «предсказанием», предсказанием метки класса / кластера, но по сути они различны.
Часто целью неконтролируемой модели является предоставление более интеллектуальных и мощно компактных входов для последующей контролируемой модели. Р>