Является ли латентная семантическая индексация (LSI) алгоритмом статистической классификации?

https://stackoverflow.com/questions/1634073

06-07-2019
|

Вопрос

Является ли скрытое семантическое индексирование (LSI) алгоритмом статистической классификации? Почему или почему нет?

В основном я пытаюсь выяснить, почему страница Википедии для статистической классификации не говоря уже о LSI. Я просто разбираюсь в этом и пытаюсь понять, как различные подходы для классификации чего-либо связаны друг с другом.

Решение

Нет, они не совсем одинаковые. Статистическая классификация предназначена для того, чтобы разделить элементы по категориям настолько четко, насколько это возможно, чтобы принять четкое решение о том, является ли элемент X более похожим, например, на элементы в группе A или группе B.

БИС предназначена для отображения степени, в которой элементы похожи или различаются, и, прежде всего, для поиска элементов, которые показывают степень сходства с указанным элементом. Хотя это похоже , это не совсем то же самое.

Другие советы

LSI / LSA - это в конечном итоге метод уменьшения размерности , который обычно объединяется с алгоритмом ближайшего соседа, чтобы превратить его в систему классификации. Следовательно, сам по себе, это единственный способ «индексации». данные в более низком измерении, используя SVD.

Читали ли вы о БИС в Википедии ? В нем говорится, что используется матричная факторизация ( SVD ), которая, в свою очередь, иногда используется в классификации.

Основное различие в машинном обучении - «контролируемый». и «без присмотра»; моделирование.

Обычно слова «статистическая классификация» обратитесь к контролируемым моделям, но не всегда.

При контролируемых методах обучающий набор содержит «основополагающую истину» обозначить, что вы строите модель для прогнозирования. Когда вы оцениваете модель, цель состоит в том, чтобы предсказать наилучшую догадку (или распределение вероятностей) истинной метки, которой у вас не будет во время оценки. Часто есть метрика производительности, и совершенно ясно, что правильный ответ против неправильного.

Методы неконтролируемой классификации пытаются объединить большое количество точек данных, которые могут сложным образом варьироваться в меньшее число «похожих». категории. Данные в каждой категории должны быть похожи в каком-то «интересном» или «глубоком» смысле. Так как нет «наземной правды» Вы не можете оценить «правильно или неправильно», но «больше» против «меньше» интересно или полезно.

Аналогичным образом, во время оценки вы можете поместить новые примеры в потенциально один из кластеров (четкая классификация) или дать некоторый весовой коэффициент, определяющий, как сходные или разные элементы выглядят как " архетип " кластера.

Таким образом, в некоторых случаях контролируемые и неконтролируемые модели могут давать что-то, что является «предсказанием», предсказанием метки класса / кластера, но по сути они различны.

Часто целью неконтролируемой модели является предоставление более интеллектуальных и мощно компактных входов для последующей контролируемой модели.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow