Выбор функций для вспомогательных векторных машин

https://datascience.stackexchange.com/questions/6590

16-10-2019
|

Вопрос

Мой вопрос в три раза

В контексте «ядрах» векторных машин поддержки

Желателен выбор переменной/функции - особенно потому, что мы регулярируем параметр C, чтобы предотвратить переживание, и основной мотив внедрения ядра в SVM - увеличить размерность проблемы, в таком случае уменьшение размеров по уменьшению параметров представляется неинтуитивным.
Если ответ на 1 -й вопрос «нет», то на каких условиях будет изменен ответ, который следует помнить?
Существуют ли какие -либо хорошие методы, которые пытались вызвать сокращение функций для SVM в библиотеке Python Scikit -Learn - я попробовал метод SelectFPR и ищу людей с опытом с различными методами.

Решение

Лично мне нравится разделять выбор функций на два:

неконтролируемый выбор функций
Наблюдаемый выбор функций

Неконтролируемый выбор функций Это такие вещи, как кластеризация или PCA, где вы выбираете наименее избыточный диапазон функций (или создаете функции с небольшой избыточностью). Наблюдаемый выбор функций Такие вещи, как Lasso, где вы выбираете функции с наиболее прогнозирующей силой.

Лично я обычно предпочитаю то, что я называю поддержанным выбором функций. Итак, при использовании линейной регрессии я бы выбрал функции, основанные на Lasso. Существуют аналогичные методы, чтобы вызвать редкость в нейронных сетях.

Но действительно, я не понимаю, как бы я сделал это в методе с использованием ядра, поэтому вам, вероятно, лучше использовать то, что я называю неконтролируемым выбором функций.

РЕДАКТИРОВАТЬ: Вы также спросили о регуляризации. Я считаю, что регуляризация помогает в основном потому, что мы работаем с конечными образцами, и поэтому обучение и распределение тестирования всегда будут несколько отличаться, и вы хотите, чтобы ваша модель не переполнялась. Я не уверен, что это устраняет необходимость избежать выбора функций (если у вас действительно слишком много). Я думаю, что выбор функций (или создание их меньшего подмножества) помогает, создавая функции, которые вы действительно надежны, и избегайте модели, чтобы учиться на ложных корреляциях. Таким образом, регуляризация действительно помогает, но не уверен, что это полная альтернатива. Но я недостаточно подумал об этом.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange