サポートベクトルマシンの機能選択

https://datascience.stackexchange.com/questions/6590

16-10-2019
|

質問

私の質問は3つあります

「カーネル化」サポートベクターマシンのコンテキストで

可変/機能の選択が望ましいものです - 特にパラメーターCを正規化して過剰適合を防ぐため、SVMにカーネルを導入する背後にある主な動機は問題の次元を増やすことです。
最初の質問に対する答えが「いいえ」である場合、答えはどのような条件で、心に留めておくべき条件を変えるでしょうか？
PythonのScikit -LearnライブラリでSVMの機能削減をもたらすための優れた方法はありますか？私はSelectFPRメソッドを試してみましたが、さまざまな方法の経験を持つ人々を探しています。

解決

個人的には、機能の選択を2つに分割するのが好きです。

監視されていない機能の選択
監視された機能の選択

監視されていない機能の選択 クラスタリングやPCAのようなもので、冗長な機能の範囲が最も少ない（または、冗長性がほとんどない機能を作成します）。 監視された機能の選択 ほとんどの予測力を持つ機能を選択するラッソのようなものです。

私は個人的には、監視された機能選択と呼ばれるものを好みます。したがって、線形回帰を使用する場合、ラッソに基づいて機能を選択します。同様の方法は、ニューラルネットワークにまばらを誘発するために存在します。

しかし、確かに、カーネルを使用してメソッドでそれを行う方法がわかりません。そのため、監視されていない機能選択と呼ばれるものを使用する方が良いでしょう。

編集： また、正則化についても尋ねました。私たちは有限サンプルを使用しているため、主に役立つと考えているため、トレーニングとテストの分布は常に多少異なり、モデルに過栄養をしないようにしたいと考えています。機能の選択を避ける必要性を削除するかどうかはわかりません（実際に多すぎる場合）。機能を選択する（またはそれらの小さなサブセットの作成）を選択するのに役立つと思います。機能をより堅牢にし、モデルを避けるためのモデルを避けることができます。したがって、正則化は役立ちますが、それが完全な代替手段であるかどうかはわかりません。しかし、私はこれについて十分に考えていませんでした。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange