極値のパラメーターを見つける（Scikit-Learnによる分類）

https://datascience.stackexchange.com/questions/5572

16-10-2019
|

質問

私は現在、Scikit-Learnを使用した分類モデルを使用して、Kaggleからの森林被覆タイプの予測に取り組んでいます。私の主な目的は、さまざまなモデルについて学ぶことです。そのため、どちらが優れているかについて議論するふりをしません。

ロジスティック回帰を使用するとき、「ペナルティ」パラメーター（L1またはL2の正規化を選択できる場合）が必要かどうか疑問に思います。私が見つけたものに基づいて、これらの正規化用語は、特にパラメーター値が極端な場合に過度にフィットすることを避けるために便利です（極端に、一部のパラメーター値の範囲は他のパラメーターと比較して非常に大きいことを理解しています。この場合、これらの値にログスケールまたは正規化を適用するだけで十分ではないでしょうか？）。

主な質問は次のとおりです。パラメーターの数が大きいため、Scikit-Learnに視覚化技術とツールがあり、極端な値のパラメーターを見つけるのに役立ちますか？パラメーターの値がどれほど極端であるかを返す統計関数/ツールはありますか？

解決

「パラメーター」とは、機能（kaggleの「データフィールド」と呼ばれる）を意味する場合、はい、それらをログスケールできます。それらを視覚化するには、ヒストグラムだけを使用できます。たとえば、Pythonのすべての機能に対してそれを行うには、データをPandas DataFrame（「データ」と呼びましょう）に配置してから、data.hist（）を使用できます。

「パラメーター」によって意味する場合係数ロジスティック回帰を取り付けた後に取得された後、正規化を使用します。ただし、これはログトランスフォームに直接関係していません。係数のリスト/視覚化方法は、ロジスティック回帰（または他のモデル）に使用するプログラミングツールに依存します

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange