paramètres trouver avec des valeurs extrêmes (classification avec scikit-learn)

https://datascience.stackexchange.com/questions/5572

16-10-2019
|

Question

Je travaille actuellement avec la prédiction du type de couvert forestier de Kaggle, en utilisant des modèles de classification avec scikit-learn. Mon but principal est d'apprendre sur les différents modèles, donc je ne prétends pas discuter quel est le meilleur.

Lorsque vous travaillez avec la régression logistique, je me demande si je dois le paramètre « pénalité » (où je peux choisir la régularisation L1 ou L2). D'après ce que j'ai trouvé, ces termes de régularisation sont utiles pour éviter surajustement, spécialement lorsque les valeurs des paramètres sont extrêmes (par l'extrême, je comprends la gamme de certaines valeurs des paramètres sont très grandes par rapport à d'autres paramètres, me corriger si je me trompe. dans ce cas, ne serait-il suffisant pour appliquer une échelle logarithmique ou la normalisation à ces valeurs?).

Les principales questions sont les suivantes: le nombre de paramètres est grande, y at-il des techniques de visualisation et d'outils scikit-learn qui peut me aider à trouver des paramètres avec des valeurs extrêmes? est-il une fonction / outil statistique qui des rendements extrêmes comment les valeurs des paramètres sont?

La solution

Si par « paramètres » vous caractéristiques moyennes (appelée « Champs de données » à Kaggle), alors, oui, vous pouvez vous connecter à l'échelle ceux-ci. Pour les visualiser, vous pouvez simplement utiliser histogrammes. Pour le faire pour toutes les fonctions en python, par exemple, vous pouvez mettre vos données en pandas géants dataframe (laissez-nous l'appelons « données »), puis utilisez data.hist () Cela n'a rien à voir avec la régularisation dans tous les modèles.

Si par « paramètres », vous voulez dire que le coefficients obtenus après le montage de la régression logistique, puis on utilise la régularisation. Cela a, cependant, ne sont pas directement liés à log-transformation. Comment vous listez / visualiser vos coefficients dépend de l'outil de programmation que vous utilisez pour la régression logistique (ou autre modèle)

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange