Question

Soit le dire de je dois adresses Classifier avec scikit-learn, donc si je veux que mon classificateur pouvoir adresses Classifier par le nom de la rue, et après / code postal, dois-je faire un classificateur OneVsRest, ou les séparer en deux différents classificateurs (pour le même ensemble de formation)?

J'ai essayé les deux, et il semble que d'avoir plusieurs classificateurs pourrait être un meilleur choix, car il se sent plus rapide pour former plusieurs classificateurs plus petits. Est-ce la façon dont il est censé faire?

Était-ce utile?

La solution

Les deux méthodes sont valides et les deux sont couramment utilisés. Parfois, un classificateur qui prétend être Multilabel peut être simplement en séparant les étiquettes en plusieurs sous-OneVsRest classificateurs le capot et rejoindre commodément ensemble les résultats à la fin.

Cependant, il y a des cas où les méthodes sont fondamentalement différentes. Par exemple, dans la formation d'un réseau de neurones avec des cibles multiples (étiquettes), vous pouvez configurer la structure du réseau tel qu'il ya la structure partagiez. Les noeuds communs finissent par caractéristiques d'apprentissage qui sont utiles pour toutes les cibles, ce qui pourrait être très utile.

Par exemple, si vous êtes des classes (étiquettes) sont « chat-animal », « chat grand » et « chien », vous pouvez un algorithme qui apprend d'abord de faire la distinction entre un chat et tous les chiens, et puis dans une étape ultérieure prend connaissance de séparer les chats qui sont les animaux de compagnie de chats qui sont grands (comme un lion!). Cette hiérarchie est appelée, et si votre classificateur peut exploiter la hiérarchie vous pouvez obtenir une meilleure précision. Si vos classes sont cependant complètement indépendant, il ne fait aucune différence.

Je vous suggère de commencer avec la méthode qui est la plus facile (c.-à-OneVsRest), et voir si la performance est adaptée à vos besoins, puis passer à des méthodes plus compliquées (de multilabel, méthodes hiérarchiques, etc.) une seule fois que vous avez besoin de meilleures performances.

Licencié sous: CC-BY-SA avec attribution
scroll top