Frage

Nehmen wir an, ich muss Adressen mit Scikit-Learn klassifizieren. Wenn ich also möchte, dass mein Klassifikator Adressen nach dem Straßennamen klassifizieren und eine Post-/Postleitzahl klassifizieren kann, sollte ich einen OneVsrest-Klassifizierer durchführen oder sie in zwei verschiedene Klassifizierer (unterscheiden für das gleiche Trainingssatz)?

Ich habe beide ausprobiert und es scheint, als wäre es eine bessere Wahl, mehrere Klassifizierer zu haben, da es sich schneller anfühlt, mehrere kleinere Klassifizierer zu trainieren. Soll es so gemacht werden?

War es hilfreich?

Lösung

Beide Wege sind gültig und beide üblicherweise verwendet. Manchmal kann ein Klassifizierer, der behauptet, Multilabel zu sein, möglicherweise nur die Etiketten in mehrere OneVsrest-Klassifikatoren unter dem Haus trennen und die Ergebnisse am Ende bequem zusammenschließen.

Es gibt jedoch Fälle, in denen die Methoden grundsätzlich unterschiedlich sind. In der Schulung eines neuronalen Netzes mit mehreren Zielen (Beschriftungen) können Sie beispielsweise die Struktur des Netzwerks so einrichten, dass eine gemeinsame Struktur vorliegt. Die gemeinsam genutzten Knoten werden am Ende Lernfunktionen gelernt, die für alle Ziele nützlich sind, was sehr nützlich sein könnte.

Wenn Sie beispielsweise Klassen (Etiketten) "Cat-Pet", "Cat-Big" und "Hund" sind, möchten Sie möglicherweise einen Algorithmus, der zuerst lernt, zwischen einer Katze und einem beliebigen Hund zu unterscheiden, und dann in einem Späterer Schritt lernt, Katzen zu trennen, die Haustiere von Katzen sind, die groß sind (wie ein Löwe!). Dies wird als Hierarchie bezeichnet. Wenn Ihr Klassifikator Hierarchie ausnutzen kann, können Sie eine bessere Genauigkeit erlangen. Wenn Ihre Klassen jedoch völlig unabhängig sind, kann dies keinen Unterschied machen.

Ich schlage vor, Sie beginnen mit der Methode, die am einfachsten ist (dh Onevsrest), und festzustellen, ob die Leistung für Ihre Bedürfnisse geeignet ist, und wechseln Sie dann zu komplizierteren Methoden (Multilabel, hierarchische Methoden usw.), sobald Sie eine bessere Leistung benötigen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top