Question

Je suis en train de classer un exemple, qui contient des fonctions discrètes et continues. En outre, l'exemple représente des données rares, de sorte que même si le système peut avoir été formé sur 100 caractéristiques, l'exemple ne peut avoir 12.

Quel serait le meilleur algorithme de classification à utiliser pour y parvenir? Je l'ai regardé Bayes, Maxent, arbre de décision, et KNN, mais je ne suis pas sûr tout exactement adapter à la loi. Le plus grand point d'achoppement que j'ai trouvé est que la plupart des implémentations ne supportent pas les ensembles de données rares et à la fois des caractéristiques discrètes et continues. Quelqu'un peut-il recommander un algorithme et la mise en œuvre (de préférence en Python) qui correspond à ces critères?

Bibliothèques j'ai regardé jusqu'à présent comprennent:

  1. orange (La plupart du temps scolaire. Implémentations pas très efficace ou pratique.)
  2. NLTK (aussi académique, mais a une bonne mise en œuvre Maxent, mais ne gère pas les fonctions continues. )
  3. Weka (recherche encore cela. Il semble soutenir un large gamme d'algorithmes, mais a une mauvaise documentation, donc on ne sait pas ce que chacun prend en charge la mise en œuvre.)
Était-ce utile?

La solution

Weka (Java) satisfait toutes les exigences vous:

  • un grand nombre de href="http://wiki.pentaho.com/display/DATAMINING/Classifiers" / régression algorithmes
  • soutien discret / continu (appelé nominal / numérique dans Weka) attributs
  • gère les données rares: le format ARFF

Consultez cette Pentaho wiki pour liste des liens vers des guides, des documentations, des didacticiels vidéo, etc ...

Autres conseils

les machines à vecteurs ? libsvm peut être utilisé à partir de Python, et est tout à fait rapide.

Poignées entrées rares vecteurs, et ne me dérange pas si certaines des caractéristiques sont continues, alors que d'autres ne sont que -1 / + 1. (Si vous avez une fonction discrète n sens, la chose à faire est la norme développer en fonctions n binaires.)

scikit-learn , un support de module d'apprentissage automatique python Descente stochastique gradient et support Vector machines pour les données éparses.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top