Qualquer biblioteca de máquinas vetoriais de suporte ao Python em torno que permite o aprendizado on -line?

StackOverflow https://stackoverflow.com/questions/1783669

Pergunta

Eu sei que existem algumas bibliotecas que permitem usar máquinas vetoriais de suporte do código Python, mas estou procurando especificamente para bibliotecas que permitem ensiná -lo on -line (isso é, sem precisar fornecer todos os dados de uma só vez).

Há alguns?

Foi útil?

Solução

Libsvm Inclui um invólucro python que funciona via SWIG.

Exemplo svm-test.py de sua distribuição:

#!/usr/bin/env python

from svm import *

# a three-class problem
labels = [0, 1, 1, 2]
samples = [[0, 0], [0, 1], [1, 0], [1, 1]]
problem = svm_problem(labels, samples);
size = len(samples)

kernels = [LINEAR, POLY, RBF]
kname = ['linear','polynomial','rbf']

param = svm_parameter(C = 10,nr_weight = 2,weight_label = [1,0],weight = [10,1])
for k in kernels:
    param.kernel_type = k;
    model = svm_model(problem,param)
    errors = 0
    for i in range(size):
        prediction = model.predict(samples[i])
        probability = model.predict_probability
        if (labels[i] != prediction):
            errors = errors + 1
    print "##########################################"
    print " kernel %s: error rate = %d / %d" % (kname[param.kernel_type], errors, size)
    print "##########################################"

param = svm_parameter(kernel_type = RBF, C=10)
model = svm_model(problem, param)
print "##########################################"
print " Decision values of predicting %s" % (samples[0])
print "##########################################"

print "Numer of Classes:", model.get_nr_class()
d = model.predict_values(samples[0])
for i in model.get_labels():
    for j in model.get_labels():
        if j>i:
            print "{%d, %d} = %9.5f" % (i, j, d[i,j])

param = svm_parameter(kernel_type = RBF, C=10, probability = 1)
model = svm_model(problem, param)
pred_label, pred_probability = model.predict_probability(samples[1])
print "##########################################"
print " Probability estimate of predicting %s" % (samples[1])
print "##########################################"
print "predicted class: %d" % (pred_label)
for i in model.get_labels():
    print "prob(label=%d) = %f" % (i, pred_probability[i])

print "##########################################"
print " Precomputed kernels"
print "##########################################"
samples = [[1, 0, 0, 0, 0], [2, 0, 1, 0, 1], [3, 0, 0, 1, 1], [4, 0, 1, 1, 2]]
problem = svm_problem(labels, samples);
param = svm_parameter(kernel_type=PRECOMPUTED,C = 10,nr_weight = 2,weight_label = [1,0],weight = [10,1])
model = svm_model(problem, param)
pred_label = model.predict(samples[0])   

Outras dicas

Não ouvi falar de um. Mas você realmente precisa de aprendizado on -line? Estou usando o SVMS há algum tempo e nunca encontrei um problema em que tive que usar o aprendizado on -line. Normalmente, eu defino um limite sobre o número de alterações de exemplos de treinamento (talvez 100 ou 1000) e, em seguida, basta apenas retirar o lote.

Se o seu problema estiver em uma escala, onde você absolutamente precisa usar o aprendizado on -line, você pode querer dar uma olhada Vowpal Wabbit.

Reeditado abaixo, depois do comentário:

Olivier Grisel sugerido para usar um invólucro ctypes ao redor LASVM. Como eu não sabia sobre o LASVM antes e parece muito legal, estou intrigado ao experimentá -lo em meus próprios problemas :).

Se você estiver limitado a usar apenas o Python-VM (dispositivo incorporado, robô), sugiro usar o perceptron votado/médio, que tem um desempenho próximo a um SVM, mas é fácil de implementar e "online" por padrão.

Acabei de ver isso Elefant Tem algum código SVM online.

Embora não haja ligações de Python lá, o algoritmo descrito emhttp://leon.bottou.org/projects/sgd é treinado de maneira on -line e é facilmente reimplementado usando o por exemplo, Numpy.

Pegasos é um algoritmo SVM on -line que tem um bom desempenho. Também é bastante fácil de implementar, mesmo sem uma ligação específica do Python. Existe um C implementação no site do autor, que também é adaptável ou incorporável.

Por que você gostaria de treiná -lo online? A adição de instâncias de treinamento geralmente exigiria re-resolver o problema de programação quadrática associado ao SVM.

Uma maneira de lidar com isso é treinar um SVM no modo em lote e, quando novos dados estão disponíveis, verifique se esses pontos de dados estão na margem [-1, +1] do hiperplano. Nesse caso, treine o SVM usando todos os antigos vetores de suporte e os novos dados de treinamento que se enquadram na margem.

Obviamente, os resultados podem ser um pouco diferentes em comparação com o treinamento em lote em todos os seus dados, pois alguns pontos podem ser descartados que seriam vetores de suporte posteriormente. Então, novamente, por que você deseja realizar treinamento on -line de você SVM?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top