Pergunta

Estou trabalhando em um problema automático de anotação de imagem em que estou tentando associar tags com imagens.Para isso, estou tentando por meio de recursos para aprender.Mas o problema é que todos os recursos de sift são um conjunto de KeyPoints, cada um dos quais tem uma matriz 2-D, e o número de KeyPoints também é enorme. Como muitos e como faço para o meu algoritmo de aprendizado que normalmente aceita apenas um-d recursos?

Foi útil?

Solução

Você pode representar single sift como "palavra visual" que é um número e usá-lo como entrada SVM, acho que é o que você precisa.Geralmente é feito pelo agrupamento K-significa.

Este método é chamado de "saco de palavras" e descrito em este artigo .

Revisão de apresentação curta do método .

Outras dicas

Você deve ler o papel original sobre o Sift, ele informa o que é sift e como usá-lo, você deve ler cuidadosamente o capítulo 7 e descansar para entender como usá-lo praticamente. Aqui está o link para papel original.

Você pode usar a abordagem do saco de palavras, das quais você pode ler no seguinte post:

http:// gilscvblog.wordpress.com/2013/08/23 / saco de palavras-modelos-for-visual-categorização /

sift e surf são extratores de recursos invariantes. Lá para recursos de correspondência ajudará a resolver muitos problemas.

  • Mas há problema correspondente, já que todos os pontos podem não ser iguais em duas imagens diferentes. (e no caso de problema de similaridade). Portanto, você deve usar os recursos que correspondem aos outros podem.

  • Outro problema é que esses algoritmos extraem muitos recursos que não é possível corresponder em grandes conjuntos de dados.

Há uma boa solução para esses problemas que é chamado de "saco de palavra visual"

https://github.com/dermotte/lire saco completo da palavra visual é totalmente implementado . Aqui está o Lire Demo site.

O código é muito simples se você souber o saco de palavra visual, também pode modificar.

Depois de obter palavra visual, você deve usar abordagens de recuperação de informações usadas nos mecanismos de pesquisa. By the way Lire também inclui uma biblioteca de recuperação de informações chamada Lucene . Você deve pousar a maneira da LIRE até obter a ideia completa e implementar a sua.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top