Confusão em relação ao reconhecimento de objetos e recursos usando o surf

https://stackoverflow.com/questions/19851134

29-07-2022
|

Pergunta

Tenho alguns problemas conceituais para entender o algoritmo de surf e peneirar Tudo sobre surf. No que diz respeito ao meu entendimento, o Surf encontra Laplacian de Gaussianos e o SIFT opera com a diferença de gaussianos. Em seguida, ele constrói um vetor de 64 variável em torno dele para extrair os recursos. Eu apliquei isso CÓDIGO.

(Q1) Então, o que forma os recursos?

(Q2) Inicializamos o algoritmo usando o detector de SurfheatureTector (500). Então, isso significa que o tamanho do espaço dos recursos é 500?

(Q3) A saída do surf good_matches fornece correspondências entre o KeyPoint1 e o KeyPoint2 e, ao ajustar o número de correspondências, podemos concluir que se o objeto foi encontrado/detectado ou não. O que se entende por pontos -chave? Estes armazenam os recursos?

(Q4) Eu preciso fazer um aplicativo de reconhecimento de objetos. No código, parece que o algoritmo pode reconhecer o livro. Portanto, pode ser aplicado para reconhecimento de objetos. Eu estava com a impressão de que o surf pode ser usado para diferenciar objetos com base na cor e forma. Mas, o Surf e o SIFT encontram a detecção da borda da esquina, portanto não faz sentido usar imagens coloridas como amostras de treinamento, pois elas serão convertidas em escala de cinza. Não há opção de usar cores ou HSV nesses algoritmos, a menos que eu calcule os pontos -chave para cada canal separadamente, que é uma área diferente de pesquisa (Avaliando descritores de cores para reconhecimento de objetos e cenas).

Então, como posso detectar e reconhecer objetos com base em sua cor, forma? Eu acho que posso usar o surf para diferenciar objetos com base em sua forma. Digamos, por exemplo, tenho 2 livros e uma garrafa. Eu preciso reconhecer apenas um único livro de todos os objetos. Mas, assim que houver outros objetos de formato semelhante na cena, o surf dá muitos falsos positivos. Apreciarei sugestões sobre quais métodos solicitarem meu aplicativo.

Solução

Os máximos locais (resposta do cão que é maior (menor) do que as respostas dos pixels do vizinho sobre o ponto, a imagem superior e do amante na pirâmide - bairro 3x3x3) forma as coordenadas do centro (círculo). O raio do círculo é o nível da pirâmide.
É o limiar de Hessiano. Isso significa que você levaria apenas Maxeiras (ver 1) com valores maiores que o limite. O limite maior leva ao menor número de recursos, mas a estabilidade dos recursos é melhor e o Visa Versa.
Ponto -chave == recurso. Em OpenCV O ponto -chave é a estrutura para armazenar recursos.
Não, o surf é bom para comparação dos objetos texturizados, mas não para forma e cor. Para a forma, recomendo usar o MSER (mas não o OpenCV One), o detector de borda de arestão, não os recursos locais. Esta apresentação pode ser útil

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow