Frage

Ich habe einige konzeptionelle Probleme beim Verständnis des Surf- und Sift -Algorithmus Alles über Surf. Was mein Verständnis angeht, findet Surf Laplacian der Gaußschen und SIFT arbeitet von Differenz der Gaußschen. Anschließend erstellt es einen 64-variablen Vektor um ihn, um die Merkmale zu extrahieren. Ich habe das angewendet CODE.

(Q1) Was bildet also die Funktionen?

(Q2) Wir initialisieren den Algorithmus mit einem überlasteten Detektor (500). Bedeutet dies, dass die Größe des Merkmalsraums 500 beträgt?

(Q3) Die Ausgabe von Surf Good_Matches ergibt Übereinstimmungen zwischen Keypoint1 und Keypoint2 und durch Einstellen der Anzahl der Übereinstimmungen können wir zu dem Schluss kommen, dass das Objekt gefunden/erkannt wurde oder nicht. Was ist mit TastointS gemeint? Speichern diese die Funktionen?

(Q4) Ich muss eine Objekterkennungsanwendung durchführen. Im Code scheint es, dass der Algorithmus das Buch erkennen kann. Es kann also für die Objekterkennung angewendet werden. Ich hatte den Eindruck, dass Surf verwendet werden kann, um Objekte basierend auf Farbe und Form zu unterscheiden. Surfen und SIFT finden jedoch die Erkennung von Eckkanten. Daher macht es keinen Sinn, Farbbilder als Trainingsmuster zu verwenden, da sie in Graustufen umgewandelt werden. In diesen Algorithmen besteht keine Möglichkeit, Farben oder HSV zu verwenden, es sei dennBewertung von Farbdeskriptoren für Objekt- und Szenenerkennung).

Wie kann ich also Objekte basierend auf ihrer Farbe und Form erkennen und erkennen? Ich denke, ich kann Surf verwenden, um Objekte basierend auf ihrer Form zu unterscheiden. Sagen Sie, zum Beispiel habe ich 2 Bücher und eine Flasche. Ich muss nur ein einziges Buch aus den gesamten Objekten erkennen. Sobald es jedoch andere ähnliche geformte Objekte in der Szene gibt, gibt Surf viele falsch positive Ergebnisse. Ich werde Vorschläge zu den Methoden zu schätzen wissen, um meine Bewerbung zu beantragen.

War es hilfreich?

Lösung

  1. Die lokale Maxima (Reaktion des Hundes, der größer (kleiner) ist als die Antworten der Nachbarpixel über das Punkt, das obere und das Liebhaber in Pyramide - 3x3x3 -Nachbarschaft) bildet die Koordinaten des Merkmals (Kreis). Der Radius des Kreises ist Niveau der Pyramide.

  2. Es ist eine hessische Schwelle. Dies bedeutet, dass Sie nur Maximas (siehe 1) mit größeren Werten als Schwellenwert einnehmen würden. Eine größere Schwelle führt zu weniger Funktionen, aber die Stabilität der Funktionen ist besser und umgekehrt.

  3. Tastoint == Feature. In opencv Tastoint ist die Struktur für die Speicherung von Funktionen.

  4. Nein, Surf ist gut zum Vergleich der strukturierten Objekte, aber nicht für Form und Farbe. Für die Form empfehle ich, MSER (jedoch nicht openCV -Eins), Canny Edge -Detektor, nicht lokale Funktionen zu verwenden. Diese Präsentation könnte nützlich sein

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top