Algorithmus für das Clustering Bilder basierend auf Aufnahmedatum

https://stackoverflow.com/questions/618054

03-07-2019
|

Frage

Wer weiß, einen Algorithmus, Gruppenbilder in Ereignisse basierend wird das Bild wurde am Tag gemacht. Natürlich kann ich Gruppe durch das Datum, aber ich möchte etwas ein wenig anspruchsvolle, das würde (vielleicht) zu Gruppenbildern der Lage sein, über mehrere Tage auf der Grundlage der Frequenz über einen bestimmten Zeitraum. Betrachten Sie die folgenden Gruppierungen:

2009.01.02 15 Fotos
2009.01.03 20 Fotos
2009.01.04 13 Fotos
2009.01.05 19 Fotos
2009.01.15 5 Fotos

Potenziell diese in zwei Gruppen eingeteilt werden würden:

1/2/2009 -> 2009.01.05
2009.01.15

Natürlich gibt es eine gewisse Toleranz (n) sein, die eingerichtet werden müssen.

Gibt es eine gut etablierte Art und Weise, dies zu tun, andere dann meinen eigenen Top / Down-Ansatz zu erfinden?

Lösung

Sie können die Anwendung so ziemlich jeden Standard-Clustering-Technik das, es ist nur eine Frage der Definition die korrekte Schreibweise Ihrer Distanzfunktion. Wenn Sie Ihre Matrix Abstände zwischen Ihren Fotos machen sollten Sie eine Kombination aus physischem Abstand zwischen den Standorten betrachten - wenn Sie sie haben - und zeitlicher Abstand zwischen ihrer Entstehung Zeitstempeln. Normalisieren sie und legt sie auf getrennte Dimensionen und Sie können sogar nur in der Lage sein, ein nehmen regelmäßiger euklidischer Abstand.

Viel Glück.

Andere Tipps

Just Gruppe der Bilder, die an aufeinanderfolgenden Tagen genommen wurden (keine Tage, an denen wurden keine Bilder aufgenommen) zusammen.

Sie könnten versuchen, dynamisch Toleranz zu berechnen, basierend auf wie viele oder wie groß (absolut oder%) Cluster Sie erstellen möchten.

Um eine sinnvolle Bündelung von Bildern zu erhalten nach Datum benötigen Sie Folgendes:

1) Die Anzahl der Cluster sollte variabel sein und nicht von vornherein auf das Clustering

fixed

2) Der Durchmesser jeden Cluster sollte nicht einen bestimmten Betrag überschreitet.

Der Clustering-Algorithmus, der am besten erfüllt beide Anforderungen ist die QT (Qualitätsschwelle) Clustering-Algorithmus . Aus Wikipedia:

QT (Qualitätsschwelle) Clustering (Heyer, Kruglyak, Yooseph, 1999) ist ein Alternative Verfahren zur Partitionierung Daten, für die Gen-Clustern erfunden. Es erfordert mehr Rechenleistung als k-Mittel, aber nicht erforderlich Angabe der Anzahl der Cluster eine priori, und immer wieder die gleichen führen, wenn mehrmals ausgeführt werden.

Auch wenn es in erster Linie für die Gen-Clustering verwendet wird denke ich, ist es sehr gut passen würde für das, was Sie brauchen.

Versuchen Sie, die Lücken anstelle der Cluster zu erkennen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow