Come progettare un algoritmo di soluzione approssimativa

https://stackoverflow.com/questions/624788

05-07-2019
|

Domanda

Voglio scrivere un algoritmo che può prendere parti di un'immagine e abbinarle a un'altra immagine dello stesso oggetto.

Ad esempio, se ho dato al computer una foto di un vaso e una foto di una scena con il vaso, mi aspetterei che determinasse dove si trova il vaso nell'immagine. Come potrei iniziare a sviluppare un algoritmo come questo?

L'utilizzo finale di questo algoritmo sarà un'applicazione che, ad esempio, con un'immagine del volto di qualcuno potrebbe dire se fossero in mezzo a una folla di persone. Questo algoritmo verrà infine applicato ai flussi video.

modifica: non mi aspetto una soluzione effettiva a questo problema in quanto non spero di risolverlo presto. La vera domanda era come definire qualcosa del genere su un computer in modo da poter creare un algoritmo per farlo.

Grazie

Soluzione

Il primo problema che descrivi e il secondo sono entrambi abbastanza diversi.

Una parte importante di ciascuno è risolta dal numerosi librerie di visione artificiale disponibili. Potrebbe essere necessaria una combinazione di tecniche per raggiungere qualsiasi successo in entrambe le attività.

Nel primo, avresti bisogno di qualcosa che riconosca genericamente gli oggetti. Probabilmente userei un certo numero di algoritmi in concerto per identificare l'oggetto in primo piano nell'immagine del modello e quindi fare una sorta di confronto ponderato dell'immagine target partizionata.

Nel secondo caso, esaminare i volti è un problema molto più difficile rispetto al riconoscimento generale sopra. I volti sembrano tutti uguali o quasi. Le cose che un riconoscitore generale potrebbe notare non sono probabilmente buone per differenziare i volti. È necessario un algoritmo già ottimizzato per il riconoscimento facciale. Fortunatamente questo è un campo in rapida maturazione e probabilmente puoi farlo anche nel primo caso, ma con un diverso set di funzioni.

Altri suggerimenti

Un mio ex insegnante ha scritto la sua tesi di dottorato su un simile problema, tranne per il fatto che il suo input era un modello 3D dettagliato di qualcosa, che avrebbe usato per trovare quell'oggetto in immagini 2D. Questo è un problema MOLTO non banale, non esiste una sola "risposta", certamente nulla che si adatti al formato Stack Overflow.

La mia migliore risposta: raccogliere un sacco di soldi e assumere un programmatore molto esperto.

Buona fortuna a te.

La semplice risposta è, trovare un modo matematico per descrivere i volti, che può spiegare angoli e dati mancanti parziali, quindi perfezionarli e insegnarli.

Apparentemente Apple ha fatto qualcosa del genere, tuttavia, fa ancora errori e deve essere insegnato mentre avanza.

Mi aspetto che sarà più sulla matematica che sulla programmazione.

Penso che troverai che questa è una vera sfida. Questo è un problema estremamente difficile ed è una delle molte aree dell'informatica che rientrano nel dominio dell'intelligenza artificiale (AI). Il riconoscimento facciale sarebbe certamente la variante più popolare di questo problema e, nonostante ciò che si può leggere nei media, qualsiasi successo dichiarato non è quello che si immagina di essere. Penso che le soluzioni più vicine riguardino reti neurali e di solito richiedono immagini molto chiare e accuratamente selezionate.

Puoi provare a leggere qui . Buona fortuna!

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow