Pregunta

Quiero escribir un algoritmo que pueda tomar partes de una imagen y relacionarlas con otra imagen del mismo objeto.

Por ejemplo, si le diera a la computadora una imagen de un florero y una imagen de una escena con el florero dentro, esperaría que determinara en qué parte de la imagen está el florero. ¿Cómo empezaría a desarrollar un algoritmo como este?

El uso final de este algoritmo será una aplicación que, por ejemplo, con una imagen de la cara de alguien podría decir si estaban en una multitud de personas. Este algoritmo se aplicaría finalmente a las transmisiones de video.

editar: No estoy esperando una solución real a este problema, ya que no espero resolverlo pronto. La pregunta real era cómo definir algo como esto en una computadora para poder hacer un algoritmo para hacerlo.

Gracias

¿Fue útil?

Solución

El primer problema que describe y el segundo son muy diferentes.

Una gran parte de cada uno se resuelve con numerosos bibliotecas de visión artificial disponibles. Es posible que necesite una combinación de técnicas para lograr cualquier éxito en cualquier tarea.

En el primero, necesitaría algo que reconozca genéricamente los objetos. Probablemente usaría varios algoritmos en concierto para identificar el objeto de primer plano en la imagen del modelo y luego hacer algún tipo de comparación ponderada de la imagen de destino particionada.

En el segundo caso, examinar caras es un problema mucho más difícil en relación con el reconocedor general anterior. Caras todas se ven iguales, o casi así. Las cosas que notaría un reconocedor general probablemente no sean buenas para diferenciar rostros. Necesita un algoritmo ya sintonizado para el reconocimiento facial. Afortunadamente, este es un campo que está madurando rápidamente y probablemente pueda hacerlo tan bien como el primer caso, pero con un conjunto diferente de funciones.

Otros consejos

Un antiguo profesor mío escribió su tesis de doctorado sobre un tipo similar de problema, excepto que su aporte fue un detallado modelo 3D de algo, que usaría para encontrar ese objeto en imágenes 2D. Este es un problema MUY no trivial, no hay una sola 'respuesta', ciertamente nada que se ajuste al formato de desbordamiento de pila.

Mi mejor respuesta: reúne un montón de dinero y contrata a un programador con mucha experiencia.

La mejor de las suertes para ti.

La respuesta simple es encontrar una forma matemática para describir caras, que pueda explicar ángulos y datos faltantes parciales, luego refinarlos y enseñarlos.

Aparentemente, Apple ha hecho algo como esto, sin embargo, todavía comete errores y tiene que ser enseñado a medida que avanza.

Espero que sea más sobre las matemáticas que sobre la programación.

Creo que esto será un gran desafío. Este es un problema extremadamente difícil y es una de las muchas áreas de la informática que caen bajo el dominio de la inteligencia artificial (IA). El reconocimiento facial sería sin duda la variante más popular de este problema y, a pesar de lo que pueda leer en los medios de comunicación, cualquier éxito declarado no es lo que se considera que es. Creo que las soluciones más cercanas involucran redes neuronales y generalmente requieren imágenes muy claras y cuidadosamente seleccionadas.

Puede intentar leer aquí . Buena suerte!

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top