¿Buscar por hash?

https://stackoverflow.com/questions/50914

09-06-2019
|

Pregunta

Tuve la idea de un motor de búsqueda que indexara elementos web como lo hacen otros motores de búsqueda ahora, pero que solo almacenara el título del archivo, la URL y un hash del contenido.

De esta manera sería fácil encontrar artículos en la web si ya los tuvieras y no supieras de dónde vienen o quisieras saber todos los lugares donde apareció algo.

Más útil para elementos no textuales como imágenes, ejecutables y archivos.

Me preguntaba si ya existe algo similar.

Solución

Verificar la página de wikipedia sobre hash sensible a la localidad.También hay una buena página alojada por una investigación sobre el MIT.

En general, hay varios sabores disponibles:hashes para cadenas (como simhash), conjuntos o funciones 0/1 (como hashes mínimos), y para vectores reales.

El truco principal para los hashes numéricos es básicamente reducción de dimensión, hasta ahora.Para las cadenas, la idea es crear una representación que sea sólida frente a ediciones menores.

También estoy investigando un poco en este campo, aunque supongo que stackoverflow podría no ser el lugar adecuado para un trabajo incipiente.

Otros consejos

Bueno, para imágenes, hay [http://tineye.com/][1], que superará eso y también encontrará imágenes similares.

[1]: http://tineye.com/ ojo de hojalata

La pregunta parece centrarse en los hashes de coincidencia exacta, que entendemos mejor que los enfoques del vecino más cercano y que, de hecho, valen la pena, especialmente si las personas pueden compartir etiquetas y otros metadatos de esa manera.

Como señala @rjmunro, la búsqueda basada en hash es una idea popular en el mundo P2P, y Bitzi hizo más o menos esto, aunque cerraron y su Bitpedia (Enciclopedia de medios digitales) ya no está alojada allí, aunque parte de ella al menos todavía está disponible en Archive.org.

Bitzi también produjo software como Bitcollider (SourceForge.net), y el Esquema de URI magnético, que permite especificar un archivo mediante hash y, por tanto, es un identificador basado en contenido.Varias aplicaciones admiten la búsqueda en varias bases de datos a través de URI magnéticos como se describe en esa página de Wikipedia.

La misma idea es popular en la escena del descifrado de contraseñas; consulte, por ejemplo, findmyhash: script de Python para descifrar hashes utilizando servicios en línea etc.

Yendo un paso más allá, creo que sería fantástico si existieran bases de datos y repositorios en línea que identificaran el contenido mediante hash y proporcionaran etiquetas y otra metadatos sobre el contenido desde varias perspectivas.Entonces podría dejar mi colección de música en su estado original (sin perder tiempo ni espacio en la copia de seguridad), pero aún así etiquetarlas yo mismo y agregar otros metadatos, a través de bases de datos de etiquetas externas.Si mis aplicaciones supieran cómo capturar las etiquetas, parecería mucho mejor que el sistema actual donde modificamos y copiamos archivos grandes solo para mover etiquetas, por ejemplo.mi escritorio a mi teléfono.

Vea una idea relacionada en Hashing independiente de metadatos para identificación de medios y optimización de transferencia P2P (pdf).

No es mala idea.A veces me encuentro con algún archivo tratando de descubrir de dónde viene :) Pero, ¿cómo vas a rastrear las fuentes del elemento?El contenido se puede obtener por varios medios: navegador web, administrador de descargas, simplemente copiándolo desde un recurso compartido de red.

Si entiendo bien tu propuesta, http://bitzi.com/ Ha hecho esto por un tiempo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow