Rechercher par hachage ?

https://stackoverflow.com/questions/50914

09-06-2019
|

Question

J'ai eu l'idée d'un moteur de recherche qui indexerait les éléments Web comme le font actuellement d'autres moteurs de recherche, mais qui stockerait uniquement le titre du fichier, l'URL et un hachage du contenu.

De cette façon, il serait facile de trouver des éléments sur le Web si vous les aviez déjà et si vous ne saviez pas d'où ils venaient ou si vous vouliez connaître tous les endroits où quelque chose est apparu.

Plus utile pour les éléments non textuels comme les images, les exécutables et les archives.

Je me demandais s'il existait déjà quelque chose de similaire ?

La solution

Vérifier la page wikipedia sur le hachage sensible à la localité.Il y a aussi une bonne page hébergée par une recherche sur le MIT.

En général, plusieurs saveurs sont disponibles :hachages pour les chaînes (telles que simhash), des ensembles ou des fonctionnalités 0/1 (telles que hachages minutieux), et pour les vecteurs réels.

L'astuce principale pour les hachages numériques est essentiellement réduction dimensionnelle, jusqu'à présent.Pour les chaînes, l’idée est de proposer une représentation robuste face à des modifications mineures.

Je fais également quelques recherches dans ce domaine, même si je suppose que stackoverflow n'est peut-être pas le bon endroit pour un travail naissant.

Autres conseils

Eh bien, pour les images, il y a [http://tineye.com/][1], ce qui améliorera cela et vous trouvera également des images similaires.

[1]: http://tineye.com/ oeil d'étain

La question semble se concentrer sur les hachages de correspondance exacte, que nous comprenons mieux que les approches du plus proche voisin, et qui en valent effectivement la peine, surtout si les gens peuvent partager des balises et d'autres métadonnées de cette façon.

Comme le note @rjmunro, la recherche basée sur le hachage est une idée populaire dans le monde P2P, et Bitzi a fait à peu près cela, bien qu'ils aient fermé leurs portes et que leur Bitpedia (Digital Media Encyclopedia) n'y soit plus hébergé, bien que certains d'entre eux au moins est toujours disponible sur Archive.org.

Bitzi a également produit des logiciels comme Bitcollider (SourceForge.net), et le Schéma d'URI magnétique, qui permet de spécifier un fichier par hachage et est donc un identifiant basé sur le contenu.Diverses applications prennent en charge la recherche dans diverses bases de données via les URI Magnet, comme décrit sur cette page Wikipédia.

La même idée est populaire dans le domaine du piratage de mots de passe - voir par ex. findmyhash - Script Python pour cracker les hachages à l'aide de services en ligne etc.

Pour aller plus loin, je pense que ce serait formidable s'il existait des bases de données et des référentiels en ligne identifiant le contenu par hachage et fournissant Mots clés et autre métadonnées sur le contenu sous différents angles.Ensuite, je pourrais laisser ma collection musicale dans son état d'origine (pas d'espace ni de temps de sauvegarde gaspillés), tout en la taguant moi-même et en ajoutant d'autres métadonnées, via des bases de données de balises externes.Si mes applications savaient comment récupérer les balises, cela semblerait bien meilleur que le système actuel où nous modifions et copions de gros fichiers juste pour déplacer les balises, par exemple vers un ordinateur.mon bureau sur mon téléphone.

Voir une idée connexe sur Hachage indépendant des métadonnées pour l'identification des médias et l'optimisation du transfert P2P (pdf).

Ce n'est pas une mauvaise idée.Parfois, je tombe sur un fichier en essayant de comprendre d'où il vient :) Mais comment allez-vous suivre les sources de l'élément ?Le contenu peut être obtenu par divers moyens : navigateur Web, gestionnaire de téléchargement, simplement en le copiant à partir d'un partage réseau.

Si je comprends bien votre proposition, http://bitzi.com/ fait ça depuis un moment.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow