Domanda

Ho avuto l'idea di un motore di ricerca che indicizzasse gli elementi web come fanno ora gli altri motori di ricerca, ma memorizzerebbe solo il titolo del file, l'URL e un hash dei contenuti.

In questo modo sarebbe facile trovare elementi sul Web se li avessi già e non sapessi da dove provengono o volessi conoscere tutti i luoghi in cui è apparso qualcosa.

Più utile per elementi non testuali come immagini, eseguibili e archivi.

Mi chiedevo se esiste già qualcosa di simile?

È stato utile?

Soluzione

Guardare la pagina di Wikipedia sull'hashing sensibile alla località.C'è anche una buona pagina ospitata da una ricerca sul MIT.

In generale, sono disponibili diversi gusti:hash per le stringhe (come simhash), set o funzionalità 0/1 (come hash minimi) e per i vettori reali.

Il trucco principale per gli hash numerici è fondamentalmente riduzione dimensionale, finora.Per gli archi, l'idea è quella di ottenere una rappresentazione che sia robusta nonostante modifiche minori.

Sto anche facendo una piccola ricerca in questo campo, anche se immagino che StackOverflow potrebbe non essere il posto giusto per il lavoro nascente.

Altri suggerimenti

Bene, per le immagini, c'è [http://tineye.com/][1], che lo aggiornerà e troverà anche immagini simili.

[1]: http://tineye.com/ occhio di latta

La domanda sembra concentrarsi sugli hash di corrispondenza esatta, che comprendiamo meglio degli approcci più vicini e che sono davvero utili, soprattutto se le persone possono condividere tag e altri metadati in questo modo.

Come osserva @rjmunro, la ricerca basata su hash è un'idea popolare nel mondo P2P, e Bitzi ha fatto più o meno questo, anche se hanno chiuso e la loro Bitpedia (Digital Media Encyclopedia) non è più ospitata lì, anche se parte di essa almeno è ancora disponibile su Archive.org.

Bitzi ha anche prodotto software come Bitcollider (SourceForge.net), e il Schema URI del magnete, che consente di specificare un file tramite hash ed è quindi un identificatore basato sul contenuto.Varie applicazioni supportano la ricerca in vari database tramite URI Magnet come descritto in quella pagina Wikipedia.

La stessa idea è popolare nella scena del cracking delle password - vedi ad es. findmyhash - Script Python per crackare gli hash utilizzando i servizi online eccetera.

Facendo un ulteriore passo avanti, penso che sarebbe fantastico se esistessero database e archivi online che identificano i contenuti in base all'hash e forniscono tag e altro metadati sui contenuti da diverse prospettive.Quindi potrei lasciare la mia raccolta musicale nel suo stato originario (senza sprechi di spazio e tempo per il backup), ma taggarli comunque io stesso e aggiungere altri metadati, tramite database di tag esterni.Se le mie applicazioni sapessero come acquisire i tag, sembrerebbe molto meglio del sistema attuale in cui modifichiamo e copiamo file di grandi dimensioni solo per spostare i tag ad es.il mio desktop al mio telefono.

Vedi un'idea correlata su Hashing indipendente dai metadati per l'identificazione dei media e l'ottimizzazione del trasferimento P2P (PDF).

Non è una cattiva idea.A volte mi ritrovo incappato in qualche file cercando di capire da dove proviene :) Ma come farai a tenere traccia delle fonti dell'elemento?Il contenuto può essere ottenuto con vari mezzi: browser web, download manager, semplicemente copiandolo dalla condivisione di rete.

Se ho capito bene la tua proposta, http://bitzi.com/ lo ha fatto per un po'.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top