Pergunta

Eu tive a ideia de um mecanismo de busca que indexasse itens da web como outros mecanismos de busca fazem agora, mas armazenasse apenas o título do arquivo, o URL e um hash do conteúdo.

Dessa forma seria fácil encontrar itens na web caso você já os tivesse e não soubesse de onde vieram ou quisesse saber todos os lugares onde algo apareceu.

Mais útil para itens não textuais como imagens, executáveis ​​e arquivos.

Eu queria saber se já existe algo semelhante?

Foi útil?

Solução

Confira a página da Wikipedia sobre hashing sensível à localidade.Há também uma boa página hospedada por uma pesquisa no MIT.

Em geral, existem vários sabores disponíveis:hashes para strings (como simhash), conjuntos ou recursos 0/1 (como hashes mínimos) e para vetores reais.

O principal truque para hashes numéricos é basicamente redução de dimensão, até aqui.Para strings, a ideia é criar uma representação que seja robusta diante de pequenas edições.

Também estou fazendo uma pequena pesquisa nesse campo, embora ache que o stackoverflow possa não ser o lugar certo para trabalhos iniciantes.

Outras dicas

Bem, para imagens, há [http://tineye.com/][1], que irá superar isso e também encontrará imagens semelhantes.

[1]: http://tineye.com/ olho de lata

A questão parece se concentrar em hashes de correspondência exata, que entendemos melhor do que as abordagens do vizinho mais próximo, e que realmente valem a pena, especialmente se as pessoas puderem compartilhar tags e outros metadados dessa forma.

Como observa @rjmunro, a pesquisa baseada em hash é uma ideia popular no mundo P2P, e Bitzi fez praticamente isso, embora tenha fechado e sua Bitpedia (Enciclopédia de Mídia Digital) não esteja mais hospedada lá, embora alguns deles pelo menos ainda está disponível em Archive.org.

Bitzi também produziu software como Bitcollider (SourceForge.net), e a Esquema de URI magnético, que permite especificar um arquivo por hash e é, portanto, um identificador baseado em conteúdo.Vários aplicativos suportam pesquisas em vários bancos de dados por meio de Magnet URIs, conforme descrito na página da Wikipedia.

A mesma ideia é popular no cenário de quebra de senhas - veja, por exemplo. findmyhash - script Python para quebrar hashes usando serviços online etc.

Indo um passo além, acho que seria ótimo se existissem bancos de dados e repositórios online identificando conteúdo por hash e fornecendo Tag e outro metadados sobre o conteúdo de várias perspectivas.Então eu poderia deixar minha coleção de músicas em seu estado original (sem desperdício de espaço e tempo de backup), mas ainda assim marcá-las e adicionar outros metadados, por meio de bancos de dados de tags externos.Se meus aplicativos soubessem como capturar as tags, pareceria muito melhor do que o sistema atual, onde modificamos e copiamos arquivos grandes apenas para mover tags, por exemplo.minha área de trabalho para o meu telefone.

Veja uma ideia relacionada em Hashing independente de metadados para identificação de mídia e otimização de transferência P2P (pdf).

Não é uma má ideia.Às vezes me deparo com algum arquivo tentando descobrir de onde ele vem :) Mas como você vai rastrear as fontes dos itens?O conteúdo pode ser obtido por vários meios – navegador web, gerenciador de download, simplesmente copiando do compartilhamento de rede.

Se entendi bem sua proposta, http://bitzi.com/ já faz isso há algum tempo.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top