해시로 검색하시겠습니까?

https://stackoverflow.com/questions/50914

09-06-2019
|

문제

나는 지금 다른 검색 엔진처럼 웹 항목을 색인화하지만 파일 제목, URL 및 내용의 해시만 저장하는 검색 엔진에 대한 아이디어를 갖고 있었습니다.

이렇게 하면 이미 해당 항목이 있고 어디서 왔는지 모르거나 항목이 나타난 모든 장소를 알고 싶은 경우 웹에서 항목을 쉽게 찾을 수 있습니다.

이미지, 실행 파일, 아카이브 등 텍스트가 아닌 항목에 더 유용합니다.

이미 비슷한 것이 있는지 궁금합니다.

해결책

확인해 보세요 지역 구분 해싱에 대한 Wikipedia 페이지.또한 있습니다 MIT 연구에서 주최하는 좋은 페이지.

일반적으로 다음과 같은 여러 가지 맛을 사용할 수 있습니다.문자열의 해시(예: 심해시), 세트 또는 0/1 기능(예: 최소 단위 해시) 및 실수 벡터의 경우.

숫자 해시의 주요 요령은 기본적으로 다음과 같습니다. 차원 축소, 지금까지.문자열의 경우 사소한 편집에도 강력한 표현을 제공하는 것이 아이디어입니다.

나는 또한 이 분야에 대해 약간의 연구를 하고 있지만 stackoverflow가 초기 작업에 적합한 장소가 아닐 수도 있다고 생각합니다.

다른 팁

음, 이미지의 경우 [http://tineeye.com/][1], 이를 통해 유사한 이미지도 찾을 수 있습니다.

[1]: http://tineeye.com/ 주석 눈

질문은 가장 가까운 이웃 접근 방식보다 우리가 더 잘 이해하고 실제로 가치가 있는 정확한 일치 해시에 초점을 맞춘 것으로 보입니다. 특히 사람들이 그런 식으로 태그와 기타 메타데이터를 공유할 수 있는 경우 더욱 그렇습니다.

@rjmunro가 언급했듯이 해시 기반 검색은 P2P 세계에서 인기 있는 아이디어이며 Bitzi는 거의 이 작업을 수행했습니다. 하지만 Bitzi는 폐쇄되었고 Bitpedia(Digital Media Encyclopedia)는 더 이상 그곳에서 호스팅되지 않습니다. 적어도 Archive.org에서는 여전히 이용 가능합니다.

Bitzi는 또한 다음과 같은 소프트웨어를 생산했습니다. 비트콜라이더(SourceForge.net), 그리고 자석 URI 체계, 해시로 파일을 지정할 수 있으므로 콘텐츠 기반 식별자입니다.다양한 애플리케이션은 해당 Wikipedia 페이지에 설명된 대로 Magnet URI를 통해 다양한 데이터베이스 검색을 지원합니다.

비밀번호 크래킹 장면에서도 동일한 아이디어가 널리 사용됩니다. findmyhash - 온라인 서비스를 사용하여 해시를 크랙하는 Python 스크립트 등.

한 단계 더 나아가 콘텐츠를 해시로 식별하고 제공하는 데이터베이스와 온라인 저장소가 있다면 좋겠다고 생각합니다. 태그 및 기타 메타데이터 다양한 관점에서 내용을 설명합니다.그런 다음 내 음악 컬렉션을 원래 상태(백업 공간과 시간 낭비 없음)로 남겨두면서도 외부 태그 데이터베이스를 통해 직접 태그를 지정하고 다른 메타데이터를 추가할 수 있습니다.내 애플리케이션이 태그를 가져오는 방법을 알고 있다면 태그를 이동하기 위해 큰 파일을 수정하고 복사하는 현재 시스템보다 훨씬 나아 보일 것입니다.내 데스크톱에서 내 휴대폰으로.

관련 아이디어를 참조하세요. 미디어 식별 및 P2P 전송 최적화를 위한 메타데이터 독립 해싱 (PDF).

그것은 나쁜 생각이 아닙니다.가끔은 그 파일이 어디서 왔는지 알아내려고 일부 파일을 우연히 발견한 경우도 있습니다. :) 하지만 항목의 소스를 어떻게 추적할 건가요?콘텐츠는 웹 브라우저, 다운로드 관리자, 네트워크 공유에서 복사하는 등 다양한 방법으로 얻을 수 있습니다.

내가 당신의 제안을 올바르게 이해했다면, http://bitzi.com/ 한동안 이 일을 해왔습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow