我的想法是创建一个搜索引擎,它可以像其他搜索引擎一样对网络项目进行索引,但只会存储文件的标题、URL 和内容的哈希值。

这样,如果您已经拥有某些项目但不知道它们来自哪里或想知道某些内容出现的所有位置,那么您可以轻松地在网络上找到这些项目。

对于图像、可执行文件和档案等非文本项目更有用。

我想知道是否已经有类似的东西了?

有帮助吗?

解决方案

查看 关于局部敏感哈希的维基百科页面. 。还有 由麻省理工学院的一项研究主办的好页面.

一般来说,有以下几种口味可供选择:字符串的哈希值(例如 西姆哈什)、集合或0/1特征(例如 最小哈希值),对于实数向量。

数字哈希的主要技巧基本上是 降维, , 迄今为止。对于字符串,我们的想法是提出一种在进行细微编辑时仍能保持稳健的表示形式。

我也在这个领域做了一些研究,尽管我猜想 stackoverflow 可能不是适合新生工作的地方。

其他提示

嗯,对于图像,有 [http://tineye.com/][1], ,这会将其加起来,并为您找到类似的图像。

[1]: http://tineye.com/ 锡眼

这个问题似乎集中在精确匹配哈希上,我们比最近邻方法更好地理解它,并且确实是值得的,特别是如果人们可以通过这种方式共享标签和其他元数据。

正如 @rjmunro 所指出的,基于哈希的搜索是 P2P 世界中的一个流行想法,Bitzi 几乎就是这样做的,尽管他们已经关闭,并且他们的 Bitpedia(数字媒体百科全书)也不再托管在那里,尽管其中一些至少在 Archive.org 上仍然可以找到。

Bitzi 还制作了类似的软件 Bitcollider(SourceForge.net), 和 磁力URI方案, ,它允许通过哈希指定文件,因此是基于内容的标识符。各种应用程序支持通过 Magnet URI 搜索各种数据库,如该维基百科页面所述。

同样的想法在密码破解场景中很流行 - 参见例如 findmyhash - 使用在线服务破解哈希值的 Python 脚本 ETC。

更进一步,我认为如果有数据库和在线存储库通过哈希识别内容并提供 标签 和别的 元数据 从不同的角度来讲述内容。然后我可以让我的音乐收藏保持原始状态(不会浪费备份空间和时间),但仍然自己标记它们并通过外部标签数据库添加其他元数据。如果我的应用程序知道如何获取标签,那么它似乎比当前系统要好得多,在当前系统中,我们修改和复制大文件只是为了将标签从例如文件中移动。我的桌面到我的手机。

请参阅以下位置的相关想法 用于媒体识别和 P2P 传输优化的元数据独立哈希 (pdf)。

这不是一个坏主意。有时我发现自己偶然发现了一些文件,试图找出它的来源:)但是你将如何跟踪项目的来源呢?内容可以通过多种方式获取 - Web 浏览器、下载管理器,只需从网络共享复制即可。

如果我对你的建议理解正确的话 http://bitzi.com/ 这样做已经有一段时间了。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top