Nach Hash suchen?

https://stackoverflow.com/questions/50914

09-06-2019
|

Frage

Ich hatte die Idee einer Suchmaschine, die Webelemente wie andere Suchmaschinen heute indiziert, aber nur den Titel, die URL und einen Hash des Inhalts der Datei speichert.

Auf diese Weise wäre es einfacher, Artikel im Internet zu finden, wenn Sie sie bereits haben und nicht wissen, woher sie kommen, oder wenn Sie wissen möchten, an welchen Orten etwas aufgetaucht ist.

Nützlicher für nicht textuelle Elemente wie Bilder, ausführbare Dateien und Archive.

Ich frage mich, ob es so etwas Ähnliches schon gibt?

Lösung

Kasse Die Wikipedia-Seite zum ortssensitiven Hashing.Es gibt auch Eine gute Seite, die von einer MIT-Forscherin gehostet wird.

Generell sind mehrere Geschmacksrichtungen erhältlich:Hashes für Strings (z. B simhash), Sätze oder 0/1-Features (z. B Min-weise Hashes) und für reelle Vektoren.

Der Haupttrick für numerische Hashes ist grundsätzlich Dimensionsreduzierung, bis jetzt.Bei Strings geht es darum, eine Darstellung zu entwickeln, die auch kleineren Änderungen standhält.

Ich recherchiere auch ein wenig auf diesem Gebiet, obwohl ich vermute, dass Stackoverflow nicht der richtige Ort für neue Arbeiten ist.

Andere Tipps

Nun, für Bilder gibt es [http://tineye.com/][1], wodurch das noch besser wird und Sie auch ähnliche Bilder finden.

[1]: http://tineye.com/ Zinnauge

Die Frage scheint sich auf exakt passende Hashes zu konzentrieren, die wir besser verstehen als Nearest-Neighbor-Ansätze und die sich in der Tat lohnen, insbesondere wenn Menschen auf diese Weise Tags und andere Metadaten teilen können.

Wie @rjmunro feststellt, ist die Hash-basierte Suche eine beliebte Idee in der P2P-Welt, und Bitzi hat so ziemlich das getan, obwohl sie geschlossen haben und ihre Bitpedia (Digital Media Encyclopedia) dort nicht mehr gehostet wird, wenn auch einiges davon ist zumindest noch auf Archive.org verfügbar.

Bitzi produzierte auch Software wie Bitcollider (SourceForge.net), und das Magnet-URI-Schema, das die Angabe einer Datei per Hash ermöglicht und somit eine inhaltsbasierte Kennung ist.Verschiedene Anwendungen unterstützen die Suche in verschiedenen Datenbanken über Magnet-URIs, wie auf dieser Wikipedia-Seite beschrieben.

Die gleiche Idee ist in der Szene des Passwortknackens beliebt – siehe z.B. findmyhash – Python-Skript zum Knacken von Hashes mithilfe von Onlinediensten usw.

Ich gehe noch einen Schritt weiter und fände es großartig, wenn es Datenbanken und Online-Repositories gäbe, die Inhalte anhand von Hash identifizieren und bereitstellen Stichworte und andere Metadaten über den Inhalt aus verschiedenen Perspektiven.Dann könnte ich meine Musiksammlung in ihrem ursprünglichen Zustand belassen (keine Verschwendung von Backup-Speicherplatz und -Zeit), sie aber trotzdem selbst taggen und andere Metadaten über externe Tag-Datenbanken hinzufügen.Wenn meine Anwendungen wüssten, wie sie die Tags erfassen, wäre das viel besser als das aktuelle System, bei dem wir große Dateien ändern und kopieren, nur um Tags z. B. aus anderen Dateien zu verschieben.von meinem Desktop auf mein Telefon.

Eine verwandte Idee finden Sie unter Metadatenunabhängiges Hashing zur Medienidentifizierung und P2P-Übertragungsoptimierung (pdf).

Das ist keine schlechte Idee.Manchmal stolpere ich über eine Datei und versuche herauszufinden, woher sie kommt :) Aber wie kann man die Quellen des Elements verfolgen?Inhalte können auf verschiedene Weise abgerufen werden – Webbrowser, Download-Manager, einfach durch Kopieren von der Netzwerkfreigabe.

Wenn ich Ihren Vorschlag richtig verstehe, http://bitzi.com/ macht das schon eine Weile.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow