Wie war die beliebtesten Passagen Google Books Feature entwickelt?
-
18-09-2019 - |
Frage
Ich bin neugierig, ob jemand versteht, weiß oder mir umfassende Literatur oder Quellcode zeigen können, wie Google erstellt ihre beliebte Passage Blöcke verfügen. Wenn Sie jedoch von einer anderen Anwendung wissen, dass kann das gleiche tun bitte posten Sie Ihre Antwort auch.
Wenn Sie nicht wissen, was ich schreibe über hier ist ein Link zu einem Beispiel von Popular Passages. Wenn Sie an der Übersicht über das Buch aussehen Modellierung der rechtlichen Entscheidungsprozess für Anwendungen der Informationstechnologie ... Von Georgios N. Yannopoulos Sie so etwas wie sehen:
Beliebte Passagen
... Richtung, unbestimmt. Wir haben nicht geregelt, weil wir nicht haben erwartet, die Frage, die wird wird durch den unenvisaged Fall ausgelöst, wenn es passiert; ob ein gewisses Maß an Frieden im Park geopfert werden , oder verteidigt gegen diejenigen, Kinder, deren Lust oder Interesse es ist es, diese Dinge zu verwenden. Wenn die unenvisaged Fall nicht auftreten, wir konfrontieren die anstehenden Probleme und kann dann siedeln sich die Frage nach der Wahl zwischen den widerstreitenden Interessen in der Art und Weise, die am besten erfüllt uns. Im tun ... Seite 86
Erscheint in 15 Bücher aus 1968-2003
Dies wäre eine Welt fit für „Mechanische“ Jurisprudenz. Deutlich diese Welt ist nicht unsere Welt; Mensch Gesetzgeber kann kein solches Wissen alle möglichen Kombinationen von welchen Umständen kann die Zukunft bringen. Diese Unfähigkeit, zu antizipieren mit sich bringt, ein Verwandter Unbestimmtheit Ziel. Wenn wir fett sind genug, um einige allgemeine Regel Rahmen von Verhalten (zum Beispiel einer Regel, dass kein Fahrzeug kann) in den Park genommen werden, die Sprache in diesem Zusammenhang Behebungen verwendet notwendige Bedingungen, die alles erfüllen müssen ... Seite 86
Es muss ein intensiver Pattern-Matching-Prozess sein. Ich kann mich nur von n-Gramm-Modellen, Textkorpus, automatischer plagisrism Erkennung. Aber manchmal n-Gramm sind Wahrscheinlichkeitsmodelle für die Vorhersage der nächsten Element in einer Sequenz und Textkorpus (meines Wissens) manuell erstellt. Und in diesem speziellen Fall beliebte Passagen, da können viele Worte.
Ich bin wirklich verloren. Wenn ich ein solches Feature, wie oder wo soll ich anfangen schaffen wollte? Beinhalten auch in Ihrer Antwort, was Programmiersprachen sind am besten geeignet für diese Sachen: F # oder andere funktionelle lang, PERL, Python, Java ... (Ich bin immer ein F # fan ich)
PS: kann jemand umfasst den Tag automatisch-Plagiat-Erkennung, da kann ich nicht
Lösung
Lesen Sie dieses ACM Papier von Kolak und Schilit den Forschern Google, die entwickelt Beliebte Passages. Es gibt einige relevante Folien von diesem MapReduce Kurs gelehrt von Baldridge und Lease an der University of Texas in Austin.
Andere Tipps
In der kleinen Probe Ich schaute über, es sieht aus wie alle Passagen gepflückt waren Inline- oder Block Anführungszeichen. Nur eine Vermutung, aber vielleicht Google Books sucht Anführungszeichen / Unterschiede in der Formatierung und ein Zitat, verwendet dann eine analysierte Version der Bibliographie das Zitat mit der Quelle zu verbinden. Hooray für Stil Handbücher.
Dieser Ansatz ist offensichtlich keine Hilfe Plagiate zu erkennen, und ist wenig hilfreich, wenn der Korpus nicht in einem Format, die Textformatierung beibehalten.
Wenn Sie wissen, welche Bücher sind unter Berufung oder Referenzierung andere Bücher, die Sie brauchen, um nicht nur Blick auf alle möglichen Bücher, die Bücher, die einander zitieren. Wenn ist, wissenschaftliche Referenz häufig Zeilen- und Seitenzahlen sind mit dem Angebot enthalten oder kann in der Bibliographie am Ende des Buches zu finden, vielleicht google parst nur diese Informationen?
Google scholar hat sicherlich die Informationen über von Papier zu Papier unter Berufung auf vielleicht von Buch Buch.