Wie war die beliebtesten Passagen Google Books Feature entwickelt?

https://stackoverflow.com/questions/1154722

18-09-2019
|

Frage

Ich bin neugierig, ob jemand versteht, weiß oder mir umfassende Literatur oder Quellcode zeigen können, wie Google erstellt ihre beliebte Passage Blöcke verfügen. Wenn Sie jedoch von einer anderen Anwendung wissen, dass kann das gleiche tun bitte posten Sie Ihre Antwort auch.

Wenn Sie nicht wissen, was ich schreibe über hier ist ein Link zu einem Beispiel von Popular Passages. Wenn Sie an der Übersicht über das Buch aussehen Modellierung der rechtlichen Entscheidungsprozess für Anwendungen der Informationstechnologie ... Von Georgios N. Yannopoulos Sie so etwas wie sehen:

Beliebte Passagen

... Richtung, unbestimmt. Wir haben   nicht geregelt, weil wir nicht haben   erwartet, die Frage, die wird   wird durch den unenvisaged Fall ausgelöst, wenn   es passiert; ob ein gewisses Maß an   Frieden im Park geopfert werden   , oder verteidigt gegen diejenigen,   Kinder, deren Lust oder Interesse es   ist es, diese Dinge zu verwenden. Wenn die   unenvisaged Fall nicht auftreten, wir   konfrontieren die anstehenden Probleme und kann   dann siedeln sich die Frage nach der Wahl   zwischen den widerstreitenden Interessen in der   Art und Weise, die am besten erfüllt uns. Im   tun ... Seite 86

Erscheint in 15 Bücher aus 1968-2003

Dies wäre eine Welt fit für   „Mechanische“ Jurisprudenz. Deutlich   diese Welt ist nicht unsere Welt; Mensch   Gesetzgeber kann kein solches Wissen   alle möglichen Kombinationen von   welchen Umständen kann die Zukunft   bringen. Diese Unfähigkeit, zu antizipieren   mit sich bringt, ein Verwandter   Unbestimmtheit Ziel. Wenn wir fett sind   genug, um einige allgemeine Regel Rahmen von   Verhalten (zum Beispiel einer Regel, dass kein Fahrzeug   kann) in den Park genommen werden, die   Sprache in diesem Zusammenhang Behebungen verwendet   notwendige Bedingungen, die alles   erfüllen müssen ... Seite 86

Erscheint in 8 Bücher aus 1968-2000

mehr

Es muss ein intensiver Pattern-Matching-Prozess sein. Ich kann mich nur von n-Gramm-Modellen, Textkorpus, automatischer plagisrism Erkennung. Aber manchmal n-Gramm sind Wahrscheinlichkeitsmodelle für die Vorhersage der nächsten Element in einer Sequenz und Textkorpus (meines Wissens) manuell erstellt. Und in diesem speziellen Fall beliebte Passagen, da können viele Worte.

Ich bin wirklich verloren. Wenn ich ein solches Feature, wie oder wo soll ich anfangen schaffen wollte? Beinhalten auch in Ihrer Antwort, was Programmiersprachen sind am besten geeignet für diese Sachen: F # oder andere funktionelle lang, PERL, Python, Java ... (Ich bin immer ein F # fan ich)

PS: kann jemand umfasst den Tag automatisch-Plagiat-Erkennung, da kann ich nicht

Lösung

Lesen Sie dieses ACM Papier von Kolak und Schilit den Forschern Google, die entwickelt Beliebte Passages. Es gibt einige relevante Folien von diesem MapReduce Kurs gelehrt von Baldridge und Lease an der University of Texas in Austin.

Andere Tipps

In der kleinen Probe Ich schaute über, es sieht aus wie alle Passagen gepflückt waren Inline- oder Block Anführungszeichen. Nur eine Vermutung, aber vielleicht Google Books sucht Anführungszeichen / Unterschiede in der Formatierung und ein Zitat, verwendet dann eine analysierte Version der Bibliographie das Zitat mit der Quelle zu verbinden. Hooray für Stil Handbücher.

Dieser Ansatz ist offensichtlich keine Hilfe Plagiate zu erkennen, und ist wenig hilfreich, wenn der Korpus nicht in einem Format, die Textformatierung beibehalten.

Wenn Sie wissen, welche Bücher sind unter Berufung oder Referenzierung andere Bücher, die Sie brauchen, um nicht nur Blick auf alle möglichen Bücher, die Bücher, die einander zitieren. Wenn ist, wissenschaftliche Referenz häufig Zeilen- und Seitenzahlen sind mit dem Angebot enthalten oder kann in der Bibliographie am Ende des Buches zu finden, vielleicht google parst nur diese Informationen?

Google scholar hat sicherlich die Informationen über von Papier zu Papier unter Berufung auf vielleicht von Buch Buch.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow