Come è stato passaggi popolari di Google Libri funzionalità sviluppata?

https://stackoverflow.com/questions/1154722

18-09-2019
|

Domanda

Sono curioso di sapere se qualcuno capisce, sa o mi può puntare alla letteratura completo o il codice sorgente su come Google ha creato loro blocchi di passaggio popolari dispongono. Tuttavia, se siete a conoscenza di qualsiasi altra applicazione che può fare la stessa si prega di inviare la vostra risposta troppo.

Se non sapete di cosa sto scrivendo su qui è un link ad un esempio di passaggi popolari. Quando si guarda la panoramica del libro Modellazione del processo di decisione giuridica per le applicazioni informatiche ... da Georgios N. Yannopoulos si può vedere qualcosa di simile:

passaggi popolari

... direzione, indeterminata. abbiamo   non è risolta, perché non abbiamo   anticipato, la questione che sarà   essere sollevata dal caso unenvisaged quando   capita; se un certo grado di   la pace nel parco deve essere sacrificato   a, o difeso contro, quelli   bambini il cui piacere o di interesse   è quello di utilizzare queste cose. Quando il   caso unenvisaged si pone, abbiamo   affrontare le questioni in gioco e lattina   poi risolvono la questione di scelta   tra gli interessi in gioco nella   modo che meglio soddisfa noi. Nel   facendo ... Page 86

Appare in 15 libri 1968-2003

Questo sarebbe un mondo a misura di   giurisprudenza "meccanico". chiaramente   questo mondo non è il nostro mondo; umano   i legislatori non possono avere nessuna tale conoscenza   di tutte le possibili combinazioni di   circostanze che il futuro può   portare. Questa incapacità di anticipare   porta con sé un parente   indeterminatezza scopo. Quando siamo in grassetto   abbastanza per inquadrare una regola generale   effettuare (ad esempio una regola che nessun veicolo   può essere presa nel parco), il   lingua utilizzata in questo contesto correzioni   condizioni necessarie che nulla   deve soddisfare ... Page 86

Appare in 8 libri 1968-2000

più

Deve essere un processo pattern matching intensiva. Posso solo pensare di modelli n-gram, corpus di testi, il rilevamento automatico plagisrism. Ma, a volte n-grammi sono modelli probabilistici per predire l'elemento successivo in una sequenza e il testo corpus (a mia conoscenza) vengono creati manualmente. E, in questo caso particolare, i passaggi popolari, non ci può essere una grande quantità di parole.

Sono davvero perso. Se ho voluto creare una tale funzione, come o dove dovrei cominciare? Inoltre, includono nella reazione quali linguaggi di programmazione sono più adatti per questa roba: F # o qualsiasi altro funzionali Lang, Perl, Python, Java ... (sto diventando un F # fan me stesso)

PS: qualcuno può includere il tag automatico-plagio di rilevamento, perché non posso

Soluzione

questo documento ACM da Kolak e Schilit, i ricercatori di Google hanno sviluppato Passaggi popolare. Ci sono anche alcune diapositive rilevanti da questo corso MapReduce insegnata da Baldridge e locazione presso l'Università del Texas a Austin.

Altri suggerimenti

Nel piccolo campione Ho guardato oltre, sembra che tutti i passaggi raccolti erano in linea o citazioni di blocco. Solo una supposizione, ma forse Google Books cerca i contrassegni di citazione / differenze di formattazione e una citazione, quindi utilizza una versione analizzata della bibliografia di associare la citazione con la fonte. Urrà per manuali di stile.

Questo approccio è evidentemente di nessun aiuto per rilevare il plagio, ed è di scarso aiuto se il corpus non è in un formato che conserva la formattazione del testo.

Se si sa quali libri citano o fare riferimento a altri libri non c'è bisogno di guardare a tutti i possibili libri solo i libri che citano a vicenda. Se è spesso numeri di riga e di pagina di riferimento scientifico sono inclusi con la citazione o possono essere trovati nella bibliografia alla fine del libro, così forse Google analizza solo queste informazioni?

Google scholar ha certamente le informazioni su citando dalla carta alla carta forse di libro in libro troppo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow