Come è stato passaggi popolari di Google Libri funzionalità sviluppata?
-
18-09-2019 - |
Domanda
Sono curioso di sapere se qualcuno capisce, sa o mi può puntare alla letteratura completo o il codice sorgente su come Google ha creato loro blocchi di passaggio popolari dispongono. Tuttavia, se siete a conoscenza di qualsiasi altra applicazione che può fare la stessa si prega di inviare la vostra risposta troppo.
Se non sapete di cosa sto scrivendo su qui è un link ad un esempio di passaggi popolari. Quando si guarda la panoramica del libro Modellazione del processo di decisione giuridica per le applicazioni informatiche ... da Georgios N. Yannopoulos si può vedere qualcosa di simile:
passaggi popolari
... direzione, indeterminata. abbiamo non è risolta, perché non abbiamo anticipato, la questione che sarà essere sollevata dal caso unenvisaged quando capita; se un certo grado di la pace nel parco deve essere sacrificato a, o difeso contro, quelli bambini il cui piacere o di interesse è quello di utilizzare queste cose. Quando il caso unenvisaged si pone, abbiamo affrontare le questioni in gioco e lattina poi risolvono la questione di scelta tra gli interessi in gioco nella modo che meglio soddisfa noi. Nel facendo ... Page 86
Questo sarebbe un mondo a misura di giurisprudenza "meccanico". chiaramente questo mondo non è il nostro mondo; umano i legislatori non possono avere nessuna tale conoscenza di tutte le possibili combinazioni di circostanze che il futuro può portare. Questa incapacità di anticipare porta con sé un parente indeterminatezza scopo. Quando siamo in grassetto abbastanza per inquadrare una regola generale effettuare (ad esempio una regola che nessun veicolo può essere presa nel parco), il lingua utilizzata in questo contesto correzioni condizioni necessarie che nulla deve soddisfare ... Page 86
Deve essere un processo pattern matching intensiva. Posso solo pensare di modelli n-gram, corpus di testi, il rilevamento automatico plagisrism. Ma, a volte n-grammi sono modelli probabilistici per predire l'elemento successivo in una sequenza e il testo corpus (a mia conoscenza) vengono creati manualmente. E, in questo caso particolare, i passaggi popolari, non ci può essere una grande quantità di parole.
Sono davvero perso. Se ho voluto creare una tale funzione, come o dove dovrei cominciare? Inoltre, includono nella reazione quali linguaggi di programmazione sono più adatti per questa roba: F # o qualsiasi altro funzionali Lang, Perl, Python, Java ... (sto diventando un F # fan me stesso)
PS: qualcuno può includere il tag automatico-plagio di rilevamento, perché non posso
Soluzione
questo documento ACM da Kolak e Schilit, i ricercatori di Google hanno sviluppato Passaggi popolare. Ci sono anche alcune diapositive rilevanti da questo corso MapReduce insegnata da Baldridge e locazione presso l'Università del Texas a Austin.
Altri suggerimenti
Nel piccolo campione Ho guardato oltre, sembra che tutti i passaggi raccolti erano in linea o citazioni di blocco. Solo una supposizione, ma forse Google Books cerca i contrassegni di citazione / differenze di formattazione e una citazione, quindi utilizza una versione analizzata della bibliografia di associare la citazione con la fonte. Urrà per manuali di stile.
Questo approccio è evidentemente di nessun aiuto per rilevare il plagio, ed è di scarso aiuto se il corpus non è in un formato che conserva la formattazione del testo.
Se si sa quali libri citano o fare riferimento a altri libri non c'è bisogno di guardare a tutti i possibili libri solo i libri che citano a vicenda. Se è spesso numeri di riga e di pagina di riferimento scientifico sono inclusi con la citazione o possono essere trovati nella bibliografia alla fine del libro, così forse Google analizza solo queste informazioni?
Google scholar ha certamente le informazioni su citando dalla carta alla carta forse di libro in libro troppo.