Comment at-on développé des passages populaires disposent de Google Livres?
-
18-09-2019 - |
Question
Je suis curieux de savoir si quelqu'un comprend, sait ou peut me pointer à la littérature complète ou le code source sur la façon dont Google a créé leurs blocs de passage populaires disposent. Toutefois, si vous connaissez une autre application qui peut faire la même chose s'il vous plaît poster votre réponse aussi.
Si vous ne savez pas ce que je vous écris au sujet voici un lien vers un exemple de populaires passages. Quand vous regardez la vue d'ensemble du livre Modélisation du processus de décision de justice pour les applications de technologies de l'information ... Par Georgios N. Yannopoulos vous pouvez voir quelque chose comme:
passages populaires
... direction, indéterminée. On a pas réglé, parce que nous avons pas prévu, la question qui sera être soulevée par le cas lorsque unenvisaged ça arrive; si un certain degré de la paix dans le parc doit être sacrifié , ou défendre contre, les les enfants dont le plaisir ou de l'intérêt qu'il est d'utiliser ces choses. Quand le cas unenvisaged ne se pose, nous affronter les problèmes en jeu et peuvent puis régler la question en choisissant entre les intérêts concurrents dans la manière qui correspond le mieux nous satisfait. Dans faire ... page 86
Apparait dans 15 livres de 1968-2003
Ce serait un monde digne des la jurisprudence "mécanique". Clairement ce monde n'est pas notre monde; Humain les législateurs ne peuvent avoir ces connaissances de toutes les combinaisons possibles de circonstances que l'avenir peut apporter. Cette incapacité à anticiper apporte avec elle un parent indétermination de but. Quand nous osons assez pour encadrer une règle générale de conduite (par exemple, une règle qu'aucun véhicule peut être pris dans le parc), la langue utilisée dans ce contexte fixe conditions qui rien doit satisfaire ... page 86
Il doit être un processus de correspondance de motif intensive. Je ne peux penser à n-grammes, corpus de textes, la détection automatique de plagisrism. Mais, parfois n-grammes sont des modèles probabilistes pour prédire l'élément suivant dans un corpus de séquence et le texte (à ma connaissance) sont créés manuellement. Et, dans ce cas particulier, les passages populaires, il peut y avoir beaucoup de mots.
Je suis vraiment perdu. Si je voulais créer une telle fonction, comment et où dois-je commencer? En outre, inclure dans votre réponse que les langages de programmation sont les mieux adaptés à ce genre de choses: F # ou tout autre fonctionnelle lang, PERL, Python, Java ... (je deviens moi-même fan F #)
PS: quelqu'un peut-il inclure la balise automatique plagiat détection, parce que je ne peux pas
La solution
Lire ce papier ACM par Kolak et Schilit, les chercheurs de Google qui a développé populaires. Passages Il y a aussi quelques diapositives pertinentes de ce cours MapReduce enseigné par Baldrige et location à l'Université du Texas à Austin.
Autres conseils
Dans le petit échantillon que je regardais, il semble que tous les passages étaient cueillies en ligne ou des citations de bloc. Juste une supposition, mais peut-être Google Livres cherche guillemets / différences dans la mise en forme et une citation, puis utilise une version analysée de la bibliographie pour associer la citation à la source. Hourra pour les manuels de style.
Cette approche est évidemment d'aucune utilité pour détecter le plagiat, et est de peu d'aide si le corpus est pas dans un format qui préserve la mise en forme de texte.
Si vous savez quels livres citent ou référence à d'autres livres que vous n'avez pas besoin de regarder tous les livres possibles que les livres qui citent les uns les autres. Si l'on est souvent référence scientifique des numéros de ligne et de page sont inclus dans le devis ou se trouvent dans la bibliographie à la fin du livre, alors peut-être Google ne fait qu'analyser cette informations?
Google scholar a certainement les informations sur du papier citant le papier peut-être de livre en livre aussi.