Comment at-on développé des passages populaires disposent de Google Livres?

https://stackoverflow.com/questions/1154722

18-09-2019
|

Question

Je suis curieux de savoir si quelqu'un comprend, sait ou peut me pointer à la littérature complète ou le code source sur la façon dont Google a créé leurs blocs de passage populaires disposent. Toutefois, si vous connaissez une autre application qui peut faire la même chose s'il vous plaît poster votre réponse aussi.

Si vous ne savez pas ce que je vous écris au sujet voici un lien vers un exemple de populaires passages. Quand vous regardez la vue d'ensemble du livre Modélisation du processus de décision de justice pour les applications de technologies de l'information ... Par Georgios N. Yannopoulos vous pouvez voir quelque chose comme:

passages populaires

... direction, indéterminée. On a   pas réglé, parce que nous avons pas   prévu, la question qui sera   être soulevée par le cas lorsque unenvisaged   ça arrive; si un certain degré de   la paix dans le parc doit être sacrifié   , ou défendre contre, les   les enfants dont le plaisir ou de l'intérêt qu'il   est d'utiliser ces choses. Quand le   cas unenvisaged ne se pose, nous   affronter les problèmes en jeu et peuvent   puis régler la question en choisissant   entre les intérêts concurrents dans la   manière qui correspond le mieux nous satisfait. Dans   faire ... page 86

Apparait dans 15 livres de 1968-2003

Ce serait un monde digne des   la jurisprudence "mécanique". Clairement   ce monde n'est pas notre monde; Humain   les législateurs ne peuvent avoir ces connaissances   de toutes les combinaisons possibles de   circonstances que l'avenir peut   apporter. Cette incapacité à anticiper   apporte avec elle un parent   indétermination de but. Quand nous osons   assez pour encadrer une règle générale de   conduite (par exemple, une règle qu'aucun véhicule   peut être pris dans le parc), la   langue utilisée dans ce contexte fixe   conditions qui rien   doit satisfaire ... page 86

Apparait dans 8 livres de 1968-2000

plus

Il doit être un processus de correspondance de motif intensive. Je ne peux penser à n-grammes, corpus de textes, la détection automatique de plagisrism. Mais, parfois n-grammes sont des modèles probabilistes pour prédire l'élément suivant dans un corpus de séquence et le texte (à ma connaissance) sont créés manuellement. Et, dans ce cas particulier, les passages populaires, il peut y avoir beaucoup de mots.

Je suis vraiment perdu. Si je voulais créer une telle fonction, comment et où dois-je commencer? En outre, inclure dans votre réponse que les langages de programmation sont les mieux adaptés à ce genre de choses: F # ou tout autre fonctionnelle lang, PERL, Python, Java ... (je deviens moi-même fan F #)

PS: quelqu'un peut-il inclure la balise automatique plagiat détection, parce que je ne peux pas

La solution

Lire ce papier ACM par Kolak et Schilit, les chercheurs de Google qui a développé populaires. Passages Il y a aussi quelques diapositives pertinentes de ce cours MapReduce enseigné par Baldrige et location à l'Université du Texas à Austin.

Autres conseils

Dans le petit échantillon que je regardais, il semble que tous les passages étaient cueillies en ligne ou des citations de bloc. Juste une supposition, mais peut-être Google Livres cherche guillemets / différences dans la mise en forme et une citation, puis utilise une version analysée de la bibliographie pour associer la citation à la source. Hourra pour les manuels de style.

Cette approche est évidemment d'aucune utilité pour détecter le plagiat, et est de peu d'aide si le corpus est pas dans un format qui préserve la mise en forme de texte.

Si vous savez quels livres citent ou référence à d'autres livres que vous n'avez pas besoin de regarder tous les livres possibles que les livres qui citent les uns les autres. Si l'on est souvent référence scientifique des numéros de ligne et de page sont inclus dans le devis ou se trouvent dans la bibliographie à la fin du livre, alors peut-être Google ne fait qu'analyser cette informations?

Google scholar a certainement les informations sur du papier citant le papier peut-être de livre en livre aussi.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow