Как была разработана функция популярных отрывков в Google Books?

https://stackoverflow.com/questions/1154722

18-09-2019
|

Вопрос

Мне любопытно, понимает ли кто-нибудь, знает или может указать мне на исчерпывающую литературу или исходный код о том, как Google создал свою популярную функцию блокировки переходов.Однако, если вы знаете о каком-либо другом приложении, которое может делать то же самое, пожалуйста, опубликуйте и свой ответ.

Если вы не знаете, о чем я пишу вот ссылка на пример из Популярных Отрывков.Когда вы смотрите на обзор книги Моделирование процесса принятия юридических решений для приложений информационных технологий ...Автор : Георгиос Н .Яннопулос вы можете увидеть что-то вроде:

Популярные отрывки

...направление, неопределенное.Мы не решили, потому что мы не предвидели, вопрос, который будет поднят непросмотренным случаем, когда это произойдет;должна ли какая-то степень спокойствия в парке быть принесена в жертву или защищена от тех детей, которым это доставляет удовольствие или интерес заключается в использовании этих вещей.Когда возникает непросмотренный случай, мы сталкиваемся с проблемами, стоящими на кону, и можем затем решить вопрос, выбрав между конкурирующими интересами способ, который наилучшим образом удовлетворяет нас.В делая... Страница 86

Появляется в 15 книгах 1968-2003 годов

Это был бы мир, пригодный для "механической" юриспруденции.Ясно этот мир - не наш мир;человек законодатели не могут обладать такими знаниями обо всех возможных сочетаниях обстоятельств, которые может принести будущее .Эта неспособность предвидеть приносит с собой относительную неопределенность цели.Когда мы набираемся смелости достаточно, чтобы сформулировать некоторое общее правило поведения (например, правило, запрещающее въезд транспортных средств на парковку), язык, используемый в этом контексте, фиксирует необходимые условия, которым что-либо должно удовлетворять ... Страница 86

Появляется в 8 книгах 1968-2000 годов

Еще

Это должен быть интенсивный процесс сопоставления с образцом.Я могу думать только о n-граммовых моделях, корпусе текста, автоматическом обнаружении плагиата.Но иногда n-граммы представляют собой вероятностные модели для прогнозирования следующего элемента в последовательности, и текстовый корпус (насколько мне известно) создается вручную.И, в данном конкретном случае, в популярных отрывках может быть очень много слов.

Я действительно заблудился.Если бы я хотел создать такую функцию, как или с чего мне следует начать?Кроме того, укажите в своем ответе, какие языки программирования лучше всего подходят для этого материала:F # или любой другой функциональный язык lang, PERL, Python, Java...(Я сам становлюсь фанатом F #)

PS:может ли кто-нибудь включить тег автоматического обнаружения плагиата, потому что я не могу

Решение

Читать этот документ ACM авторы: Колак и Шилит, исследователи Google, которые разработали Популярные Отрывки.Существуют также несколько соответствующих слайдов из этого курса MapReduce, преподаваемого Болдриджем и Лиз в Техасском университете в Остине.

Другие советы

В небольшом примере, который я просмотрел, похоже, что все выбранные отрывки были встроенными или блочными кавычками.Просто предположение, но, возможно, Google Books ищет кавычки / различия в форматировании и цитату, а затем использует обработанную версию библиографии, чтобы связать цитату с источником.Ура руководствам по стилю.

Очевидно, что такой подход не помогает обнаружить плагиат и мало помогает, если корпус не выполнен в формате, который сохраняет форматирование текста.

Если вы знаете, какие книги цитируются или ссылаются на другие книги, вам не нужно просматривать все возможные книги, только те, которые ссылаются друг на друга.Если это научная ссылка, часто номера строк и страниц включаются в цитату или их можно найти в библиографии в конце книги, так что, может быть, Google анализирует только эту информацию?

В Google scholar, безусловно, есть информация о цитировании из статьи в статью, возможно, и из книги в книгу.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow