Google Books의 인기 구절 기능은 어떻게 개발 되었습니까?

https://stackoverflow.com/questions/1154722

18-09-2019
|

문제

Google이 인기있는 Passage Blocks 기능을 어떻게 만들 었는지에 대한 포괄적 인 문헌이나 소스 코드를 이해하거나 알고 알고 있으면 궁금합니다. 그러나 동일한 작업을 수행 할 수있는 다른 응용 프로그램을 알고 있다면 답변도 게시하십시오.

내가 무엇에 대해 쓰고 있는지 모른다면 다음은 예제에 대한 링크입니다 인기있는 구절의. 책의 개요를 볼 때 정보 기술 응용 프로그램을위한 법적 결정 프로세스 모델링 ... Georgios N. Yannopoulos 당신은 다음과 같은 것을 볼 수 있습니다.

인기있는 구절

... 방향, 불확실한. 우리는 예상하지 못했기 때문에 정착하지 않았으며, 발생하지 않은 사건에 의해 제기 될 의문이 발생했을 때 발생하지 않았습니다. 공원의 어느 정도의 평화가 희생되거나, 이런 것들을 사용하는 것이 즐거움이나 관심을 가진 아이들에게 희생되거나 방어 해야하는지 여부. 당연한 사건이 발생하면, 우리는 위험에 직면 한 다음 우리를 가장 잘 만족시키는 방식에 대한 경쟁적인 관심사들 사이를 선택함으로써 질문을 해결할 수 있습니다. 할 때 ... 86 페이지

1968-2003 년부터 15 권의 책에 나타납니다

이것은 "기계적"법학에 적합한 세계 일 것입니다. 분명히이 세상은 우리의 세상이 아닙니다. 인간 입법자들은 미래가 가져올 수있는 모든 가능한 상황 조합에 대한 그러한 지식을 가질 수 없습니다. 이러한 예상 불가능은 AIM의 상대적인 불확실성을 가져옵니다. 우리가 일반적인 행동 규칙을 구성 할 수있을 정도로 대담 할 때 (예 : 차량이 공원에 차량을 가져갈 수 없다는 규칙),이 맥락에서 사용 된 언어는 무엇이든 만족 해야하는 필요한 조건을 수정합니다 ... 86 페이지

1968-2000 년 8 권의 책에 나타납니다

더

집중 패턴 매칭 프로세스 여야합니다. 나는 N-Gram 모델, 텍스트 코퍼스, 자동 페이즈 라이즘 탐지 만 생각할 수 있습니다. 그러나 때때로 N- 그램은 시퀀스에서 다음 항목을 예측하기위한 확률 론적 모델이며 (내 지식으로) 텍스트 코퍼스가 수동으로 만들어집니다. 그리고이 특별한 경우, 대중적인 구절에는 많은 단어가있을 수 있습니다.

나는 정말로 길을 잃었다. 그런 기능을 만들고 싶다면 어떻게 또는 어디서 시작해야합니까? 또한 응답 에이 작업에 가장 적합한 프로그래밍 언어를 포함시킵니다. F# 또는 기타 기능적인 Lang, Perl, Python, Java ... (나는 F# 팬이되고 있습니다)

추신 : 누군가가 TAG Automatic-Operism-Detection을 포함시킬 수 있습니까?

해결책

읽다 이 ACM 용지 Kolak과 Schilit에 의해 인기있는 구절을 개발 한 Google 연구원. 또한 있습니다 몇 가지 관련 슬라이드 이 Mapreduce 과정에서 Baldridge가 가르치고 오스틴의 텍사스 대학교에서 임대합니다.

다른 팁

내가 보았던 작은 샘플에서, 선택한 모든 구절이 인라인 또는 블록 인용문 인 것처럼 보입니다. 단지 추측이지만 아마도 Google Books에서는 포맷과 인용의 인용문/차이를 찾은 다음 구문 분석 된 BIBLIOGRAPHY 버전을 사용하여 인용문을 소스와 연관시킵니다. 스타일 매뉴얼을위한 만세.

이 접근법은 분명히 표절을 감지하는 데 도움이되지 않으며, 코퍼스가 텍스트 형식을 보존하는 형식이 아닌 경우 도움이되지 않습니다.

어떤 책이 언급하고 있는지 또는 다른 책을 참조하는 것을 알고 있다면, 당신은 서로를 인용하는 책만 모든 가능한 책을 볼 필요가 없습니다. 과학적 참조라면이라면 종종 라인과 페이지 번호가 인용문에 포함되거나 책 끝의 참고 문헌에서 찾을 수 있으므로 Google 은이 정보 만 구문 분석 할 수 있습니까?

Google Scholar는 확실히 종이에서 종이로 인용하는 것에 대한 정보를 책에서 책으로도 가지고 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow