어떻게 아마존의 통계적으로 황당한 구문을 작동하는가?

https://stackoverflow.com/questions/2009498

18-09-2019
|

문제

어떻게 뭔가 통계적으로 황당한 구문을 작동하는가?

에 따라 amazon:

Amazon.com 아 통계적으로 황당한 구문,또는"모금",장 독특한 문서의 텍스트 책에서 내부 검색!™ 프로그램입니다.를 식별하는 모금,우리의 컴퓨터를 검사 텍스트의 모든 책에서 검색 다.프로그램입니다.만약 그들이 찾는 문구 발생하는 많은 수의 시대에 특정 예약 상대적인 모든 내부 검색!책는 문구 SIP 에는 책입니다.

모금하지 않은 황당한 반드시 에 특정 도서지만,그들은 황당한 상대적인 모든 책에 내부 검색!.예를 들어,대부분의 모금 책 세금에는 세금 관련이 있습니다.그러나 때문에 우리는 디스플레기 위해 모금 의 자신의 비개연성 점수 처음 모금에 세금는 항목 이 책에 언급보다 더 자주 다른 세 책입니다.소설, 모금하는 경향이있다 독특한 말씀 조합은 종종에서 힌트 중요한 줄거리 요소입니다.

예를 들어,요엘의 첫 번째 책금은:새는 추상화,부드러운 이미지 처리 텍스트,자신의 음식을 개,버그 수,매일 빌드,버그 데이터베이스,소프트웨어 일정

하나의 재미있는 이 문구의 2 개 또는 3 개의 단어입니다.이 일을 좀 더 재미있기 때문에 이 문구할 수 있습과 겹치거나 포함됩니다.

해결책

그것은 많은 방식을 좋아 루씬 계급에 대한 문서 준 search query.그들이 사용하는 메트릭이라는 TF-IDF,where TF 은 용어 frequence 및 idf 은 역 문서 주파수이다.전 순위는 문서 더 높은 더 쿼리 측면에 나타나는 문서,그리고 후자의 순위는 문서 높은 경우에는 약관에서 쿼리를 자주 나타나는 모든 문서입니다.특정한 방법으로 그들을 계산하는것은 로그(문서의 수수 문서와 용어)-ie,역함수의 주파수라는 용어가 나타납니다.

그래서 예에서,그 문은 모금에 상대적인 조엘의 책이기 때문에 그들은 희귀구(에 나오는 책이 몇)및 그들은 여러 번 나타나에서 그의 책입니다.

편집:에서 응답에 대한 질문에는 2-g3g,겹치는 중요하지 않습니다.을 고려한 문장"내 두 개는 브라".여기에,목록 2-g 은["내 두","두 개들","개들","는 브라"],그리고 목록에 3-g 은["내 두 개들","두 개 있다","개는 브라"].에서 언급했듯이 나의 코멘트,중복으로 당신을 얻을 N-1 2-g,N-2 3-g 스트림에 대한의 N 단어입니다.기 때문에 2-g 할 수 있는 유일한 동등한 다른 2-g 와 마찬가지로 3-g,당신은 처리할 수 있는 이러한 각각의 경우에는 별도로.을 처리할 때 2-g,때"말씀"될 것입 2-g,등등.

다른 팁

그들은 아마도 변형을 사용하고있을 것입니다 TF-IDF 무게, 특정 책에서는 많은 횟수 만 발생하지만 전체 코퍼스에서는 특정 책을 뺀 문구를 탐지합니다. 각 책에 대해 반복하십시오.

따라서 '불가능 성'은 전체 코퍼스와 관련이 있으며 '독창성'또는 '도서관의 나머지 부분에 비해 책을 독특하게 만드는 것'으로 이해 될 수 있습니다.

물론, 나는 단지 추측하고 있습니다.

Lingpipe에는 a 지도 시간 이 작업을 수행하는 방법에 대해 참조로 연결됩니다. 그들은 그 뒤에있는 수학에 대해 논의하지 않지만 소스 코드가 열려서 소스 코드를 볼 수 있습니다.

아마존은 아마도 비밀을 지키기 때문에 아마존이 무엇을하는지 알 수 없다.

출발점으로, 나는 볼 것이다 마르코프 체인.

하나의 옵션 :

전체 색인에서 텍스트 코퍼스를 구축하십시오.
하나의 책에서 텍스트 코퍼스를 구축하십시오.
모든 m에서 n 단어 문구에 대해 각 코퍼스가 생성 할 확률을 찾으십시오.
확률의 비율이 가장 높은 n 문구를 선택하십시오.

흥미로운 연장은 Weights 테이블이 전 세계와 지역 코퍼스의 차이를 확대하는 Markov 체인 생성기를 실행하는 것입니다. 이것은 저자의 문체 적 특질의 "캐리커처"(문자 그대로)를 생성 할 것입니다.

오래된 실을 되 살려서 죄송합니다. 그러나 나는 같은 질문을 위해 여기에 착륙했고 큰 스레드에 추가 할 수있는 새로운 작품이 있다는 것을 알았습니다.

모금은 TF-IDF 점수가 높은 단어보다 문서에 더 독특하다고 생각합니다. 예를 들어, 문서에서 해리 포터, 용어와 같은 용어 헤르미온느 그레인저 그리고 호그와트 용어와 같은 곳에서 더 나은 모금이되는 경향이 있습니다 마법 그리고 런던 그렇지 않습니다. TF-IDF는 이러한 차이를 만드는 데 큰 도움이되지 않습니다.

나는 SIPS의 흥미로운 정의를 발견했습니다 여기. 이 작업에서 문구는 N- 그램으로 모델링되며 문서에서 발생할 확률은 고유성을 식별하기 위해 계산됩니다.

나는 책을 독특하다고 식별하는 한 모금의 조합을 상당히 확신합니다. 당신의 예에서는 다른 책이 같은 책에 "누출 추상화"와 "자신의 개밥"을 가지고 있다는 것은 거의 불가능합니다.

그러나 나는 확실하지 않은 것처럼 여기서 가정하고 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow