NLP : (작은) Corpora, 또는“너무나 전문화되지 않은 영어 텍스트 파일을 얻을 수있는 곳?”

https://stackoverflow.com/questions/137380

02-07-2019
|

문제

작은 코퍼스에서 사용할 수있는 일상 영어 텍스트의 아카이브 나 컬렉션을 어디에서 찾을 수 있는지에 대한 제안이 있습니까? 저는 작업 프로토 타입에 Gutenberg 프로젝트 책을 사용해 왔으며보다 현대적인 언어를 통합하고 싶습니다. ㅏ 최근 답변 여기에서 간접적으로 위대한 것을 가리 켰습니다 USENET 영화 리뷰 아카이브, 나에게는 일어나지 않았고 아주 좋습니다. 이 특정 프로그램의 경우 기술적 인 USENET 아카이브 또는 프로그래밍 메일 링리스트는 결과를 기울이고 분석하기가 어렵지만 일반 블로그 텍스트 나 채팅 사본 또는 다른 사람에게 유용 할 수있는 것은 매우 도움이 될 것입니다. 또한, 너무 표시되지 않은 부분 또는 다운로드 가능한 연구 코퍼스 또는 Wikipedia 기사 또는 다른 아이디어의 적절한 하위 집합을 찾기위한 휴리스틱은 매우 감사합니다.

(BTW, 나는 당신이 저를 엄청난 것을 지적하는 데 도덕적 위험이있는 경우, 그러한 자료를 호스팅하는 서버에 요구하지 않는 고의적으로 느린 스크립트를 사용하여 다운로드하는 좋은 시민입니다.)

업데이트: 사용자 S0RIN은 Wikipedia가 크롤링을 요청하지 않고 제공한다고 지적합니다. 이 수출 도구 대신에. Project Gutenberg에는 정책이 지정되어 있습니다 여기, 결론적으로 크롤링하지 말고 필요한 경우 : "요청 사이에 최소 2 초를 기다리도록 로봇을 구성하십시오."

업데이트 2 Wikpedia 덤프는 그들을 지적한 답변 덕분에 갈 길입니다. 나는 여기에서 영어 버전을 사용하게되었습니다. http://download.wikimedia.org/enwiki/20090306/ , 그리고 스페인의 크기는 약 절반 정도입니다. 그들은 정리하는 일이지만 그만한 가치가 있으며 링크에 유용한 데이터가 많이 포함되어 있습니다.

해결책

사용 Wikipedia 덤프
- 많은 정리가 필요합니다
무엇이 있는지 확인하십시오 nltk-data 당신을 돕습니다
- Corpora는 일반적으로 매우 작습니다
그만큼 엉뚱한 사람들은 무료 코퍼라가 있습니다
- 태그
- 툴킷을 사용하여 자신의 코퍼스를 거미 할 수 있습니다
Europarl 무료이며 거의 모든 학업 MT 시스템의 기초
- 말한 언어, 번역
그만큼 로이터 코포라 무료이지만 CD에서만 사용할 수 있습니다.

HTML 페이지에는 종종 무거운 정리가 필요하므로 RSS 피드로 제한하십시오.

당신이 이것을 상업적으로 수행한다면, LDC 실행 가능한 대안 일 수 있습니다.

다른 팁

Wikipedia는가는 길처럼 들립니다. 있습니다 실험적 Wikipedia API 그것은 사용될 수 있지만, 그것이 어떻게 작동하는지에 대한 단서는 없습니다. 지금까지 나는 커스텀 스파이더 또는 심지어는 위키 백과를 긁어 냈습니다. wget.

그런 다음 RSS 피드에서 전체 기사 텍스트를 제공하는 페이지를 검색 할 수 있습니다. RSS, HTML 태그가 방해가되지 않기 때문입니다.

메일 링리스트 및/또는 USENET에는 몇 가지 배열이 있습니다. aolbonics 및 techspeak를 얻을 수있게되면 코퍼스가 심하게 기울일 것입니다.

클래식 한 코퍼라는 펜 트리 뱅크와 영국 국립 코퍼스이지만 지불금을받습니다. 당신은 읽을 수 있습니다 Corpora List Archives, 심지어 그들에게 그것에 대해 물어보십시오. 아마도 당신은 그것을 사용하여 유용한 데이터를 찾을 것입니다 코퍼스로서의 웹 도구.

실제로 건설에 작은 프로젝트가있어 임의의 웹 페이지에서 언어 처리가 가능합니다. 앞으로 몇 주 안에 사용할 준비가되어 있어야하지만 지금까지는 스크레이퍼가 아닙니다. 그러나 모듈을 작성할 수 있습니다. 기능이 이미 있다고 생각합니다.

돈을 지불하려는 경우 Penn TreeBank와 같은 언어 데이터 컨소시엄에서 사용 가능한 데이터를 확인해야합니다.

Wikipedia가 가장 좋은 방법 인 것 같습니다. 예, 출력을 구문 분석해야합니다. 그러나 Wikipedia의 카테고리 덕분에 다른 유형의 기사와 단어를 쉽게 얻을 수 있습니다. 예를 들어 모든 과학 카테고리를 구문 분석하여 많은 과학 단어를 얻을 수 있습니다. 장소에 대한 세부 사항은 지리적 이름 등으로 비뚤어집니다.

당신은 명백한 것을 다루었습니다. 내가 너무 보충에 대해 생각할 수있는 유일한 다른 영역 :

1) 뉴스 기사 / 블로그.

2) 잡지는 온라인으로 많은 무료 자료를 게시하고 있으며, 좋은 주제를 얻을 수 있습니다.

Wikipedia 데이터를 살펴보면서 그들이 한 일을 알았습니다. TV 및 영화 스크립트의 본문에 대한 일부 분석. 나는 흥미로운 텍스트가 있지만 쉽게 접근 할 수 없다고 생각했습니다. 그것은 어디에나있는 것으로 밝혀졌으며, 그것을 정리할 수있을 정도로 구성되어 있고 예측 가능합니다. 이 지역, "Net"의 한 위치에있는 영화 스크립트와 시나리오라는 유용한 제목은 아마도 비슷한 질문 으로이 스레드를 우연히 발견하는 사람에게 유용 할 것입니다.

여기에서 인용 내용 (제한된 형태)을 얻을 수 있습니다.http://quotationsbook.com/services/

이 콘텐츠는 또한 프리베이스에 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow