자연 텍스트의 날짜에 대한 참조를 찾는 방법은 무엇입니까?
문제
내가하고 싶은 것은 원시 자연 텍스트를 구문 분석하고 날짜를 묘사하는 모든 문구를 찾는 것입니다.
날짜에 대한 모든 참조가있는 상당히 큰 코퍼스가 있습니다.
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
.
DATE 문구를 해석하고 싶지 않으므로 찾을 수 있습니다.그들이 날짜가 부적절하다는 사실은 (실제 생활에서는 날짜조차하지만 세부 사항으로 당신을 지루하게하고 싶지 않습니다) 기본적으로 가능한 가치 세트 일뿐입니다.가치 자체의 문법은 맥락이없는 것으로 근사 될 수 있지만, 수동으로 구축하는 것은 꽤 복잡하고 잘못된 긍정을 피하기 위해 점점 어려워지는 복잡성을 높이기 위해 매우 복잡합니다.
나는 이것이 긴 샷의 조금이라는 것을 알고 있습니다. 그래서 저는 밖에없는 솔루션을 기대하지는 않지만 잠재적으로 어떤 기술이나 연구를 사용할 수 있습니까?
해결책
학계 및 업계에서 사용되는 일반적인 접근법 중 하나는 조건부 임의 분야를 기반으로합니다. 기본적으로 특수 확률 모델이며, 표시된 데이터로 먼저 훈련 한 다음 주어진 텍스트에 특정 유형의 엔티티에 레이블을 지정할 수 있습니다.
스탠포드 자연 언어 가공 그룹에서 시스템 중 하나를 시도 할 수도 있습니다. 스탠포드 이름 엔티티 인식기
도구를 다운로드 할 때 여러 모델이 있으므로 마지막 모델이 필요합니다.
스탠포드 NER에 포함 된콘프리트가 훈련 된 4 개의 클래스 모델입니다. MUC를 위해 훈련 된 7 개의 클래스 모델과 둘 다 훈련 된 3 개의 클래스 모델 해당 클래스 세트의 교차로 데이터 세트입니다.
3 클래스 위치, 사람, 조직
4 클래스 위치, 사람, 조직, 기타
7 등급 시간, 위치, 조직, 사람, 돈, 백분율, 날짜
업데이트. 실제로 온라인 muc.7class.distsim.crf.ser.gz
분류자를 선택하고 날짜가있는 텍스트를 사용해보십시오. 그것은 "어제"를 인식하지 못하지만, 예를 들어 "20 세기"를 인식합니다. 결국, 이것은 CRF 훈련의 문제입니다.
다른 팁
CRF가 훈련하기가 더 느리고 인간 주석이 달린 데이터가 필요하므로 직접 수행하는 것은 쉽지 않습니다. 다른 예를 들어,이 에 대한 답변을 읽으십시오.현재 사람들이 현재의 학업 연구와 많이 공통적이지는 않아도됩니다.