문제

내가하고 싶은 것은 원시 자연 텍스트를 구문 분석하고 날짜를 묘사하는 모든 문구를 찾는 것입니다.

날짜에 대한 모든 참조가있는 상당히 큰 코퍼스가 있습니다.

I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
.

DATE 문구를 해석하고 싶지 않으므로 찾을 수 있습니다.그들이 날짜가 부적절하다는 사실은 (실제 생활에서는 날짜조차하지만 세부 사항으로 당신을 지루하게하고 싶지 않습니다) 기본적으로 가능한 가치 세트 일뿐입니다.가치 자체의 문법은 맥락이없는 것으로 근사 될 수 있지만, 수동으로 구축하는 것은 꽤 복잡하고 잘못된 긍정을 피하기 위해 점점 어려워지는 복잡성을 높이기 위해 매우 복잡합니다.

나는 이것이 긴 샷의 조금이라는 것을 알고 있습니다. 그래서 저는 밖에없는 솔루션을 기대하지는 않지만 잠재적으로 어떤 기술이나 연구를 사용할 수 있습니까?

도움이 되었습니까?

해결책

학계 및 업계에서 사용되는 일반적인 접근법 중 하나는 조건부 임의 분야를 기반으로합니다. 기본적으로 특수 확률 모델이며, 표시된 데이터로 먼저 훈련 한 다음 주어진 텍스트에 특정 유형의 엔티티에 레이블을 지정할 수 있습니다.

스탠포드 자연 언어 가공 그룹에서 시스템 중 하나를 시도 할 수도 있습니다. 스탠포드 이름 엔티티 인식기

도구를 다운로드 할 때 여러 모델이 있으므로 마지막 모델이 필요합니다.

스탠포드 NER에 포함 된

콘프리트가 훈련 된 4 개의 클래스 모델입니다. MUC를 위해 훈련 된 7 개의 클래스 모델과 둘 다 훈련 된 3 개의 클래스 모델 해당 클래스 세트의 교차로 데이터 세트입니다.

3 클래스 위치, 사람, 조직

4 클래스 위치, 사람, 조직, 기타

7 등급 시간, 위치, 조직, 사람, 돈, 백분율, 날짜

업데이트. 실제로 온라인 muc.7class.distsim.crf.ser.gz 분류자를 선택하고 날짜가있는 텍스트를 사용해보십시오. 그것은 "어제"를 인식하지 못하지만, 예를 들어 "20 세기"를 인식합니다. 결국, 이것은 CRF 훈련의 문제입니다.


Stanford Ner screenshot

다른 팁

CRF가 훈련하기가 더 느리고 인간 주석이 달린 데이터가 필요하므로 직접 수행하는 것은 쉽지 않습니다. 다른 예를 들어,이 에 대한 답변을 읽으십시오.현재 사람들이 현재의 학업 연구와 많이 공통적이지는 않아도됩니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top