문제

나는 더 많은 것에 대해 더 배우고 싶습니다 자연어 처리 (NLP) 및 사전 인식을 기반으로하지 않는 텍스트에 적절한 명사를 인식하기위한 전략이 있으면 궁금합니다. 또한 현재 사전 기반 방법을 설명하는 자원을 설명하거나 링크 할 수 있습니까? NLP에 대한 권위있는 전문가는 누구입니까, 또는 주제에 대한 결정적인 자원은 무엇입니까?

도움이 되었습니까?

해결책

텍스트에서 단어에 대한 연설의 적절한 부분을 결정하는 과제는 음성 태깅의 일부. 그만큼 브릴 타거, 예를 들어, 사전 (어휘) 단어와 맥락 규칙의 혼합을 사용합니다. 이 작업에 대한 중요한 초기 사전 단어 중 일부는 중지 단어라고 생각합니다. 말을 위해 연설의 일부 (주로 정확한) 부분을 가지고 있으면 더 큰 구조물을 구축 할 수 있습니다. 이 산업 지향적 책 명사 문구 (NP)와 명명 된 엔티티 인식을 구분합니다. 교과서 정보 : 앨런의 자연어 이해 좋지만 조금 데이트 된 책입니다. 통계 자연어 처리의 기초 통계 NLP에 대한 좋은 소개입니다. 언어 및 언어 처리 조금 더 엄격하고 아마도 더 권위있는 것입니다. 계산 언어학 협회 계산 언어학의 주요 과학계입니다.

다른 팁

사전 기반 접근 방식 외에도 다른 두 사람이 내 마음에옵니다.

  • 패턴 기반 접근법 (간단한 형태 : 자본화되는 것은 적절한 명사입니다)
  • 머신 러닝 접근 방식 (훈련 코퍼스의 적절한 명사 표시 및 분류기 훈련)

필드는 대부분 호출됩니다 명명 된 엔티티 추출 종종 서브 필드로 간주됩니다 정보 추출. NLP의 다른 필드에 대한 좋은 출발점은 일반적으로 전산 언어학의 옥스포드 핸드북:

Oxford Handbook of Computational Linguistics
(원천: oup.com)

"명명 된 엔티티 인식"을 검색해보십시오. 이것이 NLP 문헌에서 이런 종류의 일에 대해 사용되는 용어입니다.

사전 기반의 의미에 따라 다릅니다.

예를 들어, 한 가지 전략은 그렇지 않습니다 사전에서, 그들이 적절한 명사라고 가정하여 진행하려고 노력합니다. 이것이 현명한 구문 분석으로 이어지는 경우, 가정을 잠정적으로 검증하고 계속 진행하면 계속 진행하지 않다고 결론을 내립니다.

기타 아이디어 :

  • 주제 위치에서 결정자가없는 간단한 주제는 좋은 후보입니다.
  • 전치사 문구의 디토
  • 어떤 입장에서도 소유권 결정자의 기초 (예 : "Bob 's Sister"의 Bob)는 좋은 후보입니다.

- Markusq

일부 툴킷은 다음과 같이 제안했습니다. 1. OpenNLP : 작업에 대한 명명 된 엔티티 인식 구성 요소가 있습니다. 2. Lingpipe : 또한 NER 구성 요소 3. Stanford NLP 패키지 : 학업 적용을위한 우수한 패키지, 상업적 친화적이지 않을 수도 있습니다. 4. NLTK : Python NLP 패키지

"Bill Gates"와 같은 문장이 있고 Speech Tagger의 일부를 적용하는 경우. 그것은 대답을 줄 것입니다

"누가/wp는/vbz Bill/nn Gates/nns?/입니다."

당신은 이것을 온라인으로 시도 할 수 있습니다http://cst.dk/online/pos_tagger/uk/

그래서 당신은이 문장에서 모든 명사를 얻고 있습니다. 이제 알고리즘 으로이 명사를 쉽게 추출 할 수 있습니다. 자연어 처리를 사용하는 경우 Python을 사용하는 것이 좋습니다. NLTK (Natural Language Toolkit)가있어 작업 할 수 있습니다.

자연 언어 처리 구현에 관심이 있다면 Python은 프로그래밍 언어라면 매우 유익한 리소스가 될 수 있습니다. http://www.youtube.com/watch?v=KKE4M4ISCLC

이것은 벵골어를위한 것이지만 적절한 명사를 식별하는 일반적인 절차를 그릴 수 있습니다. 그래서 이것이 당신에게 도움이되기를 바랍니다. Folowing 링크를 확인하십시오.http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top