모델한 분류 Noun Phrase?

Question 1

내 예감은 흠이 없습니다.사용될 수 있습을 추측 POS,태그를 파생시키는 순서와 태그의 최고 확률에 따라 사전 확률과 조건부 확률에서 토큰 하나 있습니다.

에 대한 완전한 명사 문구가 나지 않는 모델과 일치합니다.

모든 확률 기반으로 접근하는 것은 매우 어려울 것 기기 때문에,명사 문구를 포함할 수 있습 많습니다.이것이 정말로 많은합니다.유용한 훈련 확률,당신은 필요 정말 거대한 훈련합니다.

수도 있습 빠르고 쉽게 얻을 충분히 좋은 시작에 만들어 세트의 문법 규칙,예를 들어 정규 표현식을 통해 POS 태그하여 다음에서 설명

http://en.wikipedia.org/wiki/Noun_phrase#Components_of_noun_phrases

또는 다른 언어의 설명 문구를 명사.

Question 2

에서 내가 이해,당신은 이미 POS 태그의 시퀀스는 단어입니다.일단 당신이 태그에 대한 단어의 순서,당신은 당신을 사용할 필요가 없 음을 분류하는 경우스 NP.당신이해야 할 모든 당신이 볼에 대한 패턴의는 다음과 같은 형태:

의 결정에 의해 다음 명사
형용사는 다음에 명사
결정 뒤에 형용사는 다음에 명사

etc.

누군가가 그냥 언급 HMMs 을 얻기 위해 사용되는 POS 태그에 대한 새로운 단어의 순서.그러나 당신이 필요로그램 코퍼스를 처음 만들어졌다고 한다.거기에 태그가 있는 코퍼스에서 사용 가능 NLTK 소프트웨어입니다.

는 경우에 당신의 시퀀스는 이미 태그 다음 사용법 규칙에서 언급했듯이 이전의 대답이다.

Question 3

사람들이 사용 HMMs 라벨 명사구에서 POS 라는 문장하지만,일반적인 모델을 설정하지 않는 일에서 아주 있는 방법을 설명하고 있습니다.

대신,설정(참조하십시오 덩어리 술래-통계적 인식의 명사구(PDF) 고 이름 entity 인식을 사용한 HMM 기반의 덩어리 술래(PDF) 에 대한 예)을 사용하는 HMM 으로 세 가지 상태:

O(지에 NP),
B(의 시작 NP),
I(에 NP,하지만 처음).

각각의 단어는 문장에서 할당됩니다 중국에 의해 처음 만들어졌다고 한다.예를 들어,문장

의/DT 소년/윈 치/VT 의/DT 공/NN 과/PP 의/DT 빨강/ADJ bat/NN./.

수도적 표시는 다음과 같다:

의/DT B 소년/NN 나 hit/VT O 의/DT B 공/NN 나 과/PP O 의/DT B 레드/ADJ 나 bat/NN 나 ./. O

전환 중에 이 세 가지 흠국이 제한 될 수 있습에 따라 사전 지식이 어떻게 작동 시퀀스;특히,만 전환할 수 있습니다 내가 B 에서지만,다른 하나의 전환이 가능한 모든 가 아닌 확률입니다.당신이 사용할 수 있습니다 Baum-웰치의 코퍼스 레이블이 없는 텍스트 기차의 HMM(를 식별하는 모든 유형의 덩어리에는 모든 보 간단 자율 문법을 유도 원료에서 텍스트와 연결된 유한 상태 모델(PDF) 예를 들어),또는 어떤 종류의 최대 우도 방법으로 모음 표시 문자(경우에 당신이 찾고있는 명사를 위해 특별히 구문)하시기 바랍니다.