문제

필요해를 위한 모델을 다음과 같은 작업

는 단어의 순서로,POS 태그가 있습니다.내가 원하는지 여부를 판단하는 이 단어의 순서는 명사구나지 않습니다.

하나의 모델이 생각할 수 있는 처음 만들어졌다고 한다.

사람들을 위해 시퀀스는 명사구,우리는 기차 HMM(HMM+).에 대한 사람들은 명사구,우리는 시도는 HMM(HMM-).고 할 때 우리는 예측을 위한 순서,우리가 계산할 수 있습 P(순서|HMM+),P(순서|HMM-).는 경우 전자가 더 크고,우리는 생각은 이 문구를 명사구,그렇지 않으면 그것을 하지 않습니다.

당신은 무엇을 생각하십니까?그리고 당신이 어떤 다른 모델에 적합한 이 질문은?

도움이 되었습니까?

해결책 3

내 예감은 흠이 없습니다.사용될 수 있습을 추측 POS,태그를 파생시키는 순서와 태그의 최고 확률에 따라 사전 확률과 조건부 확률에서 토큰 하나 있습니다.

에 대한 완전한 명사 문구가 나지 않는 모델과 일치합니다.

모든 확률 기반으로 접근하는 것은 매우 어려울 것 기기 때문에,명사 문구를 포함할 수 있습 많습니다.이것이 정말로 많은합니다.유용한 훈련 확률,당신은 필요 정말 거대한 훈련합니다.

수도 있습 빠르고 쉽게 얻을 충분히 좋은 시작에 만들어 세트의 문법 규칙,예를 들어 정규 표현식을 통해 POS 태그하여 다음에서 설명

http://en.wikipedia.org/wiki/Noun_phrase#Components_of_noun_phrases

또는 다른 언어의 설명 문구를 명사.

다른 팁

에서 내가 이해,당신은 이미 POS 태그의 시퀀스는 단어입니다.일단 당신이 태그에 대한 단어의 순서,당신은 당신을 사용할 필요가 없 음을 분류하는 경우스 NP.당신이해야 할 모든 당신이 볼에 대한 패턴의는 다음과 같은 형태:

  1. 의 결정에 의해 다음 명사

  2. 형용사는 다음에 명사

  3. 결정 뒤에 형용사는 다음에 명사

etc.

누군가가 그냥 언급 HMMs 을 얻기 위해 사용되는 POS 태그에 대한 새로운 단어의 순서.그러나 당신이 필요로그램 코퍼스를 처음 만들어졌다고 한다.거기에 태그가 있는 코퍼스에서 사용 가능 NLTK 소프트웨어입니다.

는 경우에 당신의 시퀀스는 이미 태그 다음 사용법 규칙에서 언급했듯이 이전의 대답이다.

사람들이 사용 HMMs 라벨 명사구에서 POS 라는 문장하지만,일반적인 모델을 설정하지 않는 일에서 아주 있는 방법을 설명하고 있습니다.

대신,설정(참조하십시오 덩어리 술래-통계적 인식의 명사구(PDF)이름 entity 인식을 사용한 HMM 기반의 덩어리 술래(PDF) 에 대한 예)을 사용하는 HMM 으로 세 가지 상태:

  • O(지에 NP),
  • B(의 시작 NP),
  • I(에 NP,하지만 처음).

각각의 단어는 문장에서 할당됩니다 중국에 의해 처음 만들어졌다고 한다.예를 들어,문장

의/DT 소년/윈 치/VT 의/DT 공/NN 과/PP 의/DT 빨강/ADJ bat/NN./.

수도적 표시는 다음과 같다:

의/DT B 소년/NN hit/VT O 의/DT B 공/NN 과/PP O 의/DT B 레드/ADJ bat/NN ./. O

전환 중에 이 세 가지 흠국이 제한 될 수 있습에 따라 사전 지식이 어떻게 작동 시퀀스;특히,만 전환할 수 있습니다 내가 B 에서지만,다른 하나의 전환이 가능한 모든 가 아닌 확률입니다.당신이 사용할 수 있습니다 Baum-웰치의 코퍼스 레이블이 없는 텍스트 기차의 HMM(를 식별하는 모든 유형의 덩어리에는 모든 보 간단 자율 문법을 유도 원료에서 텍스트와 연결된 유한 상태 모델(PDF) 예를 들어),또는 어떤 종류의 최대 우도 방법으로 모음 표시 문자(경우에 당신이 찾고있는 명사를 위해 특별히 구문)하시기 바랍니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top