자연 언어 처리에서의 이항

https://stackoverflow.com/questions/579203

06-09-2019
|

문제

이항식은 분류기 알고리즘에 대한 좋은 예를 만들기 위해 엔티티의 다채로운 특징을 숫자, 대부분 이진 벡터로 변환하는 행위입니다.

우리가 "고양이를 먹는 개를 먹는다"라는 문장을 어디에서 이사 할 수 있다면, 우리는 모든 단어를 ID (예 : CAT-1, ATE-2, THE-3, DOG-4) 할당 한 다음 단어를 다음으로 바꾸는 것으로 시작할 수 있습니다. 벡터에게 <3,1,2,3,4>를 제공하는 ID입니다.

이 ID가 주어지면 각 단어 4 개의 가능한 슬롯을 제공하고 특정 단어에 해당하는 슬롯을 하나로 설정하여 벡터에 <0,0,0,0,0,0,0,0을 제공하여 이진 벡터를 만들 수도 있습니다. , 0,1,0,0,0,0,1>. 후자의 방법은 내가 아는 한, 일반적으로 단어의 가방 메드라고 불린다.

이제 내 질문을 위해, 무엇입니까? 베스트 일반적으로 자연어 처리 기능 및 전환 기반의 기능을 설명 할 때 이항식 방법 의존성 구문 분석 (Nivres 알고리즘 포함)?

이러한 맥락에서, 우리는 전체 문장을 인코딩하고 싶지 않고 오히려 구문 분석의 현재 상태, 예를 들어 입력 대기열의 첫 번째 단어를 스택의 상단 단어입니다. 순서는 매우 관련성이 높기 때문에, 이것은 단어의 가방을 배제합니다.

와 함께 베스트, 나는 불필요한 메모리를 사용하지 않고 분류기에게 데이터를 가장 이해하기 쉽게 만드는 방법을 참조하고 있습니다. 예를 들어 Bigram이 실제로 2% 만 존재한다면 Bigram이 4 억 개의 기능을 사용하는 것을 원하지 않습니다.

답은 특정 분류기에 따라 다르기 때문에 대부분 최대 엔트로피 모델 (LIBLINEAR), 지원 벡터 머신 (LIBSVM) 및 퍼셉트론에 관심이 있지만 다른 모델에 적용되는 답도 환영합니다.

해결책

이것은 실제로 정말 복잡한 질문입니다. 당신이 내려야 할 첫 번째 결정은 lemmatize 입력 토큰 (단어). 이렇게하면 유형 수가 극적으로 줄어들고 구문 구문 분석은 훨씬 덜 복잡해집니다. 그러나 토큰을 Lemmatize하려면 많은 작업이 필요합니다. 이제 컴퓨터 언어 에서이 작업은 대부분의 언어가 공백 또는 기간과 같은 잘 정의 된 기호 세트를 갖는 키워드 또는 변수 이름을 분리하기 때문에 크게 줄어 듭니다.

두 번째 중요한 결정은 포스트 포스트 데이터와 관련하여 무엇을 할 것인지입니다. 당신이 제시 한 이진 형태의 "단어 bag-of-words"방법은 단어 순서를 무시합니다. 텍스트 요약 또는 신경 쓰지 않는 Google 스타일 검색 일 수도 있습니다 어디 단어가 나타나는 한 표시됩니다. 반면에 컴파일러 나 구문 분석기와 같은 것을 구축하는 경우 주문이 매우 중요합니다. 토큰 벡터 접근 방식 (두 번째 단락에서와 같이)을 사용할 수 있거나, Word of Words 벡터의 0이 아닌 각 항목에 토큰의 선형 색인 위치가 포함되도록 단어의 bag of-bags 접근 방식을 확장 할 수 있습니다. 문구로.

마지막으로, 당신이 건물을 만들려고한다면 나무를 안식시킵니다, 토큰 벡터 접근 방식을 사용하고 싶은 분명한 이유가 있습니다. 왜냐하면 Words Bag of Words 벡터의 모든 단어에 대해 서브 프레이즈 ID를 유지하는 데 큰 번거 로움이지만 "하위-만들기가 매우 쉽습니다. 토큰 벡터의 벡터 ". 사실, Eric Brill은 부품 태그거, 정말 깔끔합니다.

내가 일하고있는 특정 작업을 물어 보면 괜찮습니까?

다른 팁

이항식은 분류기 알고리즘에 대한 좋은 예를 만들기 위해 엔티티의 다채로운 특징을 숫자의 벡터, 대부분 이진 벡터로 변환하는 행위입니다.

나는 주로 가치를 취하는 숫자 기능을 발견했습니다. ~ 사이 0 그리고 1 벡터의 특정 기능의 관련성을 나타내는 (0%에서 100% 사이 1 100%). 이것에 대한 일반적인 예는입니다 TF-IDF 벡터 : 문서 (또는 문장)를 나타내는 벡터에서는 전체 어휘의 각 용어에 대한 값이 대표 된 문서에 대한 해당 용어의 관련성을 나타냅니다.

Mike가 이미 말했듯이 그의 대답, 이것은 넓은 분야에서 복잡한 문제입니다. 그의 포인터 외에도 일부를 살펴 보는 것이 유용 할 수 있습니다. 정보 검색 같은 기술 벡터 공간 모델, 벡터 공간 분류 그리고 잠재적 의미 인덱싱 시작점으로. 또한, 필드 Word Sense 명확성 많은 것을 다룹니다 특징 NLP의 표현 문제.

직접적인 대답이 아님] 모든 것이 구문 분석 한 다음 처리하려는 것에 달려 있지만 일반적인 짧은 인간 문구 처리 (예 : IVT)의 경우 또 다른 방법은 신경망을 사용하여 패턴을 배우는 것입니다. 이것은 작은 어휘에 매우 비밀리가 될 수 있습니다

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow