문제

우리는 많은 양의 텍스트 데이터를 가져오고 분류 할 수단을 찾고있는 고객이 있습니다. 이 데이터는 분류되어야하며이를 수행하는 가장 쉬운 방법은 설명 필드를보고 해당 특정 레코드에 대해 카테고리를 도출 할 수 있는지 확인하기 위해 설명 된 단어와 일치하는 것입니다.

이 작업을 수행하는 가장 좋은 방법은 단어를 각 범주에 대한 키워드와 일치시키는 것이라고 생각했으며, 그것이 실패한 경우, 어떤 종류의 동의어를 사용하여 대신 사용할 수 있는지 확인하는 것이 좋습니다. 예를 들어, 특정 레코드에 "자동차"라는 단어가 있다면 동의어 조회는 그 단어가 "차량"범주에 대해 "자동차"라는 단어와 일치 할 수 있습니다.

누구든지 웹 서비스 나 특정 단어에 대한 동의어를 찾기 위해 사전을 찾는 다른 방법을 알고 있습니까? 프로젝트 관리자는 이에 대한 Google Enterprise Search 라이센스를 구매할 것을 제안했지만이 사람들이 찾고있는 것을 제공하지 않는 내용에서 볼 수있는 것.

다른 고객에게 자신이 찾고있는 것을 얻는 것에 대한 제안은 감사하게 받아 들여질 것입니다.


감사! WordNet을 살펴 보겠습니다.

다른 유형의 텍스트 분류 소프트웨어 제품에 대해 알고 있습니까? 나는 이것에 대해 Bayasian 알고리즘을 사용하는 것에 대한 논의가 있지만 실제 세계 예를 볼 수는 없습니다.

도움이 되었습니까?

해결책

가장 먼저 떠오르는 것은입니다 Wordnet. WordNet은 동의어를 포함하여 사람과 관련된 단어 및 관련 단어 데이터베이스입니다. Wikipedia WordNet 항목 WordNet에 여러 인터페이스를 나열합니다. 나는 그들 중 일부가 웹 서비스라고 생각합니다. 당신은 또한 당신 자신을 굴릴 수도 있습니다. Manning과 Schutze의 5 장 (무료 PDF) 이를 수행하는 방법을 보여줍니다.

그렇게 말하면, 당신은 올바른 문제를 해결하고 있습니까? 카테고리 목록을 어떻게 구축합니까? 계층입니까? 태그 클라우드? 보다 Clay Shirky의 온톨로지가 과대 평가되었습니다 계층 적 범주에 대한 비판. 나는 당신이 당신의 분류를 한 단어보다는 단어 세트 (순진한 베이에)에 기반을두면 동의어가 덜 중요하다고 생각합니다.

다른 팁

WordNet 사용을 살펴 봐야합니다. 그들의 웹 사이트를 방문 할 수 있습니다 http://wordnet.princeton.edu/ 더 많은 정보를 얻으려면 많은 언어로 통합 할 수있는 라이브러리가 있습니다.

온라인 도구로 이동하여 여기에서 사용하는 방법을 확인하십시오. http://wordnetweb.princeton.edu/perl/webwn. 단어를 찾아 보면 각 정의 옆에 "S"를 클릭하면 해당 정의와 관련하여 관련 단어 목록이 표시됩니다.

또한 "문서 클러스터링"을 수행 할 수있는 소프트웨어를 확인해야한다고 생각합니다. 예는 다음과 같습니다. http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview. 카테고리 생성 프로세스를 부트 스트랩하는 데 도움이됩니다.

나는 이것이 당신이 원하는 것을 향해 먼 길을 갈 수 있다고 생각합니다!

텍스트 분류의 경우 살펴볼 수 있습니다 아파치 마호 아우트.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top