문제

도시 / 지역 또는 원산지에 텍스트를 자동으로 표시하기위한 좋은 알고리즘은 무엇입니까? 즉, 블로그가 뉴욕에 관한 것이라면 어떻게 프로그램 적으로 말할 수 있습니까? 어느 정도의 확실성 으로이 작업을 수행한다고 주장하는 패키지 / 종이가 있습니까?

나는 일부 TFIDF 기반 접근법, 적절한 명사 교차점을 살펴 보았지만 지금까지는 멋진 성공이 없었으며 아이디어에 감사드립니다!

가장 일반적인 질문은 주제 목록을 고려할 때 텍스트를 주제에 할당하는 것입니다.

베이지안 접근 방식에서 단순 / 순진한 접근 방식이 전적으로 선호되었지만 열려 있습니다.

도움이 되었습니까?

해결책

당신은 찾고 있습니다 지명 된 엔티티 인식 시스템 또는 짧은 NER. 거기 있습니다 몇몇의 좋은 툴킷 당신을 도울 수 있습니다. 특히 Lingpipe는 매우 있습니다 괜찮은 튜토리얼. Cageclass 지리적 장소 이름에 대한 NER 주위에있는 것처럼 보이지만 아직 사용하지 않았습니다.

여기에 있습니다 지리적 장소 이름을 가진 NER의 어려움에 대한 멋진 블로그 항목.

Java와 함께 가고 있다면 Lingpipe Ner 클래스를 사용하는 것이 좋습니다. OpenNLP에는 일부가 있지만 전자는 더 나은 문서를 가지고 있습니다.

이론적 배경을 찾고 있다면 Chavez et al. (2005) 흥미로운 구멍을 만들어 문서화했습니다.

다른 팁

잠재적 의미 맵핑 잠재적으로 적합한 것 같습니다. 그것은 당신이 찾을 가능성이 높은 알고리즘의 순진한 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top