문제

Java를위한 간단하지만 "충분히 충분한"지명 된 엔티티 인식 라이브러리 (및 사전)를 찾고 있습니다. 이메일 및 문서를 처리하고 이름, 장소, 주소 및 날짜와 같은 "기본 정보"를 추출하려고합니다.

나는 주위를 둘러 보았고, 대부분은 무거운면과 완전한 NLP 종류의 프로젝트에있는 것 같습니다.

권장 사항이 있습니까?

도움이 되었습니까?

해결책 2

BTW, 나는 최근에 가로 질러 달렸다 Opencalais 내가 돌보고 있던 기능을 좋아하는 것 같습니다.

다른 팁

당신은 나의 이전 답변 비슷한 문제에.

그 외에는 대부분의 가벼운 NER 시스템은 사용 된 도메인에 크게 의존합니다. 예를 들어 생의학 NER 시스템에 대한 많은 도구와 논문을 찾을 수 있습니다. 이전 게시물 외에도 (NER을하고 싶다면 이미 주요 권장 사항이 포함되어 있음), 다음은 다음과 같은 도구가 있습니다.

  • 그만큼 스탠포드 세르너
  • 그만큼 Postech Biomedical Ner 시스템 이 특정 도메인에 관심이있는 경우
  • Opencalais 상업적 시스템 인 것 같습니다. 거기 있습니다 Opencalais를위한 UIMA 포장지 그러나 그들은 날짜가 된 것 같습니다. UIMA에 대한 사전 기반 컨텍스트-매퍼 주석기도 있습니다. UIMA는 학습 곡선에서 상당한 오버 헤드를 암시한다는 점에 유의하십시오 ;-)
  • Opennlp 또한 NER 도구가 있습니다.
  • 발리 무엇보다도 NER도 마찬가지입니다.
  • 아브너 NER을 수행하지만 다시 생체 의학 영역에 중점을 두었습니다.
  • 그만큼 줄리 랩 도구 독일 예나 대학교에서도 NER도 마찬가지입니다. 독립형 버전과 UIMA 분석 엔진이 있습니다.

한 가지 추가 설명 : 입력에 대한 토큰 화이 없으면 도망 가지 않을 것입니다. 자연 언어의 토큰 화는 약간 사소하지 않기 때문에 두 가지를 모두 수행하는 도구 상자를 사용하는 것이 좋습니다.

시도하고 싶을 수도 있습니다 연금술 API 또한. 개방형 칼레와 비슷합니다.

NLP 문법의 경우 확인할 수 있습니다 http://code.google.com/p/graph-expression/ 그리고 http://gate.ac.uk/

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top