문제

Enterprise Application Research Project Me와 다른 사람이 작업하고 있는데, 우리는 게시 된 메시지를 보편적으로 유지하기 위해 페이지에서 특정 콘텐츠를 제거하려고합니다 (불쾌하고 본질적으로 익명이 아닙니다). 지금 우리는 사용자가 메시지 보드에 게시 한 메시지를 취하고 모든 유형의 이름, 대학 또는 기관의 이름 및 욕설을 제거하고자합니다 (가능하면 나중에는 비즈니스 이름을 제거하고 싶습니다).

데이터베이스를 실행할 수있는 데이터베이스가 있습니까? 데이터베이스를 실행하여 데이터베이스의 값을 확인하여이를 인식하기 위해 메시지를 실행할 수 있습니까?

도움이 되었습니까?

해결책

이 질문은 메시지 처리 중에 쿼리 될 온라인 데이터베이스를 암시하는 것 같습니다. 운영 문제 (해당 서비스의 신뢰성, 응답 시간의 지연 등) 및 완전성 문제 (프로젝트의 어휘 요구의 100%를 다루지 않기 때문에 여러 데이터베이스를 쿼리해야 함)는이 온라인/실시간 접근 방식이 실용적이지 않습니다. 그러나 있습니다 다운로드 할 수있는 많은 데이터베이스 이를 통해 "뜨거운 단어"라는 로컬 데이터베이스를 구축 할 수 있습니다.

시작하기에 좋은 곳은 될 수 있습니다 Wordnet, 당신은 모든 것을 사용했을 것입니다.사례"익명화/청소할 때 일반적으로 메시지에서 제거 해야하는 단어로서의 단어. (아마도비 인스턴스"별도의 테이블/"괜찮을 가능성이 더 높다 ").이 목록만으로도"0.9 "버전의 응용 프로그램을 지원할 수 있습니다.

당신은 결국 원할 것입니다 이 어휘 데이터베이스를 확장하십시오 그러나 예를 들어 모든 대학 약어 (CMU, UCSD, DU, MIT, UNC 등), 스포츠 팀 이름 (Celtics, Bruins, Bruins, Red Sox ...)을 포함하는 "나쁜 단어"의 " 귀하의 메시지, 공개 인물의 추가 이름 (Wordnet은 George Bush 또는 Robert de Niro와 같은 몇 가지를 가지고 있지만 최근에 명성을 얻은 사람들이 덜 유명한 사람들이 부족합니다 : 예 : Barack Obama).

WordNet을 보완하기 위해 두 가지 유형의 소스가 떠 오릅니다.

  • 기존 온라인 데이터베이스
  • 온톨로지와 민속학

전자의 예로는 USPS에서 "시티/스테이트에 의한 시티/스테이트"가 있습니다. 후자의 예는 학자, 조직 또는 다양한 개인이 편집 한 다양한 "목록"입니다. 이러한 소스 유형 중 하나의 철저한 목록을 제공하는 것은 불가능하지만 다음이 도움이됩니다.

  • daml.org 온톨로지의 카탈로그
  • 미국 지역과 주 온톨로지 Daml 형식의 예
  • 열린 디렉토리 프로젝트 오픈 소스 디렉토리 (주의력, 빨리 지저분 해짐)
  • SourceWatch.org "목록 목록 : 저널리즘/정치 사람들"의 예
  • Seach Engine 키워드 : "목록 목록"또는 원하는 목록에서 찾을 것으로 예상되는 단어 중 3-4 개를 사용하십시오.

간단한 경우, 단지 목록을 다운로드하거나 "컷-앤 페이스트"로 다운로드 할 수 있습니다. 온톨로지는 구문 분석 해야하는 추가 속성으로 "방해"될 것입니다. ).

이 어휘 데이터베이스 컴파일 작업은 어려워 보일 수 있습니다. 하지만 80-20 규칙, "뜨거운 단어"의 20%는 메시지에서 인용의 80%를 차지하므로 비교적 작은 노력으로 90% 이상의 사용 사례를 다루는 시스템을 생성 할 수 있어야합니다.

미리보기 : "뜨거운 단어"데이터베이스를 넘어서
다양한 기술과 개념을 사용 하여이 작업에 접근하는 방법에는 여러 가지가 있습니다. 자연어 처리 (NLP). 프로젝트가 정교함을 얻음에 따라 이러한 개념 중 일부에 대해 배우고 구현할 수 있습니다. 예를 들어, 간단한 POS Tagger는 애플리케이션이 불쾌한 단어를 폐기 할 때 토큰 "나사"의 다양한 사용을 구별하는 데 도움이 될 수 있으므로 간단한 POS Tagger가 떠 오릅니다. ( "이사회가 원합니다 나사 학생들은 "대"이사회는 최소 4 개로 고정되어야합니다. 나사 야드 당 ".

이러한 공식적인 NLP 기술이 필요하기 전에 몇 가지를 사용할 수 있습니다. 패턴 기반 규칙 프로젝트가 타겟팅하는 메시지 유형과 관련하여 도메인과 관련된 공통 사례를 처리합니다. 예를 들어 다음을 고려할 수 있습니다.
- (단어) 주립 대학
- 상원 의원 (Word_starting_with_capital 편지)
- 글자와 숫자를 혼합하는 단어 (이들은 종종 이름을 철회하고 프로젝트의 필터 유형을 우회하는 데 사용됩니다)

특히 유용 할 수있는 또 다른 도구, 특히 처음에는 메시지 코퍼스에 대한 통계 정보를 수집하는 시스템입니다 : 단어 주파수, 가장 일반적인 단어, 가장 일반적인 bigrams (두 개의 연속 단어) 등.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top