시작하는 방법에 정보를 추출?

https://stackoverflow.com/questions/573620

05-09-2019
|

문제

할 수 있을 추천한 교육 경로를 시작하고 아주 좋은이 될 수에 정보를 추출합니다.읽기 시작했죠 그것에 대해 하나의 취미는 프로젝트와 곧 하는 것을 깨달았다는 것이 좋아야에서 수학(대수학,통계,Prob).내가 읽기의 어떤 입문에 책을 다른 수학제(고 너무 재미있).한 안내합니다.도와 주시기 바랍니다.

업데이트:답변 중 하나다.내가에 더 관심이 있는 텍스트 정보를 추출합니다.

해결책

답변 중 하나다.나 에 더 관심 텍스트 정보 추출합니다.

의 성격에 따라 프로젝트 자연언어 처리, 고 전산 언어학 할 수 있습을 모두 편리-그들이 제공하는 도구,측정 및에서 기능 추출한 텍스트 정보를,그리고 적용 교육,득점 또는 분류합니다.좋은 introductionary 책함 OReilly 의 프로그래밍 집단 지성 (장에서"중,그리고 순위",문서를 필터링하고,어쩌면 의사 결정).

제안된 프로젝트를 활용하여 이 지식은:POS(음성 부분)태그 지정 엔터티를 인식(을 인식하는 능력 이름,장소 및 날짜는 일반 텍스트에서).당신이 사용할 수 있는 위키적으로 교육 코퍼스의 대부분은 정보를 대상으로 이미에서 추출한 정보상자-이 제공할 수 있습니다 당신과 함께 몇 가지 제한된 양의 측정은 피드백입니다.

다른 망에서 IE 검색 필드의하지 않는 안 됩니다.다시,OReilly 책의 일부를 제공합 소개서 기본적인 순위;가 있으면 큰 신체의 색인 텍스트를 수행할 수 있습니 정말 IE 작업합니다.체크아웃 베드로는 노르 빅:이론에서 데이터 시작점으로,그리고 아주 좋은 동기-어쩌면 당신은 수를 구현의 일부는 그들의 결과로 학습 운동입니다.

로 앞-경고,난무하는 당신을 말할,해당 정보를 추출 드.첫 번째 80%의 작업은 일반적으로 간단하다;그러나 어려움의 각 추가 비 IE 에 대한 작업은 일반적으로 성장하는 기하 급수적으로 개발 및 연구를 시간이다.그것은 또한 매우 underdocumented-가장 높은 품질 정보는 현재 어두 흰색 논문(Google 학술 검색 은 당신의 친구이)-하이를 확인하면 당신은 당신의 손에 불타는 시간의 몇.하지만 가장 중요한 것은,이러한 장애물에 던져 당신이 떨어져 있는 확실히 큰 기회를 진행 상황을 만들 지역에 있습니다.

다른 팁

훌륭한 책을 추천합니다 정보 검색 소개 Christopher D. Manning, Prabhakar Raghavan 및 Hinrich Schütze. 여기에는 정보 추출을위한 큰 최신 (2008) 기준을 형성하는 광범위한 문제를 다루며 전체 링크 (주어진 링크 아래)에서 온라인으로 제공됩니다.

나는 당신이 자연어 툴킷 (NLTK) 그리고 NLTK 책. 둘 다 무료로 제공되며 훌륭한 학습 도구입니다.

IE를 수행하기 위해 수학에 능숙 할 필요는 없습니다. 알고리즘의 작동 방식을 이해하고 최적의 결과 성능이 필요한 경우에 대한 실험 및 목표 정확도 수준을 달성하고 이와 협력하는 데 필요한 척도를 실험하십시오. 기본적으로 알고리즘 및 프로그래밍 및 CS/AI/머신 러닝 이론의 측면을 사용하고 있습니다. 새로운 기계 학습 알고리즘을 구축하는 데 박사 과정을 작성하지 않는다. 그 개념. 실용과 이론 사이에는 차이가 있습니다. 우리 모두가 수학자들이 이론에 더 많이 붙어 있다는 것을 알고 있으며, 이론에 더 많이 붙어 있다는 사실을 알기 위해 알고리즘의 실용성이 실행 가능한 비즈니스 솔루션을 생산합니다. 그러나 NLP의 책과 저널 논문을 모두 읽는 배경을 수행하여 사람들이 결과에서 찾은 내용을 찾아야합니다. IE는 매우 맥락 특정 영역이므로 정보를 추출하려는 상황에서 먼저 정의해야합니다.이 정보를 어떻게 정의 할 것인가? 구조화 된 모델은 무엇입니까? 반 구조화 된 데이터 세트에서 추출한다고 가정합니다. 그런 다음 정규 표현 및 패턴 매칭과 같은 것들과 관련된 표준 인간 접근 방식에서 IE에 접근 할 것인지 또는 Markov 체인과 같은 통계 기계 학습 접근법을 사용하여 수행하려고 할 것인지를 평가하고 싶을 것입니다. 하이브리드 접근 방식을 볼 수도 있습니다.

추출을 수행하기 위해 따라갈 수있는 표준 프로세스 모델은 데이터/텍스트 마이닝 방식을 조정하는 것입니다.

사전 처리 - 데이터 세분화/분류/클러스터링/협회를 정리하는 다양한 또는 특정 소스에서 데이터를 정의하고 표준화하여 대부분의 추출 작업이 수행되는 블랙 박스 - 원하는 위치로 데이터를 정리하는 블랙 박스 그것을 저장하거나 정보로 표현합니다

또한 데이터와 정보의 차이점을 이해해야합니다. 발견 된 정보를 데이터 소스로 재사용하여 더 많은 정보 맵/트리/그래프를 구축 할 수 있습니다. 그것은 모두 매우 맥락화되어 있습니다.

표준 단계 : 입력-> 프로세스-> 출력

Java/C ++를 사용하는 경우 사용할 수있는 많은 프레임 워크 및 라이브러리가 있습니다. Perl은 표준 텍스트 추출을 많이하려면 NLP 추출 작업을 수행하는 훌륭한 언어입니다.

데이터를 XML 또는 RDF 그래프 (Semantic Web)로 표현하고 정의 된 상황에 맞는 모델의 경우 점점 더 많은 추출 요청을 할 때 변경 될 가능성이 가장 높은 관계 및 연관 그래프를 구축 할 수 있습니다. 문서의 리소스로 취급하려면 편안한 서비스로 배포하십시오. 분류 된 데이터 세트에 연결하고 Solr을 사용하여 Faceted Search Say에 연결할 수도 있습니다.

읽을 수있는 좋은 출처는 다음과 같습니다.

컴퓨터 언어학 및 자연어 처리 핸드북
통계 자연어 처리의 기초
전망의 정보 추출 응용 프로그램
Perl 및 Prolog를 사용한 언어 처리 소개
언어 및 언어 처리 (Jurafsky)
텍스트 마이닝 응용 프로그램 프로그래밍
텍스트 마이닝 핸드북
길들이기 텍스트
지능형 웹의 알고리즘
검색 응용 프로그램 구축
IEEE 저널

데이터 스토리지 요구 사항을 재귀 적으로 늘릴 수 있으므로 이러한 애플리케이션/알고리즘을 생산에 배포하기 전에 철저한 평가를 수행해야합니다. 클러스터링에 AWS/HADOOP를 사용할 수 있습니다. 데이터 세트를 MongoDB 또는 비정형 덤프에 JackRabbit 등으로 저장하십시오. 먼저 프로토 타입을 실험 해보십시오. 로이터 코퍼스, 팁 스터, TREC 등을 기반으로 할 수있는 다양한 아카이브가 있습니다. Alchemyapi, Gate, UIMA, OpenNLP 등을 확인할 수도 있습니다.

표준 텍스트에서 추출을 구축 한 다음 웹 문서를 말하면 사전 처리 단계에서의 표현이 표준화 된 문서 표현에서 추출하려는 것이 정확히 무엇인지 정의하는 데 더욱 중요 해집니다.

표준 측정에는 다음이 포함됩니다. 정밀도, 리콜, F1 측정.

나는 프로그래밍 집단 지능을 읽는 것을 권장하는 사람들에 동의하지 않습니다. 심지어 복잡한 일을하고 싶다면 Applied Math와 PCI를 잘 받아야합니다. 예를 들어, SVM에 대해 이야기 할 때 LIBSVM이이를 구현하는 좋은 방법이라고 말합니다. 이제 LIBSVM은 확실히 좋은 패키지이지만 패키지에 관심이있는 사람입니다. 당신이 알아야 할 것은 SVM이 왜 훌륭한 결과를 제공하고 그것이 베이지안 사고 방식과 근본적으로 어떻게 다른지 (그리고 Vapnik이 전설 인 방법) 이유입니다.

IMHO, 그것에 대한 해결책은 없습니다. 선형 대수와 확률 및 베이지안 이론을 잘 잡아야합니다. 내가 덧붙여 야하는 베이지는 인간을위한 산소만큼이나 중요하다 (약간 과장되었지만 당신은 내가 의미하는 바를 얻을 수 있습니까?). 또한 기계 학습을 잘 잡으십시오. 다른 사람들의 작품을 사용하는 것만으로는 완벽하지는 않지만 왜 그런 일이 그랬는지 알고 싶은 순간, ML에 대해 알아야합니다.

이 두 가지를 확인하십시오.

http://pindancing.blogspot.com/2010/01/learning-about-machine-learniing.html

http://measuringmeasures.com/blog/2010/15/Learning-about-statistical-learning.html

http://measuringmeasures.com/blog/2010/3/12/learning-about-machine-learning-2nd-ed.html

좋아, 이제 그 중 세 가지 :) / cool

위키 백과 정보 추출 기사는 빠른 소개입니다.

보다 학문적 인 수준에서 텍스트의 관계 및 패턴을 발견하기 위해 확률 추출 모델 및 데이터 마이닝 통합.

구경하다 여기 엔터프라이즈 등급 NER 서비스가 필요한 경우. NER 시스템 (및 교육 세트)을 개발하는 것은 매우 시간이 많이 걸리고 숙련 된 작업입니다.

이것은 약간의 주제이지만 O'Reilly의 프로그래밍 집단 지능을 읽고 싶을 수도 있습니다. 그것은 텍스트 정보 추출을 간접적으로 다루며 많은 수학 배경을 가정하지 않습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow