신경망 교육을위한 데이터 세트 [폐쇄

https://stackoverflow.com/questions/963041

12-09-2019
|

문제

인공 신경망에 대한 다양한 교육 방법을 테스트하고 비교하기위한 비교적 간단한 데이터 세트를 찾고 있습니다. 입력 및 출력 목록 (0-1로 정규화)의 입력 형식으로 전환하기 위해 너무 많은 사전 프로세스를 사용하지 않는 데이터를 원합니다. 모든 링크에 감사드립니다.

해결책

왜 훈련 데이터와 같은 죄 기능과 같은 단순한 것을 시도해 보지 않겠습니까? 훈련 방법을 비교하고 네트워크 훈련을 실제로 신경 쓰지 않기 때문에 작동하고 교육 데이터를 쉽게 생성해야합니다.

sin (x)을 사용하여 네트워크를 훈련 시키십시오. 여기서 x는 입력이고 출력은 함수의 값입니다. 귀하의 경우에 추가 된 이점은 결과의 절대 값이 이미 0-1 범위에 있다는 것입니다. 다른 수학적 기능과 동일하게 작동합니다.

다른 팁

https://archive.ics.uci.edu/ml 기계 학습 데이터 세트의 캘리포니아 대학교 어바인 저장소입니다. 정말 훌륭한 리소스이며 CSV 파일에 있다고 생각합니다.

일부 리소스입니다

SINC 기능.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

그만큼 sin(x) @adrianbanks가 말한대로 작동합니다.
일부 알고리즘에 대한 새로운 수정을 테스트하기 위해 좋은 오래된 n-parity 테스트.
IRIS 데이터 세트, Semeion Hand 서면 숫자 데이터 세트 등, 기타 기능 등.
UCI 머신 러닝 저장소 : archive.ics.uci.edu/ml/datasets.html
다음은 많은 회귀 데이터 세트가있는 또 다른 리소스입니다. www.dcc.fc.up.pt/~ltorgo//regression/datasets.html . UCI ML 저장소에서 이들 중 다수를 얻을 수 있습니다.
데이터 세트를 얻을 수 있습니다 https://www.kaggle.com/ 다양한 실제 데이터 세트의 경우.

나는 당신이 이것들과 많은 사전 처리가 필요하다고 생각하지 않습니다. 범주 형 변수와 마찬가지로 GUI 텍스트 편집기를 빠르게 사용하여 바이너리로 교체 할 수 있습니다. 예를 들어 전복 데이터 세트에는 하나의 범주 속성 인 성별이 있으며, 이는 남성의 경우 "M", "F", "I", 유아의 경우 3 가지 값을 갖습니다. 텍스트 편집기에서 Ctrl + R을 누르고 "M"의 모든 발생을 다음과 같이 대체 할 수 있습니다. 1,0,0, "f"의 모든 발생 0,1,0 그리고 "나"의 모든 발생 0,0,1 (파일이 CSV 형식이라는 것을 고려합니다). 이렇게하면 범주 형 변수를 빠르게 대체 할 수 있습니다.

당신이 있다면 아르 자형, 당신은 그것을 사용할 수 있습니다 normalizeData 함께 제공되는 함수 RSNNS 패키지 데이터를 0과 1로 확장하고 정규화합니다.

당신이 다른 환경에 있다면 옥타브 또는 MATLAB, 당신은 당신의 코드를 작성하기 위해 시간을 투자 할 수 있습니다. 이 환경에서 사용 가능한 기능을 알지 못하며 코드를 사용하여 데이터를 확장 및/또는 정규화합니다.

기능을 사용하면 작업이 훨씬 쉬워지고 데이터를 준비하면 수정 된 데이터를 파일에 저장하십시오.

한 가지를 기억하십시오. 신경망 훈련의 목표는 특정 훈련 세트에서 잘 작동하도록 네트워크를 훈련시키는 것이 아닙니다. 주요 목표는 네트워크가 보지 못한 새로운 데이터에 대한 최상의 오류가 있도록 네트워크를 훈련시키는 것입니다.

http://neuroph.sourceforge.net/sample_projects.html많은 샘플 프로젝트와 유명한 데이터가 있습니다.

다음은 교육 목적으로 필기 및 기타 데이터베이스입니다.

http://www.cs.nyu.edu/~roweis/data.html

흥미로운 부수적으로, ~ Roweis는 아내와 싸우고 2010 년에 자살했습니다. http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html.

나는 OCR (광학 문자 인식)을 수행하기 위해 그들을 사용하여 학부생으로서 Anns를 배웠습니다. 나는 이것이 좋은 사용 사례라고 생각합니다.

두 페이지의 텍스트로 스캔하고 문자를 추출하고 교육/테스트 데이터 세트 (예 : 8x8 픽셀은 64 개의 입력 노드로 이어집니다) 데이터에 레이블을 지정합니다. ANN을 훈련시키고 테스트 데이터 세트를 사용하여 점수를 얻으십시오. 네트워크 토폴로지/매개 변수를 변경하고 네트워크를 조정하여 최고의 점수를 얻습니다.

NLP, NER에서 이미지 분류에 이르기까지 흥미로운 데이터 세트를 찾을 수 있습니다.https://dataturks.com/projects/trending

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow