문제

일반적으로 말하면 숨겨진 레이어 또는 더 숨겨진 레이어에 더 많은 노드를 추가하여 인공 신경망을 확장하지 않습니까?

매핑에서 더 정밀도를 허용합니까, 아니면 식별 할 수있는 관계 또는 다른 것을 더 미묘하게 허용합니까?

도움이 되었습니까?

해결책

기계 학습에는 단일 숨겨진 층이 매끄럽고 경계 기능을 근사화하기에 충분하다고 말하는 매우 잘 알려진 결과가 있습니다 (용지가 호출되었습니다. "다층 피드 포워드 네트워크는 보편적 인 근사기" 그리고 지금은 거의 20 살입니다). 그러나 몇 가지 주목해야 할 사항이 있습니다.

  • 단일 숨겨진 층은 임의로 넓어 야 할 수 있습니다.
  • 이것은 근사치를 찾을 수있는 용이성에 대해 아무것도 말하지 않습니다. 일반적으로 대형 네트워크는 제대로 훈련하기가 어렵고 과적으로 자주 적합한 것으로 희생됩니다 (예외는 실제로 비전 문제를위한 "컨볼 루션 신경 네트워크"입니다).
  • 이것은 또한 표현의 효율성에 대해서는 아무것도 말하지 않습니다. 일부 기능에는 하나의 레이어로 수행되면 숨겨진 유닛의 지수 수가 필요하지만 더 많은 레이어로 훨씬 더 잘 확장해야합니다 (이 읽기에 대한 더 많은 논의. AI에 대한 학습 알고리즘 스케일링)

깊은 신경망의 문제는 훈련하기가 더 어렵다는 것입니다. 당신은 매우 작은 그라디언트가 초기 숨겨진 층으로 역전되고 학습이 실제로 어디에도 가지 않게됩니다. 특히 가중치가 작게 초기화되는 경우 (더 큰 규모로 초기화되면 종종 나쁜 지역 최소값에 갇히게됩니다). . 이것에서 논의 된 것과 같은 "사전 훈련"에 대한 몇 가지 기술이 있습니다. Google Tech Talk 이 문제를 해결하려는 Geoff Hinton.

다른 팁

이것은 매우 흥미로운 질문이지만 대답하기는 쉽지 않습니다. 그것은 당신이 해결하려는 문제와 당신이 사용하려는 신경망에 달려 있습니다. 몇 가지 신경망 유형이 있습니다.

더 많은 노드가 더 정밀도와 같다는 것이 분명하지 않습니다. 연구에 따르면 대부분 숨겨진 층이 하나만 있으면됩니다. 노드 숫자는 문제를 해결하는 데 필요한 최소 노드 숫자 여야합니다. 충분하지 않은 경우 솔루션에 도달하지 못할 것입니다.

반면에 - 솔루션을 해결하기에 좋은 노드 수에 도달 한 경우 솔루션을 더 많이 추가 할 수 있으며 결과 추정에서 더 이상 진행되지 않을 것입니다.

그렇기 때문에 많은 유형의 신경망이 있습니다. 그들은 다양한 유형의 문제를 해결하려고 노력합니다. 따라서 정적 문제를 해결하고 시간 관련 문제를 해결하기 위해 NN이 있습니다. 노드의 수는 디자인과 같이 중요하지 않습니다.

숨겨진 레이어가 있으면 입력의 결합 된 기능을 생성한다는 것입니다. 그렇다면 기존 입력의 더 많은 기능이나 기존 기능을 결합한 고차 기능을 통해 문제가 더 잘 해결됩니까? 이것은 표준 피드 포워드 네트워크의 트레이드 오프입니다.

두 개의 숨겨진 층과 비선형 활성화가있는 신경망으로 모든 함수를 표현할 수 있다는 이론적 안심이 있습니다.

또한 적절한 토폴로지가 확실하지 않은 경우 더 많은 노드를 추가하는 대신 부스팅을 위해 추가 리소스를 사용하는 것이 좋습니다.

매우 거친 경험 규칙

일반적으로 더 큰 입력 벡터에 대한 레이어 당 더 많은 요소.

더 많은 계층을 사용하면 더 많은 비선형 시스템을 모델링 할 수 있습니다.

사용중인 네트워크의 종류가 전파 지연이있는 경우 더 많은 계층이 시계열의 모델링을 허용 할 수 있습니다. 지연 시간에 지터를 갖도록주의하십시오. 그렇지 않으면 잘 작동하지 않습니다. 이것이 당신에게 단지 gobbledegook이라면, 그것을 무시하십시오.

더 많은 레이어를 사용하면 반복 기능을 삽입 할 수 있습니다. 이것은 차별 작업에 매우 유용 할 수 있습니다. 당신은 이것을 허용하지 않는 것을 구현합니다.

HTH

숨겨진 계층 당 단위 수는 ANN의 잠재력을 임의로 복잡한 기능을 설명 할 수있는 잠재력을 설명합니다. 일부 (복잡한) 함수는 많은 숨겨진 노드 또는 하나 이상의 숨겨진 계층이 필요할 수 있습니다.

함수가 특정 수의 숨겨진 장치에 의해 대략 근사 될 수있을 때, 추가 노드는 더 정확성을 제공합니다 ... 그러나 이것은 사용 된 훈련 샘플 이이 추가를 정당화하기에 충분한 경우에만 해당됩니다. . 과도한 조건은 ANN이 특정 샘플에 지나치게 강조 되었기 때문에 일반화 능력을 잃어 버렸음을 의미합니다.

일반적으로 결과 네트워크가 좋은 결과를 제공 할 수 있다면 덜 숨겨진 장치를 사용하는 것이 가장 좋습니다. 더 숨겨진 노드를 정당화하는 데 필요한 추가 교육 패턴은 대부분의 경우 쉽게 찾을 수 없으며 정확도는 NNS의 강력한 지점이 아닙니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top