문제

에 대한 연구가 시스템(블랙-박스)에 필요로 하는 입력 양식에서의 배열을 가진 4 값(input_array 고)에 따라 자신의 값을 출력(응답)신호입니다.

Block diagram

input_array 담 4 실제 가치(매개 변수 P1-4),주어진 및 별도의 범위를 다룹니다.출력 신호의 품질을 측정하여 계산하의 signal-to-noise ratio(SNR).각 input_array 변형을 적용할 수 있는 시스템을 3 초마다(고전 3s).

가 있을 찾기 위해 최선 input_array 을 생산하는 가장 큰 SNR(바람직하게는 시간의 최소 금액).즉,조합의 4 실제 가치를 극대화하는 SNR(는 최적의 솔루션이 충분절대적인 솔루션을 환영하지만,반드시 필요하지 않습니다).는 경우에 도움이 솔루션을 찾기 매개 변수 4 분할할 수 있습,그러나 그들의 범위를 포함한 수백 가능(개별)값이 있습니다.

의 값으로 간주 될 수 있 독립적인에 대한 사전 지식이 없어도 사용할 수 있을 제외하고 그들을 위해 그들의 범위,그리고 그들의 개인적인 영향에 SNR 알 수 없습니다.SNR 진짜 가치는 영향에 의해 잡음(따라서,동일한 input_array 에 적용된 연속적으로,그가 다를 수 있습니다(하지만 가까운)값).

What 솔루션(s)에 적용될 수 있습니다.

  1. 가장 간단한 해결책을 마음에 오를 수행하 철저한 검색을 매개 변수의 도메인, 지만,그것은 해당 사항이 없기 때문에 시간이 될 것입니다 필요한 너무 오래입니다.

  2. 처음에,나는 고려의 적용 강화 학습 알고리즘에 대한 지속적인 작업 공간을 고려하여 각 매개변수 별도의 액션하고 반환/부상 때 SNR 증가/감소(예를 들어,는+/-1).그러나 내가 생각한 그들 것에 너무 많은 시간을 필요로;그럼에도 불구하고,나는 중지할 수 있는 학습 프로세스에서 어떤 시간을 고려하는 input_array 생산 허용 SNR.

  3. 후에 추가로 생각하고,이 문제가처럼 보였 검색,문제 그래서 나는 생각이 (휴리스틱)를 찾는 알고리즘 수 적합합니다.

누군가는 아이디어가 있는 것이 무엇이 가장 적합한 솔루션이 문제인가?

도움이 되었습니까?

해결책

그것은 당신이 기능 $f:\mathbb{R}^4 o\mathbb{R}$ 고 당신을 찾으려면 $x$ 을 극대화 $f(x)$, 지만,당신은 계산할 수 없습니다 $$f 직;당신을 얻을 수 있습니다 시끄러운 견적의 값을 의미합니다.

최적화 방법 에 적용할 수 있습니다.간단한 것은 당신이 시도할 수 있습 것 반복과 같은 방법 그라데이션을 상승Newton 방법, 지만,더 많은 반복을 계정에 대한 소음;아이디어는 소음이 밖으로 평균 주어 충분히 반복 합니다.

예를 들어,그 상승이 필요할 수 있을 계산하고 그라데이션 $\블라 f(x)$ 에 대한 어떤 시점이 있습니다.귀하의 경우에,이 작업을 수행 할 수 있습니다 추정하고

$$\블라 f(x)=((f(x+e_1)f(x-e_1))/2,\점,(f(x+e_4)f(x-e_4))/2),$$

$e_1=(1,0,0,0)$, $e_2=(0,1,0,0)$, 니다.지금 주어지는 능력을 컴퓨팅 $$f 에서의 지점,당신의 선택에 의해 컴퓨팅 $$f 8 입력,추정할 수 있습니다 $\블라 f(x)$ 그 후 한 단계로 그라데이션의 상승;과될 때까지 반복합니다.

더 정교한 접근을 시도하는 것입를 사용하여 베이지안 최적화 등 Google 수상.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 cs.stackexchange
scroll top