품질 및 대기 시간 개선을 위해 시장 데이터 피드 소스를 어떻게 비교할 수 있습니까?

https://stackoverflow.com/questions/2239988

19-09-2019
|

문제

나는 새로운 개발 소스의 품질을 상사에게 증명하기 위해 2 개의 시장 데이터 피드 소스를 비교하는 도구를 구현하는 첫 번째 단계에 있습니다 (회귀 없음, 누락 된 업데이트 또는 잘못된 업데이트가 없음). 개선.

따라서 필요한 도구는 업데이트 차이를 확인하고 어느 소스가 가장 좋은지 (대기 시간에) 알 수 있어야합니다.

구체적으로, 참조 소스는 로이터 일 수 있고 다른 하나는 우리가 내부적으로 개발 한 피드 핸들러입니다. 사람들은 로이터 구현이 우리와 완전히 다를 수있는 것과 같은 순서로 업데이트가 도착하지 않을 수 있다고 경고했습니다. 따라서 업데이트가 동일한 순서로 도착할 수 있다는 사실을 기반으로 간단한 알고리즘이 작동하지 않을 가능성이 높습니다.

Shazaam 응용 프로그램은 제출중인 튜브의 제목을 찾기 위해 지문을 사용하여 피드 소스를 비교하는 것입니다. Google은 FFT를 기반으로한다고 말했습니다. 그리고 신호 처리 이론이 시장 액세스 응용 프로그램과 잘 어울릴 수 있는지 궁금합니다.

나는 그 분야에서 자신의 경험을 알고 싶었습니다. 그 분야에서 요구를 충족시키기 위해 매우 정확한 알고리즘을 개발할 수 있습니까? 자신의 아이디어는 무엇입니까? 지문 기반 비교에 대해 어떻게 생각하십니까?

해결책

데이터를 제공하는 교환에 데이터에 대한 고유 식별자가있는 경우 구현을 제공하는 구현은 상당히 간단하지만 사소한 것은 아닙니다.

본질적으로 두 피드를 구독하는 앱이 있습니다. (비 침입 모니터링/측정을 위해 Sniff 기반 소프트웨어를 사용 하여이 작업을 수행 할 수 있습니다.

타의 추종을 불허하는 데이터/업데이트의 두 개의 목록 (또는 각 피드에서 "비교할 수없는"샘플을 주목하는 다른 방법)을 보관합니다. 각 업데이트가 제공되면 다른 데이터 피드에서 다른 목록의 해당 항목을 찾으십시오. 성공적으로 일치하면이 페어링을 저장할 수 있습니다. 각 업데이트가 제공되면 어떻게 든 "타임 스탬프"인 현지 기계 시간을 할당해야합니다. 이 간단한 경우의 원점은 동일한 교환이므로 상대 대기 시간을 결정하는 것은 매우 쉽습니다.

이 방법은 데이터에 대한 구독 앱을 작성해야합니다.

누락 된 업데이트 처리 및 타이틀 타이밍 타이밍, 업데이트에 고유 한 ID를 제공하지 않을 수있는 교환 또는 피드를 처리하는 방법, 데이터 공급 업체를 중심으로 작업하는 것과 같은 많은 문제가 있습니다.

데이터 스니핑은 비슷하지만 PCAP 또는 하드웨어 캡처 카드를 통해 데이터를 캡처 한 다음 패킷의 엔드 포인트를 기반으로 스트림을 구문 분석합니다. 이것은 직선 가입보다 조금 어렵지만 측정 할 수있는 데이터 세트에 대해서는 비 침입하고 상당히 유연하다는 장점이 있습니다.

다른 팁

여러 기업 행동 데이터 소스를 둘러싼 피드를 공급하는 한 가지 접근법은 단순히 피드가 역사적으로 가장 정확한 경향이있는 휴리스틱 정보를 유지하는 것입니다. 따라서 데이터에 더 큰 가중치를 부여합니다.

물론, 모든 유형의 시장 데이터 회사 회사 행동 중에서 가장 낮은 볼륨 중 하나 이므로이 기술은 아마도 데이터를 선택하기 위해 확장되지 않을 것입니다!

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow