저장하는 대규모의 주문 시계열 데이터를 bigtable 파생상품

https://stackoverflow.com/questions/1623399

06-07-2019
|

문제

내가 노력하는 바를 정확하게 파악하기에 이러한 새로운 신기한 데이터 저장소와 같은 bigtable,스와 카산드라 정말 있습니다.

저는 작품으로 대량의 주식 시장 데이터 수십억의 행 가격의/견적 데이터를 추가할 수 있는 최대 100 개 기가바이트이 매일(하지만 이러한 텍스트 파일은 종종 압축하여 적어도 크기의 순서).이 데이터는 기본적으로 소수의 숫자,두 개 또는 세 개의 짧은 문자열이 및 타임스탬프(일반적으로 밀리초 수준).면했을 선택하는 각 행에 대해 고유 식별자,나는 것을 선택해야 전체적인 행(이후 exchange 생성할 수 있습니다 여러 값이 동일한 상징에서 동일한 밀리초).

내 생각하는 가장 간단한 방법 지도 이 데이터를 bigtable(나를 포함한 파생상품)의 기호 이름과 날짜(는 반환할 수 있습니다 매우 큰 시계열,백만개 이상의 데이터 포인트는 것은 전례가 없).에서 읽고 그에 대한 설명,그것은 다음과 같이 여러 키를 사용할 수 있습니다 함께 이러한 시스템입니다.또한 저는 가 진수 숫자 좋지 않은 후보자를 위한 키를 사용합니다.

이러한 시스템의 일부(카산드라,예를 들어)주장을 할 수 있는 범위 쿼리를 처리합니다.을 효율적으로 쿼리,말의 모든 값이 올 여름,특정한 날에,사 11:00am 부터 1:30pm?

하고 싶은 경우에는 어떻게 검색한 모든 기호를 지정한 날,그리고 요청이 있는 모든 기호가 있는 사이에 가격$10,$10.25(그래서 나는 검색을 값,그리고 원하는 키 결과로 반환되는)?

무엇을 얻으려면 두 번 시리즈,빼기에서 다른 하나에 돌아와 두 번 시리즈 결과의 것,내가 할 일은 자신의 논리로서 내 자신의 프로그램입니까?

독서 관련 서류는 것을 보면 이러한 시스템은 매우 좋은 적합한 시리즈 시스템입니다.그러나,경우 시스템과 같은 구글지도를 기반으로 그들을,내가 생각하는 시간 시리즈 작업해야 합니다.예를 들어,생각하는 시간으로 x-axis,가격으로 y-축과 기호 이름으로 위치--갑자기 그것은 다음과 같 bigtable 야 하는 이상적인 저장소에 대한 시계열(면 지구 전체에 저장될 수 있고,검색,축소 및 주석,주식 시장해야 할 데이터와 사소한).

수있는 일부 전문가 시점에서 나를 올바른 방향으로거나 오해를 불러일으킬 정도였다.

감사

해결책

내가 전문가 아직,그러나 나는 카산드라를 위해 몇 일 지금,그리고 나는 당신을 위해 답변:

에 대해 걱정하지 않는 데이터의 양,그것의 관련 시스템과 같은 카산드라이 있는 경우$$$큰 하드웨어 클러스터입니다.

이러한 시스템의 일부(카산드라,예를 들어)주장을 할 수 있는 범위 쿼리를 처리합니다.을 효율적으로 쿼리,말의 모든 값이 올 여름,특정한 날에,사 11:00am 부터 1:30pm?

카산드라이 때 매우 유용하는 방법을 알고 함께 작동 키를 사용합니다.할 수 있를 통한 신속한 키를 매우 빠르게 합니다.그래서를 검색에 대한름 11:00~오후 1 시 30 분,당신은 당신을 당신의 행 다음과 같다:

름-타임스탬프,GOOG-타임스탬프,등등 그때 당신은 말할 수 있는 카산드라 모든 키로 시작하는 올 여름-이제 끝으로 올 여름에 지금+1 시간.

하고 싶은 경우에는 어떻게 검색한 모든 기호를 지정한 날,그리고 요청이 있는 모든 기호가 있는 사이에 가격$10,$10.25(그래서 나는 검색을 값,그리고 원하는 키 결과로 반환되는)?

나는 전문가가 아니지만,지금까지 깨달았다는 카산드라지 않는'검색에 의해 값이다.그래서 당신이 원하는 경우,당신을해야 다른 테이블에 최선을 다 이 문제와 디자인의 스키마에 맞는 경우입니다.하지만 많은에서 다른 무엇을 설명한다.그것은 모두 이름을 붙여 당신의 열쇠를 열이 있습니다.카산드 그들을 찾을 수 있습니다 매우 신속하게!

무엇을 얻으려면 두 번 시리즈,빼기에서 다른 하나에 돌아와 두 번 시리즈 결과의 것,내가 할 일은 자신의 논리로서 내 자신의 프로그램입니까?

올바른 모든 논리 내부에서 수행되는 당신의 프로그램입니다.이 MySQL.이것은 단지 저장 엔진입니다.(그러나 나는 다음 버전에서는 이런 종류의 것)

기억하시기 바랍 내가 초보자에 이 경우,잘못된 느낌을 무료로 올바른다.

다른 팁

만약 당신이 다루는 거대한 시계열 데이터베이스는,다음의 기준은 다음과 같습니다:

이 저렴하지 않은,그러나 그들은 처리할 수 있는 데이터를 매우 효율적으로 합니다.

사람을 존중 권장 오픈 시계열 데이터베이스입니다.특히,는 스키마가 가장 좋은 그는 이제까지 볼 수 있습니다.

http://opentsdb.net/

'이 앞에 서있는 동일한 산이다.나의 주요한 문제라는 것을 얻을 수 없는 스트림에서 결과 집에서 예를 들어,형태의 반복기입니다.

내가 찾는 이미 아래로는 문서와 그물,하지만 아무것도 아니다.

수 가져와 다음의 행으로 수십억의 행이 불가능합니다.

DataStax Java 드라이버를 사용한 자동적인 페이는 것입니다 그래서 스트림 결과 같은 반복기 및 그것의 모든 내장되어 있습니다.이에 카산드라 2.0.1-방법에 의하여 http://www.datastax.com/dev/blog/client-side-improvements-in-cassandra-2-0

그냥 완전성을 위해 이 글을 읽고 2018 년에 이용할 수 있는 특별한 데이터베이스에 대한 timeseries 데이터 불 TimescaleDB

http://www.timescale.com/

이 블로그는 읽기 가치가 그 이유를 설명이 우수하는 솔루션은 다음과 같 카산드라는 특별한 경우 그리고 왜 그것을 구축하기로 결정했의 상단에 관계형 데이터베이스 PostgreSQL

https://blog.timescale.com/time-series-data-why-and-how-to-use-a-relational-database-instead-of-nosql-d0cd6975e87c

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow