문제

나는 약 256 계산 집약적 인 하드웨어를 찾고 있습니다. 실시간 24 시간 모드의 동시 작업 (하나의 멀티 스레드 C 응용 프로그램). 각 작업에는 약 40-50 개의 MFLOP가 필요하므로 모든 작업에는 약 10 개의 GFLOP가 필요합니다. CPU-RAM 속도는 중요하지 않습니다. 모든 작업은 Linux 커널 (SMP의 32 비트)에 의해 관리되어야합니다.

하나의 멀티 코어 CPU (CPU가 존재하는 경우)가있는 1 개의 메인 보드 솔루션을 찾고 있습니다. 이러한 CPU가 존재하지 않으면 Mulit-Socket 메인 보드 솔루션 하나가 필요합니다 (여러 CPU 포함).

그러한 요구 사항을 충족시킬 전문 CPU/메인 보드 솔루션을 추천 해 주시겠습니까? Linux 커널 (2.6.25)에 문제가없는 것도 매우 중요합니다. 가상화도없고 거대한 RAM 또는 CPU 캐시에 필요하지 않습니다. 또한 인텔 아키텍처와 잘 알려진 안정성을 선호합니다. 나는 여전히 그것이 실현 가능하다는 의심을 가지고 있습니다.

미리 감사드립니다.

업데이트 : 정답을 찾은 것 같아요 여기 그리고 여기.

도움이 되었습니까?

해결책

Ultrasparc T2 각각 8 개의 스레드가있는 8 개의 코어가 있습니다. 통합 된 고 대역폭 메모리 및 IO. 그만큼 T5140 128 개의 하드웨어 스레드를 위해 두 개를 운반합니다.

8 개의 부동 소수점 유닛의 이론적 최대 원시 성능은 초당 11 기가 플롭 (GFLOPS/S)입니다. 그러나 다른 구현에 비해 큰 장점은 64 개의 스레드가 장치를 공유 할 수 있으므로 이론적 피크의 매우 높은 비율을 달성 할 수 있다는 것입니다. 우리의 실험은 11 GFLOP/S의 거의 90%를 달성했습니다. - (http://blogs.oracle.com/deniss/entry/floating_point_performance_on_the)

다른 팁

  1. 일부 Amazon EC2 노드를 임대하십시오.

  2. 업데이트되었습니다: PS3는 어떻습니까? NASA는 시뮬레이션 엔진에 사용합니다.

  3. 상용 서버에서 CPU+GPU를 사용합니까?

  4. 주위에 건설하십시오 FPGA: 요즘에는 일부 변형에는 Linux를 실행할 수있는 프로세서가 포함됩니다.

당신이 필요하다고 생각하는 사양을 우리에게 주었음에도 불구하고, 응용 프로그램이 무엇을 달성하기위한 것인지, 어떻게 구현되었는지 말해 주면 더 잘 도울 수 있습니다.

현재 솔루션보다는 작업을 분할하거나 처리하는 더 좋은 방법이있을 수 있습니다.

인텔 아키텍처는 아니지만 Linux를 실행하고 단일 다이에 64 개의 코어가 있습니다.

tilepro64

4 개 또는 8 개의 코어 머신을 구입하고 일종의 그리드 또는 클러스터링 소프트웨어를 사용하여 컴퓨터를 통해 처리를 분할하십시오. 어쩌면 볼 수도 있습니다 Beowulf.

당신이 언급했듯이, 10GFLOPS는 단일 기계에서 SO에서 다시 재채기를받지 않으면 비쌀 것입니다. 기계가 파손될 때하는 일도 문제가 있으며, 비슷한 사양의 두 번째 기계를 사용할 수 없을 것입니다. 상품 하드웨어를 사용하여 클러스터를 구축하면 조금 더 탄력적이며 교체 기계를 찾기가 더 쉽습니다.

MFLOPS 및 GFLOPS는 주어진 CPU에서 프로그램이 얼마나 잘 실행될 수 있는지에 대한 지표가 매우 좋지 않습니다. 요즘 캐시 발자국이 훨씬 더 중요합니다. 아마도 지점 예측 정확도도있을 것입니다.

실제로 스핀을 제공하지 않고 다른 아키텍처에서 주어진 응용 프로그램의 성능을 측정 할 수있는 방법은 거의 없습니다. 그리고 그럼에도 불구하고, 캐시 발자국을 망치거나 나쁜 스레딩 라이브러리를 사용하는 컴파일러 옵션을 사용하여 무의식적으로 구축 할 수있을만큼 운이 좋지 않다면 좋은 아이디어를 얻지 못할 수도 있습니다.

나는 당신이 인텔을 선호하지만, 하나의 칩이 필요한 경우 셀 프로세서를 다시 제안합니다. 이론적 피크 성능은 25GFlops -Kernel 2.6.25가 이미 지원했습니다.

실험을 위해 사전 슬림 PlayStation 3을 시도하거나 (비용이 거의 들지 않는) 약 $ 8K로 서버 기반 솔루션을 얻을 수 있습니다. SPU 공동 프로세서이지만 단일 셀로 땀을 흘리지 않고 계산 요구를 달성 할 수 있습니다 (1 PPC Core + 8 SPU 's).

NB. : PlayStation 3을 사용하면 6 개의 사용 가능한 공동 프로세서가 있지만이 프로젝트와 함께 예산을 보지 못했기 때문에 에뮬레이터를 제공하는 IBM의 셀 개발자 키트를 사용해 볼 수 있습니다. 솔루션을 코딩하여 실행할 수 있는지 확인하십시오.

Blade Form Factory의 독립형 서버로서 상업적으로 이용 가능한 셀 제품 및 Mercury Computer Systems의 PC 워크 스테이션을위한 PCI Express 애드온 보드 :http://www.mc.com/microsites/cell/products.aspx?id=6986

Mercury는 사이트에 가격을 나열하지는 않지만 가격은 PCI Express 카드에 대해 U $ 8000.00을 언급 한 Previoulsy 주변에 있습니다.

PlayStation 3 비디오 게임은 약 $ 300.00에 대해 구입할 수 있으며 응용 프로그램을 프로토 타입하고 필요한 성능에 달려 있는지 확인할 수 있습니다. (나는 나 자신이 하나를 얻었고 페도라 9가 그것을 실행했다. 그러나 나는 그것을 취미로했지만 지금까지 어떤 계산에도 그것을 사용하지 않았다. 나는 또한 PlayStation -3 12 Machinne 클러스터도 지역 대학. 그들이 운영하는 응용 프로그램은 멀티미디어 SPU를 이용하지 못했습니다. 그때와 연락을 취하는 동안 3.5GHz에서 시계를 기록 했음에도 여기 더 높은 곳)

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top