Frage

Ich bin für eine Hardware, die etwa 256 rechenintensive Echtzeit gleichzeitige Aufgaben im 24-Stunden-Modus (eine Multi-Threaded-C-Anwendung) ausgeführt werden muss. Jede Aufgabe dauert etwa 40-50 MFLOPs, so dass alle Aufgaben benötigen etwa 10 GFLOPs. CPU-RAM-Geschwindigkeit ist unbedeutend. Alle Aufgaben müssen von einem Linux-Kernel (32 bit, mit SMP) verwaltet werden.

Ich bin auf der Suche nach einem One-Mainboard-Lösung mit einem Multi-Core-CPU (wenn eine solche CPU vorhanden sind). Wenn eine solche CPU nicht vorhanden ist, dann brauche ich eine Mulit-Sockel Mainboard-Lösung (mit mehreren CPUs).

Können Sie mir bitte empfehlen mir jede professionelle CPU / Mainboard-Lösung, die diesen Anforderungen gerecht wird? Es ist auch sehr wichtig, dass es keine Probleme mit Linux-Kernel (2.6.25). Keine Virtualisierung, braucht keine in großen RAM oder CPU-Cache. Ich würde auch Intel-Architektur bevorzugen und gut bewährt Stabilität. Ich habe immer noch Zweifel, dass es überhaupt machbar ist.

Vielen Dank im Voraus.

UPDATE: Ich glaube, ich habe eine richtige Antwort hier und hier .

War es hilfreich?

Lösung

Ultrasparc T2 hat 8 Adern mit je 8 Fäden. Integrierte hoher Bandbreite Speicher und IO. Der T5140 trägt, von denen zwei für 128 Hardwarethreads.

  

Die theoretische max rohe Leistung der 8 Gleitkommaeinheiten 11 Giga pro Sekunde Flops (GFlops / s). Ein großer Vorteil gegenüber anderen Implementierungen ist jedoch, dass 64 Threads, die Einheiten gemeinsam nutzen können und so können wir einen extrem hohen Prozentsatz der theoretischen Spitzen erreichen. Unsere Experimente haben fast 90% der 11 Gflop / s erreicht. - ( http://blogs.oracle.com/deniss/entry/floating_point_performance_on_the )

Andere Tipps

  1. Mieten Sie einige Amazon EC2-Knoten.

  2. Aktualisiert : Wie wäre PS3 dann? Die NASA nutzt sie für ihre Simulation Motoren.

  3. Vielleicht CPU + GPU in kommerziellen Servern verwenden?

  4. Build es um FPGAs : heute sind einige Varianten Prozessoren, laufen Linux.

Auch wenn Sie uns die Spezifikationen gegeben haben Sie denken, Sie brauchen, wir könnten in der Lage sein, besser zu helfen, wenn Sie uns sagen, was die Anwendung erreichen soll, und wie sie umgesetzt werden.

Es kann eine bessere Möglichkeit, die Arbeit bis zu spalten oder mit ihm, anstatt Ihrer aktuellen Lösung zu befassen.

Nicht Intel-Architektur, aber diese läuft Linux und haben 64 Kerne auf einem einzigen Chip.

TILEPro64

Hier finden Sie eine Reihe von Vier- oder Acht-Kern-Maschinen und spaltete die Verarbeitung über die Maschinen eine Art Gitter oder Clustering-Software. Vielleicht haben Sie einen Blick auf Beowulf .

Wie Sie erwähnt haben, 10GFlops ist nicht gerade bei so in einer einzigen Maschine geniest werden, wird es teuer sein. Es gibt auch das Problem, was Sie tun, wenn die Maschine bricht, sind Sie wahrscheinlich nicht zur Verfügung eine zweite Maschine mit ähnlicher Spezifikation haben. Wenn Sie einen Cluster mit handelsüblicher Hardware bauen, sind Sie ein wenig belastbarer und es ist einfacher Ersatz-Maschinen zu finden.

MFLOPS und GFLOPS sind sehr schlechte Indikatoren, wie gut ein Programm auf einer bestimmten CPU ausgeführt werden können. In diesen Tagen, Cache-Fußabdruck ist viel wichtiger; vielleicht Verzweigungsvorhersagegenauigkeit als auch.

Es gibt so gut wie keine Möglichkeit, die Leistung eine bestimmte Anwendung auf verschiedene Architekturen zu messen, ohne ihnen einen Spin tatsächlich zu geben. Und selbst dann können Sie nicht eine gute Idee, wenn man das Pech haben, waren unwissentlich mit Compiler-Optionen zu erstellen, die den Cache-Fußabdruck ruiniert, oder verwendet eine schlechte Threading-Bibliothek oder irgendwelchen von hundert andere Dinge.

Ich sehe, Sie Intel bevorzugen würden, aber wenn Sie einen Chip benötigen, werde ich wieder den Zellenprozessor vorschlagen - seine theoretische Spitzenleistung ist arount 25GFlops - Kernel 2.6.25 Unterstützung bereits für sie hatte.

Sie könnten eine pre-slim playstation versuchen 3 für das Experimentieren mit (das würden Sie wenig kosten) oder selbst eine serverbasierte bekommen Lösung bei etwa US $ 8K - Sie Ihre Themen neu zu schreiben und die Feinabstimmung zu nehmen haben advabtage der SPU Coprozessoren dort, aber Sie könnte Ihren Rechenbedarf, ohne ins schwitzen mit einer einzigen Zelle zu brechen (1 PPC Kern + 8 SPUs) erreichen

NB .: mit einem playstation 3, dann würden Sie nur 6 verfügbaren Koprozessoren haben - aber Sie nicht auf ein Budget mit diesem Projekt sein gesehen - So könnte man zumindest versuchen, IBMs Zelle Entwickler-Kit, das einen Emulator bietet, um zu sehen, ob Sie Ihre Lösung läuft auf sie codieren können.

Thre sind im Handel erhältlich CELL Produkte, sowohl als Stand-alone-Server in Blade-Formfabrik und PCI Express Add-On Boards für PC-Arbeitsplätze aus Mercury Computer Systems: http://www.mc.com/microsites/cell/products. aspx? id = 6986

Mercury Liste keine Preise auf der Website, aber der Preis seens sein um die previoulsy U 8000.00 Karten für diese PCI Express $ genannt.

Ein playstation 3 Videospiel kann für etwa U $ 300.00 kaufen - und Sie erlauben würde, die Anwendung von Prototypen und prüfen, ob es bis zur benötigten Leistung. (Ich habe mich ein und haben Fedora 9 auf es läuft, obwohl ich das getan habe als hobbyst und haben nicht, so weit es für Berechnungen verwendet - ich auch gemeinsam eine-Playstation 3 12 machinne Cluster an die für molekulare Simulationen gestellt hatte lokale Universität. die Anwendung nahmen sie laufen nicht die Vorteile des Multimedia-SPUs, während ich mit dann in Kontakt war. Aber auch so, bei 3,5 GHz getaktet durchgeführt sie besser als Standard, s imlarly Preis, PCs, sogar PS3 sind preislich 5x unter Berücksichtigung höher hier)

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top