Question

Je suis à la recherche d'un matériel qui doit fonctionner sur 256 en temps réel des tâches simultanées en mode 24 heures (une application C multi-thread). Chaque tâche prend environ 40-50 MFLOPs, donc toutes les tâches nécessitent environ 10 Gflops. la vitesse CPU-RAM est insignifiante. Toutes les tâches doivent être gérées par un noyau Linux (32 bits, avec SMP).

Je cherche une solution avec un mainboard un processeur multi-core (si ces derniers existent CPU). Si un tel CPU n'existe pas, alors je besoin d'une solution mulit-prise mainboard (avec plusieurs processeurs).

Pouvez-vous s'il vous plaît me recommander une solution CPU professionnelle / Mainboard qui satisfera à ces exigences? Il est également très important qu'il n'y ait pas de problèmes avec le noyau Linux (2.6.25). Pas de virtualisation, n'a pas besoin d'en grand RAM ou le cache du processeur. Je voudrais aussi préférer l'architecture Intel et la stabilité bien prouvé. J'ai encore des doutes qu'il est possible du tout.

Je vous remercie à l'avance.

Mise à jour: Je pense avoir trouvé une bonne réponse ici .

Était-ce utile?

La solution

T2 UltraSPARC a 8 noyaux avec 8 fils chacun. Mémoire intégrée à haute bande passante et IO. T5140 porte deux d'entre eux pour 128 threads matériels.

  

Le rendement brut maximum théorique des 8 unités à virgule flottante est 11 Giga-pieds par seconde (GFLOPS / s). Un énorme avantage sur les autres implémentations est cependant que 64 threads peuvent partager les unités et nous pouvons ainsi obtenir un pourcentage extrêmement élevé du pic théorique. Nos expériences ont atteint près de 90% des 11 Gflop / s. - ( http://blogs.oracle.com/deniss/entry/floating_point_performance_on_the )

Autres conseils

  1. Louer des noeuds Amazon EC2.

  2. Mise à jour : Que diriez-vous PS3 de alors? La NASA les utilise pour leurs moteurs de simulation.

  3. Peut-être utiliser du CPU + GPU dans les serveurs commerciaux?

  4. Construire autour FPGAs: De nos jours, certaines variantes comprennent des processeurs peut exécuter Linux.

Même si vous nous avez donné les spécifications que vous pensez que vous avez besoin, nous pourrions être en mesure de vous aider mieux si vous nous dire ce que l'application est destinée à accomplir, et comment il a été exécuté.

Il peut y avoir une meilleure façon de diviser la place de travail ou de traiter avec elle plutôt que votre solution actuelle.

Non l'architecture Intel mais ces linux et ont 64 run cœurs sur une seule puce.

TILEPro64

Obtenez un groupe de quatre ou machines à huit cœurs et diviser le traitement à travers les machines utilisant une sorte de grille ou logiciel de clustering. Peut-être un coup d'oeil à Beowulf .

Comme vous l'avez mentionné, 10GFlops est pas exactement à dédaigner donc dans une seule machine, ce sera cher. Il y a aussi le problème ce que vous faites lorsque les casses, il est peu susceptible d'avoir une deuxième machine de spécifications similaires disponibles. Si vous construisez un cluster à l'aide du matériel de base, vous êtes un peu plus résistant et il est plus facile de trouver des machines de remplacement.

MFLOPS et GFLOPS sont très mauvais indicateurs de la façon dont un programme peut fonctionner sur une CPU donnée. Ces jours-ci, l'empreinte du cache est beaucoup plus important; peut-être branche précision de la prédiction ainsi.

Il n'y a presque aucun moyen d'évaluer la performance d'une application donnée sur différentes architectures sans réellement donner un spin. Et même alors, vous ne pouvez pas obtenir une bonne idée si vous a eu la malchance de construire sans le savoir avec des options de compilateur qui ruinent votre empreinte cache, ou utiliser une bibliothèque mauvaise de filetage, ou tout d'une centaine d'autres choses.

Je vois que vous préféreriez intel, mais si vous avez besoin d'une puce, je suggère à nouveau le processeur cellulaire - ses performances de pointe théorique est arount 25GFlops - le noyau 2.6.25 avait soutien déjà.

Vous pouvez essayer une solution pré-mince playstation 3 pour expérimenter (cela vous coûtera peu) ou vous procurer un basé sur le serveur à environ US $ 8K - vous devrez ré-écrire et peaufiner vos fils à prendre advabtage des co-processeurs SPU là-bas, mais vous pouvez atteindre vos besoins informatiques sans casser une sueur avec une seule cellule (1 PPC noyau + 8 SPU de)

NB .: avec un playstation 3, vous auriez seulement 6 co-processeurs disponibles - mais vous ne pas vu d'être sur un budget avec ce projet - Ainsi, vous pouvez au moins essayer de kit de développement de cellules d'IBM, qui offre un émulateur, pour voir si vous pouvez coder votre solution pour fonctionner sur elle.

Thre sont produits cellulaires disponibles dans le commerce, à la fois en tant que serveurs autonomes sous forme de lame usine et PCI Express les cartes accélératrices pour les postes de travail de PC de Mercury Computer Systems: http://www.mc.com/microsites/cell/products. aspx? id = 6986

Le mercure ne liste pas de prix sur le site, mais le prix seens être autour de la previoulsy mentionné U 8000,00 $ pour ces cartes PCI Express.

A playstation 3 jeux vidéos peut être acheté pour environ U 300,00 $ - et vous permettra de prototyper votre application, et de vérifier si elle est à la performance nécessaire. (Je me suis un et ont Fedora 9 en cours d'exécution sur elle, même si je l'ai fait en tant que hobbyst et ne sont pas, jusqu'à présent, utilisé pour les calculs - je l'avais également mis en place une Playstation-3 12 cluster machinne pour les simulations moléculaires à la Université locale. l'application ils courent ne pas tirer profit de la SPU multimédia de, alors que j'étais en contact avec alors. Mais même si, cadencé à 3,5 GHz ils fait mieux que la norme, s imlarly prix, PC, même compte tenu de PS3 de sont prix 5x plus ici)

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top