Domanda

Sto cercando un hardware, che deve essere eseguito circa 256 intensivi in tempo reale attività simultanee computazionalmente in modalità 24 ore (una domanda multi-threaded C). Ogni operazione richiede circa 40-50 MFLOPS, quindi tutte le attività richiede circa 10 GFLOPs. velocità della CPU-RAM è insignificante. Tutte le attività devono essere gestite da un kernel Linux (32 bit, con SMP).

Sto cercando una soluzione one-mainboard con una CPU multi-core (se tale CPU esiste). Se tale CPU non esiste, allora serve una soluzione mainboard mulit-presa (con più CPU).

Potete prego raccomandare qualsiasi soluzione professionale CPU / Mainboard in grado di soddisfare tali requisiti? E 'anche molto importante che non ci siano problemi con Linux Kernel (2.6.25). No virtualizzazione, non ha bisogno enorme RAM o cache della CPU. Ho anche preferirei architettura Intel e stabilità ben dimostrato,. Ho ancora dei dubbi che è possibile a tutti.

Grazie in anticipo.

UPDATE: Credo di aver trovato qui una risposta giusta e qui .

È stato utile?

Soluzione

UltraSPARC T2 ha 8 core con 8 fili ciascuno. Integrato di memoria ad alta larghezza di banda e IO. T5140 porta due per 128 thread hardware.

  

Il teorico massimo rendimento prime delle 8 unità in virgola mobile è 11 Giga flop al secondo (GFLOPS / s). Un enorme vantaggio rispetto ad altre implementazioni tuttavia è che 64 thread possono condividere le unità e quindi possiamo ottenere una percentuale estremamente alta di picco teorica. I nostri esperimenti hanno raggiunto quasi il 90% del 11 Gflop / s. - ( http://blogs.oracle.com/deniss/entry/floating_point_performance_on_the )

Altri suggerimenti

  1. Affitta alcuni nodi EC2 di Amazon.

  2. Aggiornamento : Come su PS3, allora? La NASA li utilizza per i loro motori di simulazione.

  3. Forse l'uso della CPU + GPU nel server commerciali?

  4. Crea intorno FPGA : al giorno d'oggi, alcune varianti includono processori che in grado di eseguire Linux.

Anche se ci hai dato le specifiche pensi di aver bisogno, potremmo essere in grado di aiutarti meglio se ci dicono ciò che l'applicazione ha lo scopo di realizzare, e come è stato attuato.

Ci può essere un modo migliore per dividere il lavoro o trattare con esso piuttosto che la vostra attuale soluzione.

Non architettura Intel, ma questi Linux funzionato ed avere 64 core in un singolo die.

TILEPro64

Ottenere un gruppo di quattro o otto core macchine e dividere l'elaborazione di tutti i macchine utilizzando una sorta di griglia o software di clustering. Forse dare un'occhiata alla Beowulf .

Come lei ha ricordato, 10GFlops non è esattamente da buttar via così in una sola macchina, sarà costoso. C'è anche il problema ciò che si fa quando le pause della macchina, è improbabile che avere una seconda macchina di spec simile disposizione. Se si crea un cluster utilizzando commodity hardware, sei un po 'più resistente ed è più facile trovare macchine di sostituzione.

MFLOPS e GFLOPS sono indicatori molto povere di quanto bene un programma può essere eseguito su qualsiasi CPU. In questi giorni, la cache impronta è molto più importante; forse ramo precisione predizione pure.

Non c'è quasi alcun modo per misurare le prestazioni di una data applicazione su differenti architetture senza realmente dare un giro. E anche allora, non si può ottenere una buona idea se siete stati abbastanza sfortunati per costruire inconsapevolmente con le opzioni del compilatore che hanno rovinato la vostra impronta della cache, o utilizzate una libreria di threading cattiva, o una qualsiasi delle centinaia di altre cose.

Vedo che preferisce Intel, ma se avete bisogno di un unico chip, avrò di nuovo suggerire processore Cell - le sue prestazioni di picco teorica è 25GFlops arount - kernel 2.6.25 ha avuto il supporto per esso già.

Si potrebbe provare una playstation pre-sottile 3 per la sperimentazione di (che costerebbe poco) o farti una soluzione basata su server a circa US $ 8K - si deve ri-scrittura e sintonizzare le vostre discussioni a prendere advabtage dei co-processori SPU lì, ma si potrebbero realizzare le vostre esigenze di calcolo, senza una goccia di sudore con una singola cella (1 PPC di base + 8 di SPU)

NB .: con una Playstation 3, si avrebbe solo 6 co-processori disponibili - ma non si vede di essere su un bilancio con questo progetto - Così si potrebbe almeno provare Developer Kit cella di IBM, che offre un emulatore, per vedere se è possibile codificare la soluzione per eseguire su di esso.

Thre sono prodotti di cellule disponibili in commercio, sia come server autonomi in formato blade fabbrica, e PCI Express schede add-on per le workstation PC da Computer Systems Mercury: http://www.mc.com/microsites/cell/products. aspx? id = 6986

Il mercurio non elenca alcun prezzi sul sito, ma il prezzo seens essere intorno al previoulsy menzionato U $ 8000.00 per queste schede PCI Express.

una PlayStation 3 videogioco può essere acquistato per circa U $ 300,00 - e permetterebbe di prototipi la vostra applicazione, e verificare se è fino al prestazioni necessarie. (Io stesso ho uno e hanno Fedora 9 in esecuzione su di esso, anche se ho fatto che, come un hobbista e non hanno, finora, usato per calcoli - avevo anche messo insieme una Playstation-3 12 grappolo machinne per le simulazioni Molecolare presso il Università locale. l'applicazione corrono non sfruttare la multimedialità SPU del, mentre ero in contatto con allora. Ma anche così, con clock a 3.5GHz hanno risultati migliori rispetto a quelle standard, s imlarly prezzo, PC, anche considerando PS3 hanno un prezzo 5x più alto da queste parti)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top