Come si confronta HP (Tandem) Non stop con i cluster Linux?

https://stackoverflow.com/questions/271514

06-07-2019
|

Domanda

I sistemi HP NonStop (precedentemente noti come "Tandem") sono noti per la loro elevata disponibilità, affidabilità e prezzo più elevato.

In che modo i cluster basati su Linux o Unix si confrontano con loro, sotto questi aspetti e altri?

Soluzione

Su una macchina a tolleranza d'errore la tolleranza d'errore è gestita direttamente nell'hardware e trasparente all'applicazione. La programmazione di un cluster richiede la gestione esplicita della tolleranza agli errori nell'applicazione.

In pratica, un'architettura di applicazione cluster è molto più complessa da costruire e soggetta a errori rispetto a un'applicazione creata per una piattaforma a tolleranza d'errore come NonStop. Ciò significa che esiste un margine molto più ampio di inaffidabilità indotto da bug delle applicazioni, poiché la Borsa di Londra scoperto nel modo più difficile. Avevano un sistema basato su Tandem, che era un'architettura abbastanza comune per le applicazioni di trading di borsa. Il loro nuovo CEO aveva la brillante idea che Microsoft fosse la strada da percorrere e che una società di consulenza Big-5 costruisse un sistema .Net basato su un cluster di 120 server.

Il problema con le applicazioni in cluster è che gli errori possono essere correlati. Se nel sistema esiste un bug di applicazione o di configurazione, questo verrà in genere replicato su tutti i nodi. Ciò significa che è possibile ottenere una singola situazione o evento che può eliminare l'intero cluster. L'ulteriore complessità delle applicazioni in cluster le rende più soggette a errori di sviluppo e distribuzione, il che aumenta le probabilità che ciò accada. Un sistema cluster basato su (ad esempio) Linux e J2EE è vulnerabile agli stessi tipi di modalità di errore.

IMHO questo è un grande vantaggio delle architetture mainframe di vecchio stile. Diversi fornitori (IBM, HP, DEC e probabilmente molti altri a cui non riesco a pensare) hanno realizzato sistemi a tolleranza d'errore. Il modello di programmazione sottostante per questo tipo di sistema è in qualche modo più semplice di un server di applicazioni n-tier cluster. Ciò significa che c'è relativamente poco da sbagliare e per un determinato sforzo è possibile ottenere un sistema più affidabile. Un numero sorprendente di architetture più vecchie è ancora vivo e vegeto e vive abbastanza comodamente nelle sue nicchie di mercato. IBM vende ancora un sacco di macchine serie Z e I; Unisys produce ancora le serie A e 2200; VMS e NonStop sono ancora attivi in ??HP. Le vendite di questi sistemi non sono tutte per i clienti esistenti, ad esempio un sistema di sottoscrizione commerciale (GENIUS) funziona su ISeries ed è ancora un leader di mercato in questa nicchia con nuovi lanci in corso mentre scrivo questo. L'applicazione è sopravvissuta a due tentativi di riscriverla (1 in in Java e 1 in .Net) di cui sono a conoscenza e la piattaforma "Old School" non sembra davvero restringere il suo stile.

Non andrei ancora in corto con i venditori di screen saver ...

Gray & amp; Elaborazione delle transazioni: concetti e tecniche di Reuter è un po 'secca e accademica, ma ha un buon trattamento dell'architettura dei sistemi a tolleranza d'errore. Uno degli autori è stato un attore chiave nella progettazione dei sistemi Tandem.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow