Frage

In den Ohren in mehreren Teams zu arbeiten, habe ich mehrere Infrastrukturbetreiber getroffen, die eine Politik der Wochen Server Neustarts eingeleitet. Als Entwickler, ich war immer gegen die Politik - es scheint, dass dies ein Hack um Software-Fehler und Hardware-Instabilitäten zu arbeiten, anstatt sie zu korrigieren

.

Was sind die Meinungen der Menschen, positive und negative Punkte in Bezug auf die Politik?

War es hilfreich?

Lösung

Wenn Sie Ihre Server gelegentlich neu zu starten, können Sie sicher sein, sie wieder nach oben kommen. Obwohl wöchentlichen klingt wie eine ernsthafte Overkill, habe ich dieses Problem auf Linux-Maschinen gesehen mit langen Laufzeiten.

Jemand nicht die Mühe, einen kritischen Dienst einzurichten, um automatisch beim Booten zu starten. Oder die Reihenfolge der Dienste bis kommenden falsch ist. Oder jemand Bibliotheken aktualisiert, hinzugefügt / entfernt Software, etc. und die ausführbare Datei nicht mehr funktioniert (es wurde mit den alten Bibliotheken in Betrieb genommen und setzte sie mit, jetzt ist es einen dynamischen Linker-Fehler wird). Oder es stellt sich heraus, Service A abhängig von Service B und Service B ist abhängig von Service A (oops).

An einem gewissen Punkt, wenn Sie mindestens wollen, nehmen Sie einen Neustart. Die colo wird die Kraft auf Sie fallen; die Stromversorgung wird der Server ausfallen; jemand wird das Kabel / drücken Sie die Reset-Taste auf dem falschen Server ziehen; etc. Nun, wenn man es am wenigsten Ausfallzeiten, Ihr blutiger Server kommt nicht wieder nach oben leisten kann.

Genau wie Software, Systemkonfigurationen benötigen Tests. Wie oft müssen Sie diese Tests tun hängt davon ab, wie Sie Ihre Boxen verwaltet werden.

Andere Tipps

Dies ist eine dumme Politik.

Hier ist der Grund:

  • Wenn Sie wöchentlich einen Server neu starten müssen (und irgendwie fügt sie Stabilität Ihrer Infrastruktur des) Sie decken das eigentliche Problem mit einem Server oder seiner Software auf. Ein Speicherleck? Ein schlechter Fahrer? Die Lösung dieser Probleme sind auf fix sie nicht bedecken sie mit einer faulen Politik auf.

  • Server oft für Updates neu gestartet wird, zumindest in der Windows-Welt. Neustarten für kritisches Kernel-Updates geschieht sowieso.

  • Datenbank-Server eine Vielzahl von Informationen in RAM-Speicher ablegen. Wenn Sie Ihren Server neu starten, wird dieser Cache leer und sehr kalt. Angenommen, Sie sind ein typisches Nutzungsmuster haben, führt eine kalte, leere Cache in geringer Leistung für die Benutzer, wenn sie ihre Anfragen nach einem Neustart versuchen. Es können auch die Zeit erhöhen benötigt, um einige Arten von Wartung wie Backups durchzuführen, da der Datenträger benötigen mehr zugegriffen werden kann.

  • Ihre Server nach unten gehen! Ihr Wartungsfenster für Backups und andere Dinge verkürzt, weil der Server für einige Nicht-Null-Zeit ausgeschaltet ist. Sie können Ihren Benutzer am Ende zu sagen, dass Sie Ausfallzeiten haben, je nach Ihren Systemen Architektur.

  • auch
  • Angenommen, Sie irgendeine Art von Benachrichtigungssystem für die Alarmierung haben, werden Sie es so konfigurieren, müssen Sie Ihre Ausfallzeiten Fenster zu ignorieren. Dies kann zu Problemen Maske, die um die Zeit der Server neu gestartet wird passieren, und fügt zu der Menge der Konfiguration müssen Sie auf Ihren Servern tun.

Dass gesagt wird, bootet manchmal vorteilhaft sind als letztes Mittel auf Ressourcen, die Sie nicht unbedingt die volle Kontrolle über (alte hersteller geschriebene Software, „black box“ Geräte haben, wenn sie ausdrücklich vom Hersteller vorgeschrieben, etc ... ). Aber dies soll von Fall zu Fall behandelt werden, und nicht mit einer naiven Decke Politik.

Apologies zum Bestäuben eines alten Fadens.

Ich denke, jeder ist der Punkt fehlt, vor allem dem hartnäckigen ‚Neustart? Ich würde lieber meinen Kommodore verkaufen!‘ Nichts admins.

Der Punkt ist, dass ein wöchentliches Fenster soll geplant werden. Bedeutet nicht, es muss verwendet werden, in der Tat die Präferenz ist, dass es nicht verwendet wird, wie es zwangsläufig irgend Forsaken Morgenstunde ist.

Aber wenn es da ist, können Sie es verwenden.

Ich persönlich denke, ein vierteljährlich Neustart eine sehr gute Idee ist - es Ihnen ein Heads-up auf Probleme geben kann (Hardware und Software), und als die vorderste denken andere Plakat wies darauf hin, macht Sie von Änderungen bewusst, die glatt verhindern Startup, das nur scheinbar nach einem Neustart werden. Anstatt die Situation nach einem 4hr Stromausfall entstehen, die, wenn eine weitere 2 Stunden nehmen Ihre Box bis bringen wird wirklich ziemlich peinlich ....

Es gibt andere upsides ..

  • Es wird das Management zu Neustarts verwendet, und Sie haben ihr Vertrauen, wenn Sie tatsächlich einen Neustart tun müssen (zum Beispiel physisch verschieben). Wenn Sie noch nie eine Box neu starten, gehen zu Ihrem Manager sein verdammt nervös, wenn Sie sagen, es muss nach 4yrs Neustart und ohne Ausfallzeiten.

  • Sie sich Neustarts gewöhnen, und wissen, was schief gehen kann, \, wenn es offline ist.

  • Sie wissen, wie lange Neustarts nehmen, so, wenn es wieder nach oben kommt und nimmt 10mins länger als üblich, du bist gerade in den Protokollen.

  • Wenn Sie von einem Bus hinunter morgen geklopft bekommen, gibt es CURRENT (nicht 4 Jahre alte) Dokumentation darüber, was passiert, wenn ein Neustart durchgeführt wird (vorausgesetzt, Sie einen schönen Admin sind und Dinge aufschreiben)

  • Ein 30 Minuten Neustart pro Quartal paßt gut in 99,9% Uptime SLAs.

  • Endlich ist es löscht die sprichwörtlich Spinnweben aus.

Um einige Punkte gegen regulären Neustart zu beantworten ..

  • Die ein über Vertuschung ein schlechtes Fahrer \ Speicherlecks etc urkomisch ist. Wie wissen Sie, es ein Speicherleck \ schlechter Fahrer ist, wenn Sie den Server neu starten? Nicht nur das, was ist, wenn Sie sich nicht schaffen es in Ihren geplanten Ausfallzeiten zu beheben? Wenn Sie ein wöchentliches geplanten über Fenster haben, ist es kein Problem! Versuchen Sie einfach nächste Woche wieder ....

  • Notification System - wenn Sie ein geplantes Fenster haben, können Sie eine geplante Ausnahme gesetzt. Wenn Ihre Software \ Skript dies nicht tun, dann schlage ich moderne Software \ besser Skript schreiben.

  • Wie für die geplanten Ausnahme Fenster versteckt Probleme, dass ‚während der geplanten Ausnahme Fenster zufällig auftreten‘, die nur lächerlich sind. Ihre andere Server-Statistik wird dieses Problem auftauchen sehr schnell, wenn man sie überhaupt überprüfen.

Natürlich eine Decke Politik wird nicht empfohlen, und Sie sollen Ausnahmen haben Kriterien (zum Beispiel Festplattenspeicher über eine bestimmte Größe usw.)

gesagt haben, dass das Endergebnis ist, nur weil der Server nicht neu gestartet werden müssen, ist es unglaublich naiv zu glauben, dass Sie es nicht neu gebootet werden sollte ....

Edit:

Ich bin mir nicht sicher, ob ich machte dies deutlich genug, aber das Neu starten soll nicht zum Verputzen über ein Problem verwendet werden. Das Fenster sollte wöchentlich, so dass Sie Versuche Lösung des Problems wiederholt haben, nicht ‚mit ihr zu leben.‘

Rebooting als Methode des auf einem Server mit einem Problem zu tun ist schlecht Sysadmin. Es wird nichts gelernt und es vergeudet Menschen wertvolle Zeit und (zu Recht) senkt das Management der Meinung von Ihnen.

Mein Punkt ist,

  • Es ist schwierig, sicherzustellen, dass Sie ohne eine akzeptierte, geplante, wöchentliche Wartung Fenster anstelle ein Problem zu lösen.
  • Mit einem wöchentlichen Fenster, das Sie eine laufende Gelegenheit haben, die Dinge richtig zu sortieren und zu vermeiden, dass die Situation, in der Sie Abhilfen auf so viele verschiedenen Servern ein halbes Dutzend jerry-manipulierten haben.

Die Beantwortung meiner Frage: Einer der Vorteile, die ich aus der Politik zu sehen, wenn sie auf einem Servercluster angewendet wird, und die Prozesse werden von einem Knoten zum anderen Failover ausgeführt. Auf diese Weise werden alle Knoten ständig für die richtige Software getestet installieren.

Unsere Server sind alle Linux-Server bei der Arbeit, und wir nicht immer neu und haben keine Probleme hatte. Ich bin damit einverstanden, dass es ein Hack am besten ist, und ich denke auch, es wahrscheinlich etwas mit den ersten Antwort Menschen zu tun, verwendet, um immer zu geben, wenn Windows Fragen unterstützen: „Haben Sie Ihren Computer neu gestartet“

Nun, warum es von Vorteil sein könnte, können Sie Anwendungen haben, die in einem seltsamen Zustand erhalten oder dass haben Speicherlecks, dass ein Neustart würde lösen.

Ein großes negativ zu mir ist, dass Sie wöchentliche Ausfallzeiten für die Server planen habe. Für einige, das ist kein Problem, und für andere, die ein riesiges Problem.

Natürlich, wenn die Ursache eines Problems nicht in einer angemessenen Frist behoben werden kann, muss es um gearbeitet werden. Planen einen Neustart zu beheben ist es eine einfache Möglichkeit, über das Geschäft zu retten, ob das funktioniert.

Sicher, es tut weh, geistig und nicht benötigt werden sollte, und es wäre am besten, eine Lösung zu arbeiten, gegen solche, vor allem, wenn man die Kontrolle über die problematische Software ist oder in der Lage, die Hersteller für eine Lösung, um Weibchen-Klaps oder einfach ersetze es. Aber wenn nicht ..?

Ich erinnere mich, es für die Server in einer Citrix-Farm zu tun, am Ende werden sie jeden Abend mit einem halben kompliziert Skript neu gestartet wurden Warten auf Benutzer, um sich abzumelden, Logins auf bestimmte Server Sperren und dann den Freien Neustart. Der Grund dafür war eine alte 16-Bit-4GL-Client-Anwendung, die wir einfach nicht loswerden, die eher allgemeinen Benutzer Ansprechbarkeit nach einem paar Tagen von uptime zu trennen.

Ich bin damit einverstanden, dass, obwohl meistens scheint es, auf nicht zu sein intelligent genug, um zu beruhen, um die Ursache herauszufinden und Fixieren -. Nicht jeder ist so gut versiert in der Wartung oder motivierte, wie wir möchten

Es ist ein Hack wirklich, aber es könnte die effizienteste Hack. Es ist ein 80:20 Typ Problem, wo man 80% des Problems mit 20% des Aufwand lösen kann. Wenn Sie die Ausfallzeiten überleben oder die Ausfallzeit kostet Sie weniger als tatsächlich die Ursache Festsetzung dann ist dies eine gute Lösung. Ich persönlich mag es nicht, aber das ist nur, weil es keine saubere Lösung.

Eine weitere Möglichkeit zu berücksichtigen ist, dass in einigen Umgebungen, wie Einzelhandelsgeschäfte, die 24 Stunden am Tag geöffnet sind, wird ein „Geschäft schließen“ Ereignis, so dass Server kann aktualisiert werden, gesichert werden, etc.

Auch wenn die Server laufen „24x7“ benötigen, they'e wirklich offline für mindestens ein paar Minuten jeden Tag.

Das macht effektiv einen Neustart des Servers jeden Tag, auch wenn der Laden noch in Betrieb ist, wenn es passiert.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top