Frage

Diese Frage bezieht sich auf eine ganze Klasse von ähnlichen Problemen, aber ich werde es als ein konkretes Beispiel fragen.

Ich habe einen Server mit einem Dateisystem, dessen Inhalt schwanken. Ich brauche den verfügbaren Platz auf diesem Dateisystem zu überwachen, um sicherzustellen, dass es nicht füllt. Aus Gründen der Argumentation, nehmen wir an, dass, wenn es voll ist, der Server abstürzt.

Es ist eigentlich egal, was es ist -. Es könnte zum Beispiel sein, eine Schlange von „Arbeit“

Während der „normalen“ Betrieb, der zur Verfügung stehende Raum variiert innerhalb „normalen“ Grenzen, aber es kann Pathologien sein:

  • Einige andere (möglicherweise extern) Komponente, die Arbeit kann auslaufen fügt Kontrolle
  • Einige Komponenten, die Arbeit greift, aber bleibt unentdeckt
  • entfernt

Die statistischen Eigenschaften des Verfahrens sind grundsätzlich bekannt.

Was ich suche ist ein Algorithmus, der als Eingabe zeitlich periodische Messungen des verfügbaren Raums (alternative Vorschläge für die Eingabe sind willkommen), und erzeugt als Ausgang, einen Alarm, wenn die Dinge sind „abnormal“ und die Datei nimmt System ist „wahrscheinlich zu füllen“. Es ist natürlich wichtig, falsch-negative Ergebnisse zu vermeiden, aber fast so wichtig Fehlalarme zu vermeiden, betäubende das Gehirn der Sysadmin zu vermeiden, der den Alarm erhält.

Ich schätze, dass es alternative Lösungen, wie mehr Speicherplatz auf das zugrunde liegende Problem zu werfen, aber ich habe tatsächlich Fälle erlebt, in denen 1000 mal nicht genug war.

Algorithmen, die historischen Messungen gespeichert betrachten ist in Ordnung, obwohl on-the-fly-Algorithmen, die die Menge an historischen Daten minimieren, werden bevorzugt.


Ich habe Franks Antwort akzeptiert, und jetzt auf das Reißbrett werde wieder seine Referenzen in der Tiefe zu untersuchen.

Es gibt drei Fälle, glaube ich, von Interesse, nicht um:

  1. Der „Harrods' Verkauf hat gerade erst begonnen“ Szenario: ein Höhepunkt der Aktivität, die in einer Sekunde Auflösung ‚aus dem Ziffernblatt‘ ist, aber keine wirkliche Gefahr der Erschöpfung der Ressourcen darstellen;
  2. Das „Global Warming“ Szenario: benötigt für (relativ) ein stabiles Wachstum zu planen; und
  3. Die „Google sendet mir eine unaufgeforderte Kopie des Index“ Szenario: dies in relativ kurzer Zeit alle meine Ressourcen erschöpfen wird, wenn ich etwas tun, um es zu stoppen
  4. .

Es ist das letzte, das ist (glaube ich) interessanteste und anspruchsvoll, aus der Sicht des Sysadmin ..

War es hilfreich?

Lösung

Wenn es tatsächlich zu einer Warteschlange von Arbeit verbunden ist, dann Warteschlangentheorie kann der beste Weg zu einer Antwort.

Für den allgemeinen Fall könnten Sie vielleicht ein (mehrere?) Versuchen, lineare Regression auf den historischen Daten, um herauszufinden, ob es eine statistisch signifikante ist in der Ressourcennutzung steigende Tendenz, die wahrscheinlich zu Problemen führen, wenn sie (weiter können Sie vorhergesagt wird auch in der Lage, wie lange muss es weiterhin Probleme mit dieser Technik führen - setzt nur einen Schwellenwert für ‚Problem‘ und verwenden sie die Steigung des Trends zu bestimmen, wie lange es dauern wird). Sie würden mit diesen haben zu spielen, um und mit den Variablen, die Sie allerdings sammeln, um zu sehen, ob es eine statistisch signifikante Beziehung ist, dass Sie in erster Linie entdecken.

Obwohl es ein völlig anderes Thema (globale Erwärmung) umfasst, habe ich festgestellt tamino Blog (tamino.wordpress.com) eine sehr gute Ressource auf einer statistischen Analyse von Daten zu sein, die voll von knowns und Unbekannten ist. Zum Beispiel finden Sie unter dieser Post.

edit: wie pro meinem Kommentar Ich denke, das Problem auf das GW Problem in gewisser Weise analog ist. Sie haben kurzfristige Ausbrüche von Aktivität, die auf Null mitteln, und langfristige Trends überlagert, dass Sie interessiert sind. Auch gibt es wahrscheinlich mehr als einen langfristigen Trend, und es ändert sich von Zeit zu Zeit. Tamino beschreibt eine Technik, die für diese geeignet sein können, aber leider kann ich nicht finden die Post Ich denke an. Es geht um Regressionen entlang der Daten (man stelle sich mehrere Zeilen eingebaut verrauschten Daten) gleitet, und lassen die Daten, die die Wendepunkte holen. Wenn Sie dies tun könnte, dann könnten Sie vielleicht eine wesentliche Änderung der Trend identifizieren. Leider kann es nur nach der Tatsache erkennbar sein, wie Sie eine Menge Daten sammeln müssen Bedeutung zu bekommen. Aber es könnte noch in der Zeit Erschöpfung der Ressourcen, den Kopf ab. Zumindest kann es Ihnen eine robuste Art und Weise geben, um zu bestimmen, welche Art von Sicherheitsmarge und Ressourcen in Reserve Sie in Zukunft benötigen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top