Zum Inhalt springen
  • 0

Kontrollierter Shutdown


Gast test456

Frage

Guten Abend in die Runde,

wir haben bei uns eine SAN und zwei ESX-Hosts (Dell), diese sind je einmal über einen normalen Stromkreis angeschloßen und einmal über eine USV (APC). Für den Fehlerfall das kurzfristig der Strom ausfällt übernimmt die USV. Falls der Ausfall jedoch länger andauern sollte und die Kapazitäten der USV zu neige gehen, planen wir einen kontrollierten Shutdown der VMs, der ESX Hosts und des Storage. In der Vergangenheit war es eher so das weder die VMs noch die ESX-Hosts und das SAN einen kontrollierten Shutdown initiierten. Dies möchten wir jedoch möglichst vermeiden.

Welche Einstellungen muß ich bei welchem System treffen, einmal beim SAN, das dieses über den aktuellen Stand der Stromversorgung informiert wird sowie die ESX Hosts?

Die ESX-Hosts müssen diese Informationen natürlich an das Gast-Betriebssystem weitergeben, damit die VMs heruntergefahren werden. Auf allen Windows-VMS sind VMWare Tools installiert.

Link zu diesem Kommentar
Auf anderen Seiten teilen

10 Antworten auf diese Frage

Empfohlene Beiträge

  • 0

Was bedeutet "länger" in euren Fall? Was genau wollt ihr erreichen? Wollt ihr alle VMs in einer Art "Panikmodus" ungeachtet ihrer Wichtigkeit einfach nur so schnell wie Möglich herunterfahren, oder sollen zuerst "unwichtige Maschinen" (Testsysteme, Softwareverteilung...) und "schnell wieder da Server" heruntergfahren werden und die "dringend und wichtig" Kisten wie DC, ERP, Mailserver... erst dann wenn es gar nicht mehr anders geht? Soll der Prozess der Herunterfahrens zwischendrin abbrechbar sein, oder soll wenn USV-Leistung < X heruntergefahren werden, komme was wolle?

Du kannst die Storage erst herunterfahren, wenn die ESX Server weg sind und die ESXe erst wenn die VMs weg sind. Dafür brauchst du ausrechend Zeit, hast du diese Zeit? Wie lange benötigst du aktuell für einen kontrollieren Shutdown deiner Umgebung? Hast du Maschinen bei denen du sagen kannst "schei* drauf" und die man im Zweifelsfall hart ausschalten kann (Printserver z.B: wenn der im Eimer ist holt man den von vor einer Woche aus der Sicherund und installiert ggf die 2 neuen Drucker noch mal, oder Terminalserver, was der User gemacht und nicht gespeichert hat ist eh weg, egal ob hart aus oder kontrolliert heruntergefahren)? Sollen die ESX warten bis alle VMs aus sind, oder irgendwann herunterfahren auch wenn eine VM noch halbgar beim Herunterfahren bummelt? Müssen die ESX und die Storage wirklich runterfahren, oder reicht es ggf wenn nichts mehr drauf passiert (keine VMs laufe, keine Zugriffe auf der Storage). KANN die Storage überhaupt remote heuntergefahren werden, wenn ja, wie?

Hast du schon mal geschaut ob er der Hersteller der USV da etwas anbietet?

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0

da gibts beim guten Hersteller von USVs eigene VMs die überwachen und dann betroffene Server runterfahren.

Beim SAN wirds schwieriger, da musst Du wohl was scripten oder das Ausgangssignal der USV gesondert weitergeben.

Du brauchst auf jeden Fall erstmal die Stoppzeiten der einzelnen Systeme und des SANs und kannst dann erst berechnen, wielange die USV "aushalten" darf bevor sie Stop-Signal gibt ;)

Was ist mit Netzwerkkomponenten, die Du evt brauchst um den Stop zu verteilen ( zb zum SAN ) ? Die haben bei Stromausfall auch noch Notversorgung ?

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0

hat deine USV eine IP-Adresse? Bei Netapp geht das dann recht einfach (nicht getestet): https://library.netapp.com/ecmdocs/ECMM1278407/html/sysadmin/GUID-D1E40D74-110C-49B8-8C77-2B3BAF545F00.html

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0
Zitat

hat deine USV eine IP-Adresse? Bei Netapp geht das dann recht einfach (nicht getestet): https://library.netapp.com/ecmdocs/ECMM1278407/html/sysadmin/GUID-D1E40D74-110C-49B8-8C77-2B3BAF545F00.html

Ja unsere USVs haben eine IP-Adresse und werden auch über ein Monitoring-System überwacht.

Zitat

Du kannst die Storage erst herunterfahren, wenn die ESX Server weg sind und die ESXe erst wenn die VMs weg sind.

Das ist mir vollkommen klar, das dies die Reihenfolge beim Herunterfahren sein muß. Aber die Kommunikation geht ja vom ESX Host zur VM.

Klar ist, das unser Stromnetz sehr stabil ist. Doch es sollte auch der Fall abgesichert sein, wie etwa unter der alten Umgebung als am Wochenende der Strom ausfiel. Das war bei uns der Fall, am Montag morgen waren dann alle Komponenten im Serverraum aus (SAN, ESX, USV, Klimaanlage). Es gab also ein ernsthaftes Problem, das durch Elektriker gelöst werden mußte.

Glücklicherweise fanden am Wochenende keine Zugriffe auf File-Server statt, doch ein abrubtes Ausschalten aufgrund der mangelnden Stromversorgung führte im Anschluß dazu das die VM nicht mehr einwandfrei startete und wir auf ein Backup zurückgreifen mussten. Heißt unser Kunde hat ca. einen halben Werktag nicht arbeiten können.

Dieser Fall kann ja theoretisch auch dann eintreten wenn gerade auf den File-Servern usw. gearbeitet wird. Der File-Server scheint mir hier der kritischste zu sein, neben einigen mit Datenbank-Zugriffen. Beim Herunterfahren soll dies wie beispielsweise bei einem Wartungsfenster in einer geordneten Art und Weise passieren.

 

1. Unkritische Systeme (Print-Server, Terminal-Server, Radius-Server, Softwareverteilung, WSUS)

2. Kritische Systeme (File-Server, DCs)

3. ESX Hosts herunterfahren

4. Storage herunterfahren

Der gesamte Prozess aller 4 Schritte dauert ca. 15-20 Minuten.

PowerChute werde ich mir anschauen, mir ist aktuell nur nicht klar wie die Kommunikation läuft bzw. ich dies manuell triggern muss.

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0
vor 9 Stunden schrieb Gast test456:

Der gesamte Prozess aller 4 Schritte dauert ca. 15-20 Minuten.

Aktuell, den Zeitplan dürft ihr mit jeder neuen VM erneut prüfen :)

Wenn Storage und ESXe auch am normalen Stromnetz hängen, wie verhindert ihr ein unkontrolliertes Wiedereinschalten? Also Strom auf Netz weg + USV gibt Abschaltsignal -> dann Strom wieder da. "Meine" Storage schaltet sich ein wenn wieder Netzstrom anliegt, hängt aber zweibeinig an einer USV. Wenn in deiner Konstellation der Netzstrom bei einer hab hochgefahren Storage noch mal ausfällt, was dann?

vor 9 Stunden schrieb Gast test456:

Dieser Fall kann ja theoretisch auch dann eintreten wenn gerade auf den File-Servern usw. gearbeitet wird. Der File-Server scheint mir hier der kritischste zu sein, neben einigen mit Datenbank-Zugriffen.

Echt? Wenn kein Strom da ist, dann fallen doch auch die Clients aus, bzw die Netzwerkkomponenten, wie kann wer da noch zugreifen?

Klar, offene Dateien sind dann halt nicht in der neuen Version gespeichert, aber so lernen User auch, dass Zwischenspeichern ab und an Sinn macht :) Wenn auf die DB in dem Moment nicht zugegriffen wird ist es nicht ganz so schlimm, klar kann was kaputt gehen, aber...

vor 9 Stunden schrieb Gast test456:

Heißt unser Kunde hat ca. einen halben Werktag nicht arbeiten können.

Wenn ihr Kundensysteme habt, schon mal durchgerechnt ob sich ein Notstromdiesel lohnen könnte? Dann muss die USV nur die Zeit zwischen "Strom weg" und Diesel springt an" puffern. Je nachdem welche Verfügbarkeiten mit dem/den Kunden vereinbart sind, könnte das die elegantere Lösung sein.

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0

Für VMware kann man das ganz gut mit der Powershell selber bauen. Da gibt es Cmdlets von VMware. Wenn die VMware-Tools auf den Servern installiert sind, werden die Systeme sauber runtergefahren. Die Logik sieht dann ungefähr so aus:

  • Mit Host verbinden
  • Liste der VMs auslesen
  • Runterfahren der VMs anstoßen (ggf. in mehreren Läufen, um Reihenfolgen zu beachten)
  • In einer Schleife prüfen, ob alles runtergefahren wurden und dann den Host ausschalten.

Jetzt ist nur die Frage, wie das Skript getriggert wird und wo das Skript dann läuft.

Neben dem Fall Stromausfall, solltest du in dem Zusammenhang gleich den Fall "Ausfall der Klimaanlage" mit betrachten. Habt ihr eine Temperaturüberwachung? Wenn es zu warm wird, sollten die Systeme ebenfalls sauber runterfahren. Dabei würde ich mich aber nicht nur auf einen Temperatursensor verlassen, sonder die Messwerte von mindestens zwei Sensoren sinnvoll "kombinieren".

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0

Um die Fragen zu beantworten. Wir haben mehrere Sensoren im Serverraum die auch über das Monitoring entsprechend melden wenn ein Schwellwert überschritten wird. Auch die USV-Systeme selbst melden ihre eigene Temperatur. Die Berücksichtigung beim einem Temperatur-Schwellwert die Systeme herunterzufahren, sollte berücksichtigt werden. Ein guter Hinweis.

Die Switches laufen über eine separaten Stromkreis, diese Stromkreise der Unterverteilung laufen über eine separate USV im Keller. Das heißt natürlich, das im Falle eines Stromausfall die Clients schlagartig aus sind und demzufolge keine weiteren Zugriffe auf den File-Server zu befürchten sind. Offene Sessions wird es natürlich noch ein Weilchen auf dem File-Server geben.

PowerChute hatte ich installiert und findet keine USVs, zudem habe ich die Manual dazu gelesen. Unsere Modelle (Präfix) steht nicht unter den unterstützen Systemen.

 

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0
vor 52 Minuten schrieb Gast test456:

PowerChute hatte ich installiert und findet keine USVs, zudem habe ich die Manual dazu gelesen.

Ich gehe davon aus, dass Du PowerChute Business Edition o.Ä. in einer der Windows-VMs installiert hast, richtig? Falls ja, ist das ja auch nicht das richtige für dich. Das richtige wäre PowerChute Network Shutdown, welches als virtuelle Appliance eingerichtet wird und dann sowohl Verbindung zur USV als auch zum vCenter Server/den ESXi-Hosts aufnimmt. Wenn dann der Strom ausfällt, kann eingestellt werden, dass die VMs herunterfahren sollen, anschließend die VMWare-Hosts und dass ggf. noch ein SSH-Script die Storage herunterfährt.

Da Du aber schon solche elementaren Dinge nicht selbst herausfinden kannst, sollte das ggf. jemand machen, der sich damit auskennt und dir dann auch das Wissen vermittelt, wie das zukünftig administriert wird.

Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 0

Ich hatte PowerChute Business installiert, das ist richtig weil ich nur nach PowerChute gesucht habe und mir entweder nur die Personal bzw. Business Edition vorgeschlagen wurde. Das es PowerChute Network Shutdown gibt, war mir so nicht klar.

 

Zitat

Da Du aber schon solche elementaren Dinge nicht selbst herausfinden kannst, sollte das ggf. jemand machen, der sich damit auskennt und dir dann auch das Wissen vermittelt, wie das zukünftig administriert wird.

Was willst du mir hiermit unterschwellig mitteilen. Sollte ich eher ohne Wissen und ohne Fragen zu stellen einfach drauf los hantieren, ist das die bessere Option? Ist es nicht Sinn eines Forums, das ein Austausch stattfindet und Experte kann man in der IT nicht auf jedem Gebiet sein. 

Link zu diesem Kommentar
Auf anderen Seiten teilen

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Diese Frage beantworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...