Da ich letzte Woche etwas zu OpsWorks geschrieben habe und die besten Server nichts bringen ohne ein vernünftiges Monitoring, werde ich euch heute zwei arten von Monitoring zeigen. Hauptsächlich geht es hierbei natürlich um Cloudwatch, dennoch möchte ich euch auch zeigen, wie gut man mit dem Monitoring von OpsWorks direkt schon pro Server und pro Layer Fehler entdecken kann.
Wenn ihr in der Oberfläche eurer Amazon Konsole seid, seht ihr in der Mitte den Punkt Cloudwatch. Hier kann man nun diverse Alarms einstellen um sein System zu überwachen. Wie das genau funktioniert und wie ich es privat benutze, zeige ich euch hier nun. Wir überprüfen zum Beispiel heute mal unsere RDS Datenbank. Normal muss man dort ja nichts drüber wissen denkt ihr euch? Falsch! Wir sollten dennoch immer im Blick haben, welche Auslastung unsere RDS hat. Außerdem wenn der Speicherplatz langsam zur neige geht, wäre auch sehr Fatal. Gehen wir also nun auf Create Alarm. Bei Metric stellen wir nun ein, dass wir die RDS Instanzen nur sehen wollen und sehen direkt, was wir abfragen können und Alarme erstellen können. Wir wollen erstmal wissen, wieviel Platz wir immer auf unserer Platte haben, also FreeStoragePlace Trigger und weiter. Wenn man den Trigger schon anklickt, sieht man direkt unten einen Graph, der auch später im Dashboard angezeigt wird. Klicken wir also auf NEXT und wir sehen unseren Alarm. Hier kann man rechts(hier sollte man eigentlich anfange) die Periode einstellen auf den Wert, wie oft der Server überprüft werden soll. Wir haben bei Festplattenspeicher 5 Minuten gelassen, jedoch bei CPU/RAM sollte man hier gleich am Anfang auf 1 Minute stellen. Der Rest ist eigentlich für jeden Entwickler und Sysadmin das einfachste überhaupt. Eine simple Abfrage If DiskSpace >= oder <= oder =... dann folgendes machen. Man kann Notifications senden bei Alarm/Ok/Insufficient. Der letzte Wert ist eigentlich bisher bei uns noch nie eingetroffen, da dies nur beim Einrichten des Triggers der Fall ist.
Was hierbei wichtig ist, es wird die Notification ein mal getriggert, wenn der Alarm/OK Status gesetzt wurde. Also sollte man hierbei auch eine Notification(email/whatever) senden lassen. So bekommt ihr sofort mit, wenn der Speicher ausgeht und wieder OK ist. So braucht man nicht unbedingt immer die Graphen im Blick haben. Vorallem für Bereitschaft ist dies eine sehr gute Sache, um die Systeme überprüfen zu lassen