Ein Artikel von Dotcom-Monitor “Koffeinhaltige DNS-Überwachung und der AT&T-DNS-Ausfall“, die am 15. August 2012 in SpeedAwarenessMonth.com zum Ausfall des AT&T Domain Name Servers (DNS) veröffentlicht wurde, zeigt, warum eine nicht zwischengespeicherte Methode der DNS-Überwachung zu einer schnelleren Reparaturzeit (TTR) und sogar zu null Ausfallzeiten aufgrund des DNS-Problems führt.
Der vollständige Artikel ist unter SpeedAwarenessMonth.com verfügbar, die Grundlagen umfassen jedoch:
To Cache or Not-to-Cache – das ist die DNS-Monitoring-Frage
Erstens ist es nicht allgemein bekannt, dass externes HTTP-Request-Type-Website-Monitoring, wie z. B. Kaffee in Ihrem lokalen Java-Joint, in verschiedenen “Graden” erhältlich ist – Cache-basiert und nicht-Cache-basiert. Dotcom-Monitor verwendet eine nicht zwischengespeicherte Überwachung, die sich mit jeder Überwachungsinstanz über den gesamten DNS-Prozess ausbreitet. Die Cache-basierte Überwachung (die von vielen grundlegenden Überwachungsdiensten verwendet wird) wird nicht durch den DNS-Prozess weitergegeben und übersieht DNS-Probleme.
So überwachen Sie effektiv die nächste DNS-Ausfallsituation
Im Falle des AT&T-DNS-Ausfalls gibt es mehrere Schlüsselfaktoren, die dazu beitragen, die Reparaturzeit (Time-to-Repair, TTR) zu beschleunigen oder Ausfallzeiten zu vermeiden:
- Fehlererkennungsmethode: Verwenden Sie eine Überwachungslösung, die eine Nicht-Cache-Methode verwendet, um DNS-Abfragen mit jeder Überwachungsinstanz bis hin zu Root-Nameservern weiterzugeben. Ein Cachemethodendienst speichert DNS im Cache und erkennt daher überhaupt kein sekundäres DNS-Problem, oder es kann Tage oder sogar Wochen dauern, bis das Problem erkannt wird.
- Häufigkeit der Überwachung: Verwenden Sie eine schnellere Häufigkeit der Nicht-Cache-Überwachung, z. B. alle 1 Minute im Vergleich zu einmal pro Stunde. Je schneller die Nicht-Cache-Überwachungslösung einen betroffenen Administrator einer Website erkennt und warnt, die einen fehlerhaften DNS-Dienst verwendet, desto schneller kann zu einem DNS-Failover-Anbieter gewechselt werden.
- Wert der TTL-Einstellung (Time-to-Live): Je kleiner der Wert der TTL-Einstellung ist, die vom DNS-Administrator verwendet wird, um das IP-Caching einer Domäne vom primären autorisierenden Namenserver beizubehalten, desto schneller kann das Failover zu einem anderen DNS-Anbieter implementiert werden. In der Regel ist die TTL auf 86.400 Sekunden (1 Tag) oder mehr festgelegt und kann bei der Notfallwiederherstellungsplanung nur einmal alle 300 Sekunden festgelegt werden, aber je niedriger die Einstellung, desto höher ist die Auslastung des autorisierenden Domänennamenservers.
- Die Diagnose – wie z. B. eine automatische Trace-Route zum Zeitpunkt des erkannten DNS-Problems – wird von der Überwachungslösung bereitgestellt (beachten Sie, dass viele grundlegende Überwachungsdienste keine Diagnoseinformationen bereitstellen).
- Reparatur: Setzen Sie die Überwachung während des Fehlerzustands fort, um das Problem genauer zu lokalisieren. Senden Sie die überwachten Ergebnisse an Ihren DNS-Anbieter. Sie können auch kostenlose manuelle DNS-Trace-Routen auf www.dotcom-monitor.com/WebTools/trace.asp ausführen (wählen Sie den Trace-Stil “DNS”), um das Problem bei Bedarf zu überprüfen.
- Vorbeugen: Behalten Sie DNS-Probleme mit “weichen Fehlern” im Auge, wie z. B. DNS-Verlangsamungen und zeitweilige DNS-Ausfälle, damit Sie Maßnahmen ergreifen können, bevor der “weiche Fehler” zu einem “harten Fehler” wird, z. B. wenn ein Kunde mit Ausfallzeiten konfrontiert ist.
Danke, ich nehme die koffeinhaltige doppelte Wasserbombe, nicht zwischengespeichert
Es ist also klar, dass eine Kombination aus Nicht-Cache und anderen Faktoren die Ausfallzeiten aufgrund von Problemen wie dem AT&T DNS-Ausfall vom 15. August 2012 begrenzt. Darüber hinaus ist eine nicht zwischengespeicherte Methode der DNS-Überwachung ein entscheidender Faktor für eine schnellere TTR und sogar für keine Ausfallzeiten.
Schließlich ist es wichtig, sich daran zu erinnern, dass TTR den Verlust aufgrund von Ausfallzeiten bestimmt. Mit anderen Worten: Je länger die Gesamtzeit dauert, um ein DNS-Problem zu erkennen, zu diagnostizieren und zu beheben, desto schlimmer sind die Auswirkungen des DNS-Problems. Umgekehrt gilt: Je schneller eine Überwachungslösung die TTR beschleunigt, desto mehr wird der Verlust reduziert oder ganz vermieden.
Ähnlich wie bei einer guten, starken Tasse koffeinhaltigem Kaffee kann eine Nicht-Cache-Methode den Unterschied zwischen einem Ausfalltag und einem schnellen, produktiven Tag ausmachen.
Weitere Informationen zum AT&T DNS-Ausfall finden Sie in unserem Artikel Doing DNS Monitoring Right: The AT&T DNS Outage.