2012年8月15日的AT&T域名服务器(DNS)中断说明了为什么“非基于缓存”的网站监控方法对于关键任务网站很重要。 首先,回顾一下。 最常见的基本网站监控形式是使用合成浏览器(而不是实际浏览器)执行的,该浏览器通过HTTP请求进程连接到目标服务器。 通过使用使用 HTTP 请求过程的综合浏览器来检查许多以服务器为中心的过程,例如目标服务器的可用性、从服务器加载网站的 HTML 文件所需的时间以及检测 HTML 文件中关键字的能力。
缓存还是不缓存 – 这是个问题
然而,关于基本的合成HTTP监控方法,人们通常不为人所知的是,网站监控公司可以选择使用“缓存”或“非缓存”方法。 监测服务部门对方法的选择 直接影响其检测辅助DNS服务器上问题的能力,例如发生的AT&T DNS中断 2012年8月15日。 一方面,基于缓存的方法对于监控业务来说要简单得多,并且设置和管理成本更低。 事实上,大多数低成本的“基本”正常运行时间监控服务都使用“缓存方法”。
我会接受非缓存,谢谢
然而,肮脏的小秘密是缓存的监控方法不如非缓存解决方案准确(从长远来看也不具有成本效益)。 为什么? 原因很简单,基于缓存的方法甚至无法检测到辅助DNS问题。
稍微复杂一点的原因更长,但真正抓住了良好监控的全部内容——避免停机。
具体来说,非缓存更具成本效益的原因是,当像AT&T DNS中断这样的问题总是发生时 – 就像发生任何网站错误情况时 – 它是总修复时间 (TTR) 确定停机造成的损失。 换句话说,检测、诊断 和 修复错误所需的总时间 (1) 越严重。 相反,监控解决方案加快TTR的速度越快,损失就越少(或完全避免)。
如何有效监控下一次AT&T DNS中断情况
在AT&T DNS中断问题的情况下,有几个关键因素决定了修复时间:
– 错误检测方法:使用使用非缓存方法的监视解决方案将 DNS 查询一直传播到每个监视实例的根名称服务器。 缓存方法服务缓存 DNS,因此根本不会检测到辅助 DNS 问题,或者可能需要几天或几周才能检测到问题。
-监视频率:使用更快的非缓存监视频率,例如每 1 分钟一次,而不是每小时一次。 非缓存监视解决方案检测受影响的管理员的速度越快,并使用失败的 DNS 服务向受影响的管理员发出警报,切换到 DNS 故障转移提供商的速度就越快。
– 生存时间 (TTL) 设置的频率:DNS 管理员用于将 DNS 缓存设置为主权威名称服务器中域名的辅助 DNS 服务器的生存时间 (TTL) 频率设置的值越小。 通常设置为 86,400 秒(1 天)或更长时间,在灾难恢复计划中,TTL 可以设置为每 300 秒一次,但设置越低,权威域名服务器上的负载就越高。
– 诊断 – 例如检测到 DNS 问题时的自动跟踪路由 – 由监视解决方案提供(大多数基本监视服务不提供任何诊断信息)
-修复:在错误情况下继续监控解决方案,以进一步查明问题。 将受监视的结果发送给您的 DNS 提供商。 您还可以 在此处 运行免费的手动 DNS 跟踪路由(选择跟踪样式“DNS”),以根据需要验证问题。
-阻止:使用允许您查看 DNS 查找详细信息的监视解决方案(例如 实际浏览器监控) 以查看“软错误”,例如速度减慢的趋势和间歇性问题,以便您可以在“软错误”变成“硬错误”(例如客户面临停机)之前采取措施。
(1) 根据参与 2011 年 9 月核心预算资源委员会研究的组织,这些组织将解决性能问题所花费的时间确定为他们面临的最大挑战,“平均而言,每个月在作战室环境中花费的工时(46.2 小时)超过一整周。