UPS

Postmortem: UPS 测试导致系统停机故障的事后回顾

摘要

事故影响

由于 UPS 测试触发了系统停机,导致 delphij.net 部分服务停止了约40分钟。服务从 2023-01-16 15:46:20 开始受到影响,至 16:26:55 完全恢复。 如果服务未能及时修复,潜在地将会进一步影响包括权威DNS(有多个独立的冗余,但依赖于持续的数据更新)在内的一些其他关键服务。

问题根源

在测试时对于 CyberPower UPS 测试特性的认识不足导致电池电量消耗至临界值, 由于对 nut 的配置未考虑这种情况直接将服务器关闭, 这使得必须亲自到机房才能完成服务的恢复。

阅读全文…( 本文约 2384 字,阅读大致需要 5 分钟 )

试试看 CyberPower UPS

因为机房家里 之前发生过一些停电的问题,因此这两处我都放了UPS。

UPS使用的铅酸电池是有一定寿命的,机房这台UPS是2016年5月上线的(当时是觉得已经到了5年,应该换掉了; 而当时查看价格发现购买一个UPS电池自己更换的原材料价值和买一个新的差不多,于是就直接整体换成了 APC BE600)。

阅读全文…( 本文约 1365 字,阅读大致需要 3 分钟 )

又买了一台 APC BE550G

| Hardware | #APC | #UPS | #hardware | #power

因为家里最近发生了几次停电,我觉得 Enough is enough。

决定还是再买一台 APC BE550G 来扛家里的网络基础设施。

配置和两年前在大河用的那台 一样

参与评论

配合 APC BE550G UPS 的 apcupsd 配置

| Hardware | #APC | #UPS | #apcupsd | #hardware | #power management

APC BE550G 是一种廉价的UPS,支持以 USB 线通知被保护的系统或查询状态。

在 FreeBSD 上可以用 apcupsd 来配合 USB 通知使用。

去年大河发生过一次停电事故,所以买了一个 UPS 来配合自己的机器;今天大河又来了一次大约90分钟的停电,算是完成了对 UPS 的完整测试。

阅读全文…( 本文约 657 字,阅读大致需要 2 分钟 )