Data Redundant Plan

ZFS时代FreeBSD系统的数据冗余策略

2008-04-08 20:06 | Security | #data redundant plan | #zfs

2008硬盘磨损年！

我相信很多人都遇到过硬盘卡壳、掉链子的情况。当然，这篇文档的主旨不是告诉你怎么样可以绕过那些老爷子写的课本上说的金科玉律──重要的数据都应该有备份──如果你的数据最终丢失了，那么我的问题是：你的备份呢？

但是，即使你有经常备份的习惯，有些数据还是会难免出现一些没有及时备份而导致丢失的情况。我的观点是，没有备份计划的数据都不是重要数据，不要等到数据丢失了再去后悔，但是我们显然应该采取各种各样的手段来阻止没有及时备份的那一小部分数据的丢失。

硬盘

大家一起默念：它很便宜！它会坏掉！

是的，实战经验会告诉你，它很便宜！它也会坏掉！不管这个硬盘是来自什么厂商，也不管它是SATA、SCSI、SAS或者是传统的ATA接口，它出现故障只是时间早晚的问题。

为了解决这个问题，人们提出了廉价磁盘冗余阵列（RAID）的概念。例如，使用两块相同容量的磁盘组成 RAID-1 (MIRROR) 阵列，可以在其中任意一块出现问题时，从另一块中取出数据。而如果有至少3块硬盘，便可以组成 RAID-5 （注：还有其他RAID级别可以用3块硬盘组成冗余结构），只损失 1/n 的容量（n为硬盘数量）来得到带冗余的存储，使得存储可靠性得以提高。

除了改善可靠性之外，RAID还可以用来改善读写性能。例如用多块硬盘组成 RAID-0 阵列，可以将读写性能提高 n 倍，等等。我们并不讨论这些RAID级别。

不幸会发生

和很多人已经想到的一样──不要高兴的太早……

带数据冗余的 RAID 的一个基本假设是，磁盘是不骗人的，它有两种状态：好、坏，并且，主机（或RAID控制器）能够可靠地识别这种状态。

很不幸，这句话只对了一半。一块磁盘要么是好的、要么是坏的（这里，“坏的"的定义是读写时会发生任何错误），但是主机未必能够识别这种状态。

更为严重的是，有些时候主机甚至连读出来的数据是否是正确的这件事都不知道！当你发现自己的程序在其它机器上都很正常，但是在某台机器上总是神秘的崩溃的时候，你就要看看是不是那台机器的内存或者其他存储器出现问题了。

阅读全文…( 本文约 3066 字，阅读大致需要 7 分钟 )