delphij's Chaos

如何：重建根 zpool

Mon, 22 Apr 2024 21:25:54 -0700

delphij's Chaos https://blog.delphij.net/posts/2024/04/recreate-rpool/ -

这篇和较早的线上重做 FreeBSD GPT 引导分区情况有些类似，但略有不同。

前段时间 Andriy Gapon 为 Samsung 860 / 870 SSD 增加了一个 quirk。 Samsung 的 SSD 内部使用的是 8K 或 16K 的存储页，但为了和业界标准兼容，它的控制器为 4K 扇区做了优化。

当然这不是重点，重点是我老人家当年创建根存储池（纯爷们当然要从 ZFS 存储池启动系统）时，竟然忘记了设置 ashift，而由于当年这个 SSD 汇报的扇区尺寸是 512 字节，因此 ZFS 也就愉快地创建了一个 512 字节扇区的根存储池。而经过改进之后，现在 GEOM 会正确地汇报扇区尺寸了：

$ geom disk list ada1
Geom name: ada1
Providers:
1. Name: ada1
 Mediasize: 1000204886016 (932G)
 Sectorsize: 512
 Stripesize: 4096
 Stripeoffset: 0
 Mode: r3w3e6
 descr: Samsung SSD 860 EVO 1TB
 lunid: XXXXXXXXXXXXXXXX
 ident: XXXXXXXXXXXXXXX
 rotationrate: 0
 fwsectors: 63
 fwheads: 16

这样一来， zpool status 就会汇报：

status: One or more devices are configured to use a non-native block size.
 Expect reduced performance.
action: Replace affected devices with devices that support the
 configured block size, or migrate data to a properly configured
 pool.

根存储池并不会经常读写，但看着实在是逼死强迫症，我觉得得做点什么。

备份我是做了的，而且我确定备份不是上回书小故事里的那样。我不特别介意重装一遍，但是毕竟这得花更多的时间，而且因为我在笔记本上跑的是 -CURRENT，还需要做一个启动的 U 盘，稍微有些麻烦。综合考虑了碎片、压缩等其他因素，我决定重建一个根存储池，这样恰好把顺便数据整体重写一次（而不是做mirror）。

由于我的习惯是分配一个比较大（通常是和RAM相同尺寸的）的加密swap分区。现时的内存通常远大于根 pool 的尺寸，因此可以把 swap 分区挪用来做临时存储空间。

首先是把加密的 swap 分区关闭：

$ sudo swapoff -a

然后是把swap分区尺寸改小：

$ sudo gpart show ada1
=> 40 1953525088 ada1 GPT (932G)
 40 262144 1 efi (128M)
 262184 8388608 2 freebsd-zfs (4.0G)
 8650792 67108864 3 freebsd-swap (32G)
 75759656 1877765472 4 freebsd-zfs (895G)
$ sudo gpart resize -i 3 -s 28g ada1
$ sudo gpart add -t freebsd-zfs ada1

这样我们获得了一个新的、同样是 4GB / 8388608 扇区的 ada1p5。

将新设备作为 mirror 插入到根存储池，并拆下原先的 ada1p2：

$ sudo zpool attach p51-boot ada1p2 ada1p5
$ sudo zpool scrub p51-boot
$ zpool status p51-boot # 到scrub做完为止
$ sudo zpool detach p51-boot ada1p2

这样我们就把 p51-boot 存储池挪到了 ada1p5 上面。为了防止 zpool 再创建出 ashift=9 的存储池，修改 vfs.zfs.vdev.min_auto_ashift：

$ sudo sysctl vfs.zfs.min_auto_ashift=12

在 ada1p2 上重建根存储池：

$ sudo dd if=/dev/random of=/dev/ada1p2 bs=1m # 抹去原来的数据，just in case
$ sudo zpool create -m none -o altroot=/tmp/1 -O atime=off -O setuid=off \
 -O compression=zstd -O canmount=off -O checksum=skein p51-boot2 /dev/ada1p2
$ sudo zfs create -o mountpoint=none p51-boot2/ROOT
$ sudo zfs create -o setuid=on -o mountpoint=legacy p51-boot2/ROOT/default

在原存储池上打一个快照以方便复制。

$ sudo zfs snapshot -r p51-boot2@20240422

（此处我是对整个存储池做了快照，但实际上我们只需要 ROOT/default 这一个文件系统，因此实际上也可以只快照它）

将快照复制到新的存储池：

$ sudo zfs send p51-boot/ROOT/default@20240422 | \
 sudo zfs receive -F -v -x compression p51-boot2/ROOT/default
$ sudo zfs destroy p51-boot2/ROOT/default@20240422

我之前使用的是 compression=on (lz4) 压缩，而新的存储池使用了 zstd。FreeBSD 支持从启用了这两种压缩算法的存储池引导系统，因此在接收快照时排除 compression 属性，直接使用本地的新值，这样重写时会以新的压缩算法重新压缩一遍。

我们可能需要修改一些东西。例如，我这个根存储池是从更早的旧式设计中迁移过来的，因此我的 /etc/fstab 中明确指定了 / 是来自 p51-boot （后来改成了 Boot Environment 风格的 p51-boot/ROOT/default）。现时已经不再需要明确指定（EFI引导加载器会根据 bootfs 正确设置），以及我们希望更新一下 /boot/zfs/zpool.cache 之类，所以挂载一下新的 /：

$ sudo mount -t zfs p51-boot2/ROOT/default /mnt
# 编辑必要的文件，例如删去 /etc/fstab 中关于 / 的定义，等等

这样基本上就做完迁移了，由于接下来的那次引导时引导加载器将看到两个未加密的 ZFS 存储池，因此有必要明确我们希望从 p51-boot2 启动系统：

$ sudo zpool set bootfs=p51-boot2/ROOT/default p51-boot2
$ sudo zpool set bootfs= p51-boot

重启，确定我们是从 p51-boot2 引导的系统之后就可以把原来的 p51-boot 删除掉了。我们顺便把加密swap分区归位：

$ sudo zpool destroy p51-boot # 毁掉原来的根存储池
$ sudo dd if=/dev/random of=/dev/ada1p5 bs=1m # 抹去临时分区的数据，防止数据泄漏。
$ sudo swapoff -a # 卸下加密swap分区
$ sudo gpart delete -i 5 # 删去临时的分区
$ sudo gpart resize -i 3 ada1 # 不指定size表示充满此区域
$ sudo service swaplate start # 重新挂上swap分区

重启确认一下系统还能动，特别提醒，为了避免这一环节成为深夜提神节目，做本文所描述的任何操作之前，请务必确认一下备份是完整的，勿谓言之不预。

- https://blog.delphij.net/posts/2024/04/recreate-rpool/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

postfix 的 SNI 支持与 gmail 的兼容问题

Tue, 19 Mar 2024 21:37:09 -0700

delphij's Chaos https://blog.delphij.net/posts/2024/03/postfix-sni-gmail/ -

今天在家里的票务系统上修改某个票的状态（该操作会出发点一封邮件）时，我正好另一个窗口开着邮件服务器的日志，观察到一些奇怪的现象：

Mar 19 20:17:12 XXXXXX postfix/smtp[XXXXX]: certificate verification failed for
 gmail-smtp-in.l.google.com[2607:f8b0:4023:1c03::1a]:25: self-signed certificate
Mar 19 20:17:12 XXXXXX postfix/smtp[XXXXX]: Untrusted TLS connection established
 to gmail-smtp-in.l.google.com[2607:f8b0:4023:1c03::1a]:25: TLSv1.3 with cipher
 TLS_AES_256_GCM_SHA384 (256/256 bits) key-exchange X25519 server-signature RSA-PSS
 (2048 bits) server-digest SHA256
Mar 19 20:17:12 XXXXXX postfix/smtp[XXXXX]: XXXXXXXXXX: Server certificate not verified
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: certificate verification failed for
 gmail-smtp-in.l.google.com[142.250.142.26]:25: self-signed certificate
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: Untrusted TLS connection established
 to gmail-smtp-in.l.google.com[142.250.142.26]:25: TLSv1.3 with cipher TLS_AES_256_GCM_SHA384
 (256/256 bits) key-exchange X25519 server-signature RSA-PSS (2048 bits) server-digest SHA256
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: XXXXXXXXXX: Server certificate not verified
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: certificate verification failed for
 alt1.gmail-smtp-in.l.google.com[142.250.115.27]:25: self-signed certificate
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: Untrusted TLS connection established
 to alt1.gmail-smtp-in.l.google.com[142.250.115.27]:25: TLSv1.3 with cipher
 TLS_AES_256_GCM_SHA384 (256/256 bits) key-exchange X25519 server-signature RSA-PSS
 (2048 bits) server-digest SHA256
Mar 19 20:17:13 XXXXXX postfix/smtp[XXXXX]: XXXXXXXXXX: Server certificate not verified
Mar 19 20:17:14 XXXXXX postfix/smtp[XXXXX]: certificate verification failed for
 alt1.gmail-smtp-in.l.google.com[2607:f8b0:4023:1004::1b]:25: self-signed certificate
Mar 19 20:17:14 XXXXXX postfix/smtp[XXXXX]: Untrusted TLS connection established to
 alt1.gmail-smtp-in.l.google.com[2607:f8b0:4023:1004::1b]:25: TLSv1.3 with cipher
 TLS_AES_256_GCM_SHA384 (256/256 bits) key-exchange X25519 server-signature RSA-PSS
 (2048 bits) server-digest SHA256
Mar 19 20:17:14 XXXXXX postfix/smtp[XXXXX]: XXXXXXXXXX: Server certificate not verified
Mar 19 20:17:14 XXXXXX postfix/smtp[XXXXX]: Verified TLS connection established to
 alt2.gmail-smtp-in.l.google.com[2607:f8b0:4003:c15::1b]:25: TLSv1.3 with cipher
 TLS_AES_256_GCM_SHA384 (256/256 bits) key-exchange X25519 server-signature ECDSA
 (prime256v1) server-digest SHA256
Mar 19 20:17:15 XXXXXX postfix/smtp[XXXXX]: XXXXXXXXXX: to=<XXXXXXX@gmail.com>,
 relay=alt2.gmail-smtp-in.l.google.com[2607:f8b0:4003:c15::1b]:25, delay=2.8,
 delays=0.06/0.1/2/0.66, dsn=2.0.0, status=sent (250 2.0.0 OK XXXXXXXXXX
 XXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.XX - gsmtp)

这里需要补充说明一下背景。由于 gmail 很早就实现了 TLS，因此我在 postfix 中配置了强制 TLS，具体做法是这样的：

# 我的服务器的向外连接时使用的 TLS 证书文件，用于说明自己的身份
smtp_tls_cert_file = /usr/local/etc/ssl/XXX.crt
smtp_tls_key_file = /usr/local/etc/ssl/XXX.key

# 系统认可的CA根证书（来自 Mozilla 的 nss 里的 CA root），用于在需要时验证对方证书
smtp_tls_CAfile = /usr/local/share/certs/ca-root-nss.crt

# 协商时只允许 high 级别的加密
smtp_tls_ciphers = high

# 允许对方 DNSsec 签名的 DANE 记录
smtp_tls_security_level = dane

# 分域名的TLS策略
smtp_tls_policy_maps = hash:/usr/local/etc/postfix/maps/tls_policy

然后我的 tls_policy_maps 配置大致是这样的：

gmail.com verify
yahoo.com verify
outlook.com verify
google.com verify
.google.com verify
googlemail.com verify
.googlemail.com verify
[...]
freebsd.org dane-only
.freebsd.org dane-only

这是因为主流的邮件服务提供商普遍没有启用 DANE，但他们的 TLS 证书配置通常是正确的。 FreeBSD.org 以及一些其他机构正确配置了 DANE，因此使用更强的 dane-only （要求对方必须使用 DANE 记录）策略。对于其他域名，则使用上面的 dane 策略：有 DANE 记录则使用 DANE 进行验证，没有的话则尝试 TLS 并记录验证结果，如果失败则用明文传送。

总体上，上述策略的目标是避免发送邮件给无关的第三方邮件服务器，具体来说：

在向主流邮件服务提供商发送邮件时，验证其 TLS 证书确实与 mx 记录中的主机名匹配，并且由某一受信赖的 CA 签发
对于我认识的启用了 DANE 的域名，验证其证书与 DANE 指定的匹配。
对于我不认识但是启用了 DANE 的域名，验证其证书与 DANE 指定的匹配。
对于其他域名，尝试 TLS 并记录验证结果，如果失败则用明文传送。

从现象上看，发生错误的原因是在给 gmail.com 发信时，邮件系统与 gmail.com 的 MX 进行 TLS 握手并要求对方提供证书，而出于某种原因该证书是自签名的。gmail.com 没有启用 DANE，由于我指定了这些域名使用更强的 verify 而不是推荐的 may，因此系统拒绝向这些 MX 投递邮件。直到最后， alt2.gmail-smtp-in.l.google.com 提供了一个可以验证的证书，因此邮件最终投递成功。

提高 postfix 的 smtp TLS 日志级别：

# postconf -e smtp_tls_loglevel=2
# postfix reload

然后再次尝试投递，发现：

Mar 19 20:43:04 XXXXXX postfix/smtp[XXXXX]: gmail-smtp-in.l.google.com[173.194.65.27]:25:
 depth=0 verify=0 subject=/OU=No SNI provided; please fix your client./CN=invalid2.invalid

具体来说，这个证书的内容是：

翻译成便于人类理解的内容：

$ openssl x509 -in /tmp/saved.cer -text -noout
Certificate:
 Data:
 Version: 3 (0x2)
 Serial Number:
 90:76:89:18:e9:33:93:a0
 Signature Algorithm: sha256WithRSAEncryption
 Issuer: OU = "No SNI provided; please fix your client.", CN = invalid2.invalid
 Validity
 Not Before: Jan 1 00:00:00 2015 GMT
 Not After : Jan 1 00:00:00 2030 GMT
 Subject: OU = "No SNI provided; please fix your client.", CN = invalid2.invalid
 Subject Public Key Info:
 Public Key Algorithm: rsaEncryption
 Public-Key: (2048 bit)
 Modulus:
 00:cd:62:4f:e5:c3:13:84:98:0c:05:e4:ef:44:a2:
 a5:ec:de:99:71:90:1b:28:35:40:b4:d0:4d:9d:18:
 48:81:28:ad:5f:10:b3:2a:db:7d:ae:9d:91:1e:42:
 e7:ef:aa:19:8d:d3:4e:db:91:0f:a7:e4:20:32:25:
 94:fe:b9:24:07:4d:18:d7:c3:9a:87:0e:5f:8b:cb:
 3e:2b:d7:51:bf:a8:be:81:23:a2:bf:68:e5:21:e5:
 bf:4b:48:4e:b3:05:14:0c:7d:09:5c:59:04:3c:a2:
 0b:ce:99:79:30:be:f0:76:9e:64:b7:dd:ef:1f:16:
 bb:1e:cc:0e:b4:0c:44:cf:65:ad:c4:c7:5e:ce:6f:
 f7:0a:03:b7:b2:5b:36:d3:09:77:5b:4d:e2:23:e9:
 02:b7:b1:f2:be:11:b2:d9:a4:4f:2e:12:5f:78:00:
 69:42:bd:14:92:ed:ea:ea:6b:68:9b:2d:9c:80:56:
 b0:7a:43:7f:5f:f6:87:f0:a9:27:5f:bf:7d:30:f7:
 2e:5a:eb:4c:da:af:3c:9a:d5:04:06:cb:99:9b:2d:
 a7:b2:32:bd:27:bf:f2:86:10:91:0f:33:95:ff:26:
 3c:73:9f:a5:fe:ef:eb:5a:ec:30:91:9d:a5:83:31:
 a9:e3:10:41:7e:15:dd:af:af:a6:f6:49:b0:58:25:
 26:f5
 Exponent: 65537 (0x10001)
 X509v3 extensions:
 X509v3 Key Usage: critical
 Digital Signature, Key Encipherment, Certificate Sign
 X509v3 Extended Key Usage:
 TLS Web Server Authentication, TLS Web Client Authentication
 X509v3 Basic Constraints: critical
 CA:TRUE
 X509v3 Subject Key Identifier:
 BB:0F:38:96:6F:3E:BE:4F:2B:46:D0:41:6A:D4:AC:B5
 Signature Algorithm: sha256WithRSAEncryption
 Signature Value:
 b9:d9:e2:54:5c:f5:61:ed:69:f3:b8:63:ed:03:5a:9e:2a:81:
 27:5a:1b:28:33:4b:fc:2d:71:13:fe:4b:65:7e:1c:53:82:79:
 80:e6:79:9f:6a:b3:45:a9:36:5a:ed:c9:e0:4a:cc:11:fc:84:
 eb:7d:cb:c6:94:6d:90:70:d8:cd:45:d8:c8:b6:dd:0f:9d:84:
 01:14:7d:00:8e:29:b2:13:b6:e9:c1:b9:57:c3:4d:36:c0:1d:
 4b:8d:97:f7:b2:af:bf:2f:f0:48:22:d7:7d:f3:ef:35:60:c9:
 d5:46:d4:a0:34:00:e4:82:07:e0:7a:e6:09:5b:a7:1f:b1:30:
 2a:60:64:bb:b1:f5:31:f2:77:08:37:b4:fa:3f:2d:f6:1b:44:
 2a:1f:f8:c6:fc:23:76:42:63:d3:ba:15:f6:46:8e:ec:49:9f:
 ed:2e:c7:74:83:a2:b6:b7:35:7f:c5:98:9f:a2:91:30:93:b0:
 cb:48:15:68:47:de:1a:32:60:06:a6:38:eb:88:4e:93:d9:1c:
 3e:f2:3f:49:5f:6e:e9:dc:18:31:2a:01:0b:b6:61:66:d8:c5:
 18:b1:7e:ad:95:4b:18:2f:81:66:c5:72:69:20:04:b6:29:13:
 c8:83:59:3d:ca:76:5b:a8:d7:ee:8f:1d:a0:da:2e:0d:92:69:
 c3:98:e8:6a

Hmm… 所以问题出在我没有正确告知对方自己尝试连接的 SNI 名字。仔细读了一下 postfix 的文档，发现 postfix 出于兼容性考虑（坦率地讲，如果做 verify 的话，我其实希望尽量不兼容配置有问题的服务器），在没有 DANE 的时候是不发出 SNI 名字的：

Some SMTP servers use the received SNI name to select an appropriate certificate
chain to present to the client. While this may improve interoperability with such
servers, it may reduce interoperability with other servers that choose to abort
the connection when they don't have a certificate chain configured for the requested
name. Such servers should select a default certificate chain and continue the
handshake, but some may not. Therefore, absent DANE, no SNI name is sent by default.

所以解法就是让 postfix 在 verify 的时候提供一个 SNI 名字，具体来说是把上面 tls_policy 中的 verify 替换为 verify servername=hostname （相当于指定 smtp_tls_servername=hostname，但仅对这几个域名生效。 hostname 的意思是使用 DNS 解析得到的 MX 的主机名），并重建 tls_policy 的 hash db。

这之后发送邮件到 gmail.com 就正常了。

根据日志，似乎 gmail 是今天早上太平洋时间 06:00 到 09:17 部署的这个新的变动（对于不认识或没有提供 SNI 域名的客户端，在 TLS 握手时送出一个 CN=invalid2.invalid 的自签名证书）。

我暂时还不太理解这么做的好处是什么。客户端发出 SNI 名字时，服务器使用的是一个采用 P-256 的公钥的证书，而客户端没有这么做时（postfix 的默认配置如此，大部分人恐怕也不会像我这样吃饱了撑的配置成 verify，因此很可能根本不会注意到这个问题），服务器使用的是一个 2048-bit RSA 的公钥的自签名证书，而通常的观点认为 P-256 大致相当于 3072-bit RSA。

- https://blog.delphij.net/posts/2024/03/postfix-sni-gmail/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

备份小故事一则

Fri, 16 Feb 2024 23:42:46 -0800

delphij's Chaos https://blog.delphij.net/posts/2024/02/story-about-backup/ -

原载于 Telegram 频道。

今天来讲个关于备份的小故事。

以前有个同事之前在某使用UNIX的传统行业干了多年，他们的系统可用性要求不算高，但数据非常重要，所以备份自然也是必不可少的。为了确保备份的安全性，他们还雇了一家专门的保全公司定期把备份磁带从办公室拿走到该保全公司的仓库。

一切看起来万无一失，直到有一天他们的系统出现了问题，需要从备份中恢复数据。

自然，有那么多份不同时间的磁带的系统管理团队是不觉得有什么可慌的，可是等到他们拿回了一大摞磁带的时候却傻了眼。

从磁带中恢复的只有一个符号链接 (symbolic link)。

不仅如此，之前更早的磁带里也都是同一个符号链接。最终他们成功恢复了半年之前的数据，配合数据恢复公司恢复的硬盘数据，在几个星期之后终于把东西七七八八地怼回看起来是正确的样子了。

这是怎么回事呢？原来，他们在备份的时候选择了一个目录，然后慢慢的这个目录越来越大，直到有一天有个大聪明表示不如这样吧，我们把数据搬到一块新的、更大的盘上，然后建个符号链接。

系统运行一切正常，甚至于备份也变得快了很多呢。

这个故事告诉我们，做了自动化备份之后，时不时的就得试试看备份出来的数据是不是真的能恢复成希望的样子。

- https://blog.delphij.net/posts/2024/02/story-about-backup/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

大规模裁员：如何做好准备

Tue, 16 Jan 2024 21:51:26 -0800

delphij's Chaos https://blog.delphij.net/posts/2024/01/layoff-preparedness/ -

简介

目前的经济形势下，许多公司都在进行裁员。大部分情况下，作为雇员对于公司是否进行裁员所能做的影响极为有限，因此有必要提前对可能发生的裁员进行准备，以免仓促之下做出错误决策，或是在大规模裁员导致的踩踏事故面前束手无策。

本文主要是针对在美国境内工作的普通雇员，家里没矿，也暂时还没攒够足够退休的钱。内容主要来自近期的阅读和想到的一些东西，算是给自己留下一些笔记。

保持良好的精神状态和身心健康

统计显示，大约26%的美国成年人会在人生的某个时期被诊断为存在某些精神问题，包括重度抑郁、躁郁、精神分裂或强迫症。认知到问题的存在并及早采取干预十分重要，及时向专业人士寻求帮助有助于缓解这些问题并防止出现更严重的后果。

在平时需要确保自己有足够的时间进行户外运动，并远离可能导致压力增加的不健康的环境、人或工作，在适当的地方划好边界（在正确的时候能够认识到「关你屁事」、「关我屁事」并作出恰当的反应）。

在突发事件发生时感觉不好不是你的问题

类似裁员这类对生活产生重大影响的事件发生时，感觉不好是人之常情。给自己一些时间去消化和思考发生的事情，不要急于立即作出回应，和有过相关经验，特别是暂时没有遇到类似压力的亲朋好友交流一下相关经验并参考他们的意见，要好过在短时间内仓促作出决策。

优先关注那些你能影响并且能影响到你的事

每一件事都具有两个维度的属性：其一是这件事是否能影响到你，其二是你是否能影响到这件事。

优先关注那些能影响到你，并且你能影响的事。例如，在工作中适时地称赞合作的同事、学会对自己的工作成果进行适度包装和宣传、做对自己负责的事，例如不要用公司的手机或电脑做和工作无关的事，也不要用个人的手机或电脑访问公司资源，或是不定期地复查自己的财务状况，等等。

那些能影响到你，但你无法影响的事，可以抽时间稍微关注一下，但是没必要过度关注。例如，如果你自己不是管理数百人的管理人员，关注公司何时会做大规模裁员就意义不大了，在砍到自己头上时中央肯定已经钦定了，而如果没砍到自己头上的话关注它也不会减少自己被砍的机会。

和（前）同事打个招呼

大规模裁员通常并不是员工个人甚至员工本人的老板能够控制的事。在适当的时候和前同事取得联系，认可自己在过去存在的意义，可以进一步帮自己拓展人脉并增加未来的机会。

幸存者的罪恶感

留下来的人可能会真实地感觉到幸存者的罪恶感，这事一种真实存在的应激反应。有这种感觉是正常的，加强和其他人的联系、与家人或朋友分享自己的感受，做冥想，或是在生活中帮助其他人有助于从这种状态中走出来。

为别人提供力所能及的帮助

在力所能及的范围内帮助别人，例如帮他们在 LinkedIn 上联系其他潜在的雇主、帮他们修改简历，等等。当然，每个人的能力和时间是有限的，也应认识到其他人有可能也正在经历一些和自己类似的事情，但行好事莫问前程。

及时关注自己的财务状况

每个人对于财务的安全感的标准不同，个人认为应确保自己有足够支付9-12个月日常开支的可以随时动用的投资（注意，如果此类投资中有股票类的资产，应确保在出现其波动导致的损失上限时自己仍然可以卖掉这些资产并支付这些开支；简便起见，这些用于应急的资产应包括较大比例的债券、CD等波动不太多的投资产品）。

如果应急资金不足支付这些开支，或是不知道自己9-12个月的日常开支金额，应优先确保这些资金的要求。

个人的提升

持续学习与技能提升

持续学习并提高个人的价值非常关键，个人价值将会决定一个人在求职市场上的竞争力。在工作中寻找学习新知识的机会，特别是那些可以在其他地方使用的技能，跟踪行业的最新进展趋势，参与同业的研讨活动，可以帮助我们了解未来的需求和成长。合理利用雇主提供的教育资源（如 Coursera、学费资助等等），建立长期的规划并持续执行。

寻求前人的经验

寻找一些你认为希望在未来五年或十年之后达到的状态的人并寻求他们的建议，这些人的人生经验往往更具参考价值并且更具可操作性。

规避风险

不要使用公司设备做个人的事，反之亦然

任何时候不要使用个人设备处理公司数据，更不要从公司设备上复制数据到个人设备上。

使用公司设备处理个人数据更是不可取。许多公司的备份管理员可能可以看到备份数据（理论上公司设备上的数据均应被认为是公司资产，如果一个人突然离职或去世，雇主通常有合理的理由重新获得这些数据的访问权限），如果用公司设备处理个人数据，则各类敏感的个人资料都可能会被这些管理员看到，并产生泄密的风险。此外，这些设备可能需要在短时间内交回，因此不应在上面保存大量需要导出的个人资料，因为最终不一定有时间去完成导出，而雇主也可能使用某些组策略来抹除数据。

谨言慎行

不要做可能给人口实的事，更不要做违反合同或法律的事。工作可以再找，但这个圈子其实很小，不要给自己挖坑。

不要冲动行事，更不要做违法的事

在双方关系的末期，要小心在新签署的文本中的坑，找一个利益无关的第三方专业人士帮忙审阅有助于降低相关风险。

及时归还公司资产，在归还时要求收据，可以提前准备一份清单逐项划勾。

财务、IT及法律方面的准备

财务

前面提到，应确保自己账户上有足够支付一定时间（我个人认为需要保持9-12个月）生活开支的足额资金。这些资金可以是定期存款、活期存款，也可以是各类可以随时变现的投资产品，但采用投资产品一类可能产生价值波动的产品时，应将其按潜在的波动最大损失的情况去折算其价值。

理解 COBRA 计划。注意 COBRA 健保通常非常贵，可以考虑转为加入配偶的健康保险计划，或者临时找一份能够在离职之后可以无缝或至少很快接续上的工作以避免罚款。如果使用了 FSA、 LPFSA、DCFSA 等账户，需要注意在离职（或 COBRA 结束）时这些账户的钱会作废。在最后六十天可以考虑提前去配眼镜、做口腔正畸等可以使用 FSA/LPFSA 支付的项目。此外，在健康保险到期之前可以考虑去做一次体检。

提前将工资单 / W2 改为纸质寄到家里，或（如果系统支持）改为使用个人的邮件账号访问这些数据，股票账户亦然。

提前安排 401k / IRA 等。

保存在职期间使用员工折扣购买的产品的购买凭证（如果只发到了公司信箱的话）。

办公室尽量不要放高价值的个人物品，裁员时可能没有机会很快取走，而此时可能会比较混乱导致丢失。

IT

如果需要保持工作时使用的手机号，并且雇主支持，可能需要提前安排将手机号转出。（个人不推荐）

整理一份自己手里的公司设备列表，以便在交还时有案可查。

提前加入不依赖公司账号的员工讨论组。

确保自己名下的公司文档和其他资源有至少一个其他同事有访问权限，给自己平时休假留条后路，也不要给别人添麻烦。

如果个人账户中使用了雇主的 U2F key，应确保自己手里有至少两个属于自己的 U2F key 并注册进了所有的个人账号。平时尽量和雇主的 U2F key 分开。

法律

美国法律对于劳工的保护不如欧洲全面，但以加州为例，雇主仍然负有一系列责任，例如：

大规模裁员时，需要提前60天通知才可以进行；
最后一张工资单需要在最后一个工作日之后72小时之内支付；
雇主需要旅行雇佣合同和员工手册中关于终止合同的条款规定的义务，如终止赔偿金等。

在平时要保存一份雇佣合同供未来参考。对于新的法律文书，尽量仔细阅读或请专业人士帮忙看过之后再签。

最后，推荐大家看2011年的电影 Margin Call，当然，也祝大家和我自己不要遇到裁员。

- https://blog.delphij.net/posts/2024/01/layoff-preparedness/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

备忘：如何知道 USPS PO Box 续费的价格

Sat, 13 Jan 2024 23:06:03 -0800

delphij's Chaos https://blog.delphij.net/posts/2024/01/usps-pobox/ -

周三的时候，USPS发来了一封电子邮件，内容如下：

Hello Xin LI, Advance Notice to POBOL PO Box Customers - January 2024 Price Change.

If your PO Box renewal fees are due in January, and you would like to renew at the existing rate, please visit usps.com/poboxes to renew before January 21, 2024. Fees paid on or after that date are subject to new rates.

我租用 PO Box 主要是为了避免出现信件被盗的事件（我家附近有邻居有时会抱怨出现一些盗窃信箱中包裹的问题，而信用卡、证件之类的通常都是寄到家里，如果被偷走的话会比较麻烦），其次是这样一来就不必向许多机构暴露自己的住宅地址，假如在周边地区搬家的话也不需要挨个通知这些机构，因为 PO Box 依然在原来的地方。然而，过去几年，USPS 的 PO Box 租金价格一直在不断地上涨。根据记账，过去几年每年的租金分别是：

年份	价格
2018	96.00
2019	106.00
2020	118.00
2021	146.00
2022	182.00
2023	194.00

这次 USPS 的来信对于到底要涨多少十分的语焉不详。由于贵厂在去年和今年年初分别进行了两次规模较大的裁员，加上科技业整体上都不太景气，我感觉我近期对于价格的变化明显比之前敏感了不少，年初我甚至给 ADT、保险公司等等一系列供应商打电话和发信去砍价来削减成本。邮局的分布是比较稀疏的，在人口密集的地方更是如此，许多地方 PO Box 甚至需要排队等位才能租到，而便宜的地方往往有各种各样的问题（例如可能只能在上班时间才能去、不提供物理地址，或是离家和上班的地方都太远等等），因此换的成本其实还是挺高的，但这封信激发了我的好奇心。

出于好奇，我去 Postal Explorer 上查阅了具体的价格。USPS 的价格是通过「Notice 123」公布的，其中对很多东西没有解释。具体到我的情况，登入 USPS 网站之后，在「Manage PO Box」可以看到我使用的 PO Box 是「size 1」（最小的那种），但并未找到 Fee Group。

于是我想到了另一种方法：将年度价格除以2的到半年的费用为 $97，查现行 Notice 123，发现是在

Competitive Box Size and Fee
Per Semi-Annual (6-month) Period

表中「C33」的价格。查看2024新版的价格，得到新的半年价格为 $100/半年，即 $200/一年。

更进一步，「C33」这类 fee group 是在 Publication 431 公布的，但是网上能查到的只是该文件的一些碎片，尽管如此也够用了，在这些碎片中查找 PO Box 的邮政编码也可以得到自己的 group。

除此之外，本次对 PO Box 费用的审计中还发现按年续费和每半年续费一次的单价是一样的（每季度续费的话价格会高一些）。另一方面，除了首次申请 PO Box 时一次交一年的租金可获得一个月的额外使用时间之外，平时按年续费并没有这种优惠。考虑到 USPS 是每年调整一次价格，显然半年付一次租金要更合算一些，因此也一并将自动续费的时间改成了半年。

- https://blog.delphij.net/posts/2024/01/usps-pobox/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

SMTP Smuggling

Tue, 02 Jan 2024 21:10:29 -0800

delphij's Chaos https://blog.delphij.net/posts/2024/01/smtp-smuggling/ -

最近没怎么关注安全方面的进展，结果错过了去年年底披露的 SMTP Smuggling。这是 Timo Longin 发现的一个全新的针对 SMTP 协议的攻击手法，现在的年轻人真是蛮厉害的。

SMTP协议、流水线扩展和信体终结标志

SMTP 协议是 RFC 5321 定义的邮件传输协议，通常采用 TCP 作为传输协议，在同一连接中传输指令和数据。传统上，SMTP 协议采取「一问一答」的形式，但目前正常的 SMTP 服务器和客户端普遍实现了流水线作业（RFC 2920）来减少客户端与服务器之间的交互次数，从而减少送信延迟。采用流水线作业时，客户端必须继续遵守协议的状态机约束：举例来说，在发出 EHLO / HELO 之后，客户端必须等待服务器的回应，而不能直接开始进入下一状态；而在发出 DATA （信体开始）指令之后，在收到服务器的 354 回应之前，也不能开始传送信体。更进一步，如果服务器没有回应自己支持 PIPELINING，则客户端必须采取旧式的「一问一答」形式，而不是新式的流水线作业。

SMTP 协议与 D. J. Bernstein (“djb”) 设计的 QMTP 不同，在传输信体时不会事先声明信体尺寸。RFC 5321 Section 4.1.1.4 规定，信体以单行的 . ，即 <CRLF>.<CRLF> 作为终结标志。RFC 3030 新增的 BDAT 指令是对此的一项补救措施。

问题

在电传打字机时代，「回车」(<CR>、\r 或 0x0d) 表示将打字头挪到一行开始，而「换行」(<LF>、\n 或 0x0a) 则表示将打印纸向上推一行。对电传打字机来说，由于一行的长度不固定，「回车」操作所需的时间也不固定，而「换行」操作则是电机推一个固定的长度，两部分的驱动设备是独立的，并且前一操作通常需要消耗更多时间。从设计角度，先开始「回车」再开始「换行」意味着两个动作可以同时进行并提高速度。

在上世纪六十年代，ASA (ANSI前身) 和 ISO 分别设计了与 ASCII 类似的编码标准，在 ASA 草案中，采用「回车+换行」(<CRLF>) 作为新行的符号，而在 ISO 草案中，则同时接受「回车+换行」(<CRLF>) 和「换行」(<LF>) 作为新行的符号。

这些差异影响了当时的操作系统设计者，他们采纳了不同的设计来表达文本中的新行。 DEC 采纳了「回车+换行」 (<CRLF>) 来配合电传打字机，这影响了后来的 CP/M 和 MS-DOS 以及 Windows。而 Multics 则选择了采用「换行」<LF> 来表示新行，并在设备驱动中将其翻译成回车加换行来支持电传打字机，这影响了其精神继承者 Unix 和各类类 Unix 系统。

在早期的 Sendmail 版本中，除了标准的 <CRLF> 行末符，也支持只用 <LF> 作为行末符，尽管 RFC 5321 Section 2.3.8 禁止客户端这样做，但我们都知道「历史无可替代的力量」究竟有多大，时至今日，仍然有相当多的 MTA 服务器软件选择继续支持它来确保兼容性。

如此一来，对于 <LF>.<LF> 或 <LF>.<CRLF> 而不是 <CRLF>.<CRLF> 便可以有不同的解释。对于不接受 <LF> 作为行末符的邮件服务器来说，前两种都只是再正常不过的文本，会原样发给下一个邮件服务器；而对于接受 <LF> 作为行末符的的邮件服务器来说，它会被解读为不同的语义，即信体结束。而当前一种邮件服务器把邮件发给后一种邮件服务器时，后者的不同解读可能会导致灾难性的后果：在 <LF>.<LF> 或 <LF>.<CRLF> 后面可以「夹带」(smuggling) 一组 SMTP 指令，如果这一层邮件服务器是拥有签名权的外发邮件服务器，并且信任上一层的服务器的话，则可以通过这种方式绕过正常的访问控制来实现不正常的外发操作。

postfix 的解决方法

现时，正常的邮件客户端是不应该发出不带「回车」的裸「换行」的。postfix 的作者建议彻底禁止这样做，这符合 RFC 5321 的规定。 Postfix 3.8.4、 3.7.9、 3.6.13 和 3.5.23 新增的 smtpd_forbid_bare_newline 在遇到裸「换行」时会直接断开连接，从而避免这种攻击。

更早版本的 Postfix 可以通过禁止绕过状态机的流水线操作 (reject_unauth_pipelining 或更早版本的 smtpd_forbid_unauth_pipelining，并禁止 CHUNKING 扩展) 来规避问题。

- https://blog.delphij.net/posts/2024/01/smtp-smuggling/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

用 rspamd 来实现反垃圾邮件

Sun, 31 Dec 2023 23:52:57 -0800

delphij's Chaos https://blog.delphij.net/posts/2023/12/rspamd/ -

我搞邮件服务器有二十多年了，最开始是在学校做社团的邮件服务，后来有几年和老房东在某领先网络媒体公司做了多年针对公众提供的邮件服务，因此前同事群的名字也是「老邮条」。我个人的域名是2002年注册的，自从那时起我就一直在自己运行邮件服务。

在过去二十年中的大部分时间，我采用的是 amavisd-new，与直接使用 SpamAssassin 相比，它还增加了病毒扫描等一系列功能和 milter 接口，这让它与 MTA 更容易集成。

最近我发现 FreeBSD.org 把反垃圾系统替换成了 rspamd，所以在11月初把我的邮件系统也换成了 rspamd，经过两个月的使用，总体的感觉是「我tm早干嘛去了」。

FreeBSD 的 rspamd port 是 Vsevolod Stakhov (vsevolod@) 维护的，和 amavisd-new 相比，最肉眼可见的好处就是 CPU 开销的大幅下降，除了由于它是 C 写的之外，这也得益于其事件驱动的异步架构设计。

在 FreeBSD 上使用 rspamd 可以直接用 pkg 来安装（此处同时安装 redis 作为后端存储）：

pkg install redis rspamd

需要注意，redis 默认会绑到 127.0.0.1，如果在 jail 中运行 redis 的话，这可能会导致 redis 暴露给整个 Internet，这很危险。解决方法是把 redis 绑到某个安全的内网，或是只使用 Unix domain socket。

例如，redis 可以如此配置：

# 禁止 TCP 监听
port 0

# 启用 Unix domain socket
unixsocket /var/run/redis/rspamd.sock
unixsocketperm 660

requirepass <某个随机密码>

maxmemory 512mb
maxmemory-policy volatile-ttl

注意上述权限配置中使用的权限是 660，因此需要把 rspamd 的角色用户加入 redis 用户组。

与之对应地，在 /usr/local/etc/rspamd/local.d/redis.conf 中如此配置：

servers = "/var/run/redis/rspamd.sock";
password = "<某个随机密码>";

与 amavisd-new 类似，rspamd 的 milter 服务也可以添加信头来方便其他 MUA 或是 sieve 来进行拣选。很明显，其他系统添加的此类信头应该删掉，为了便于迁移，我采用了如下的配置 (/usr/local/etc/rspamd/local.d/milter_headers.conf)：

use = ["x-spamd-bar", "authentication-results", "x-spamd-result", "x-spam-level"];
authenticated_headers = ["authentication-results"];

routines {
 authentication-results {
 header = "Authentication-Results";
 remove = 1;
 }
 x-spamd-result {
 header = 'X-Spamd-Result';
 remove = 1;
 }
 x-spamd-level {
 header = "X-Spam-Level";
 char = "*";
 remove = 1;
 }
}

其他配置方面我没有做特别多的改动。

postfix 集成部分，基本上只是把 smtpd_milter 换成 rspamd。

与 sieve 集成的部分，可以用 rspamc 去连接 rspamd 的 controller 来完成 learn_spam 和 learn_ham。

我之前的系统中长期使用了 clamav，而该系统最后一次抓到病毒是 2006 年的事情。 clamav 本身依赖许多解压缩程序，尽管它是丢掉特权运行的，但考虑到现实情况，对于我这样的食古不化型 (邮件客户端关闭了全部附件预览等一系列功能) 的邮件用户来说，反病毒的价值确实不大，因此这次顺手暂时先拆掉了。

rspamd 的控制面板可以罩在 zero trust 代理后面，方便访问。

- https://blog.delphij.net/posts/2023/12/rspamd/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

这次的 ZFS 数据损坏问题

Tue, 26 Dec 2023 23:10:46 -0800

delphij's Chaos https://blog.delphij.net/posts/2023/12/zfs-data-corruption/ -

12月1日，FreeBSD 发布了 FreeBSD-EN-23:16.openzfs，用于修正近期发现的 ZFS 数据损坏问题。这个问题是由 Rob Norris 最终修正的，这里记一笔。

一些基础概念

同步与异步I/O操作

与内存不同，外存的速度通常比内存要慢若干量级。普通的应用程序在写数据时通常有两种选择：其一是以「同步」方式进行操作，即在操作返回时所有的写操作皆已反映到可靠的存储介质上，其二则是以「异步」方式进行操作，即发起一个写操作，然后应用程序可以干别的，随后查询状态，或者提交一个同步操作来把之前的数据保存到盘上。有了「此调用返回时，此调用之前的（元）数据均已保存到可靠的介质上」的保证，就可以在其上搭出事务支持了：例如，数据库的 COMMIT 操作就可以通过等待与之对应的日志数据的同步操作来实现，如果系统在同步操作完成之后发生断电或崩溃，数据库依然可以通过重放日志数据来恢复。

为了尽量有效地利用系统资源，现时的操作系统内核在实现读写操作时，均采取异步方式，即发起操作时内核在发起（或者不发起，而是等操作攒的足够多的时候才开始发起）写操作之后并不等待其完成，而是转去做其他事，并在之后等待来自设备或时钟的中断，并在收到该中断后再次向硬件质询操作是否完成，并据此作出相应的处理。

由于内存的容量相比外存来说要少若干量级，因此操作系统必须有效地将内存用于不同的目的。以输入输出缓冲区为例，显而易见，从磁盘中读出的、未经改变的数据在必要时可以再从磁盘中读出，因而这类缓冲区可以随时丢弃并用作其他用途；而修改过的、还没有写盘的数据则不能随意丢弃。为了区分缓冲区的这两种状态，内核通常会将缓冲区标记为「脏的 (dirty)」，表示其中包含未落入可靠存储的数据，或是「干净的 (clean)」，表示其中的全部数据已经保存到了可靠的存储中。对文件系统来说，这两种状态还包括与之相关的文件系统元数据，例如文件引用了哪些数据块、这些块是否已经分配给某个特定文件，等等，在这些状态之间也有一些依赖关系，例如，文件数据写盘之后，只有在与这些数据相关的元数据也完成了写盘之后，才应认为这些数据已经保存到了可靠的存储中，等等。

dnode

ZFS 中， dnode 是一个长度为 512 字节倍数的可变长度数据结构，用来表达 ZFS 中的对象。与 UFS 的 inode 类似，dnode 也用来表达文件或目录，除此之外，它也可以表达 ZVOL 卷以及其它一些内部元数据。盘上的 dnode 是存放在 struct dnode_phys 中的，而内存中则是 struct dnode，这两个数据结构的命名方式 (带 _phys 后缀表示存储到盘上的结构，而不带后缀表示内存中的结构) 与 ZFS 中其他一些数据结构的规则类似。

dnode 中包含了一系列用于表示文件所属的缓冲区是否已经完成写盘的描述信息，其中包括 dn_dirty_link (dnode 本身是否在顶层 objset 对象中的未写盘列表中) 和 dn_dirty_records (包含未写盘数据的 dbufs)。

稀疏文件和「洞」

许多现代文件系统中都有「稀疏文件(sparse file)」的概念，这类文件中存在大量全部为 \0 (NUL) 的区域，如果文件系统支持的话，这类区域可以采取在元数据中标记，而不是真的写入完整的全 0 块的方式来表达。这样做的主要好处有两个：首先是读出数据时，操作系统不需要真的进行 I/O，因而有助于提高访问效率；其次，它也节省了存储。在符合 POSIX 的操作系统中，稀疏文件对应用程序来说是透明的，应用程序可以使用 truncate(2) 来扩大文件，然后在其中 lseek(2) 在不连续的区域分别写入，而不是在连续的位置持续写入数据来制造稀疏文件。

除此之外， lseek(2) 还可以定位文件中这类没有写盘的全 0 区域 (SEEK_HOLE；需要说明的是，取决于文件系统的具体实现，这些区域可能比之前写入数据时 lseek(2) 跳过的间隔要略小，因为绝大多数情况下文件系统在存放此类空白区域时是按照完整的数据块尺寸进行的，如果跳过的区域不在数据块的整倍数边界上，则从当前数据区域到下一个数据块之间的部分仍然需要真的写0)，或是从这类全 0 区域为起点定位到下一个包含数据的区域 (SEEK_DATA)。

与此类似，在 ZFS 中，如果一个数据块的内容是全 0，则其数据对应的块指针 (Block Pointer) 会做特殊标记，称之为「洞」(hole)。 ZFS 的其他组件中使用 BP_IS_HOLE 宏来测试这类块指针，这项优化使得对于这类数据块无需真的在盘上写 0，也无需真的从盘上读出数据，其好处与稀疏文件中对全 0 块的处理是类似的。需要注意的是，对于「洞」的处理是在 I/O 层 (zio) 的时候进行的，因此只有在写操作做完时，我们才能知道一组数据块最终是不是会变成「洞」。

问题

简而言之，这次的数据损坏问题是有时 ZFS 会在进行 SEEK_DATA 时，不正确地跳过含有数据的部分。由于新的 FreeBSD 和 Linux 的 cp(1) 均以不同的方式使用了这一功能来跳过全 0 的数据块，因此会导致复制出来的数据中原本不应该出现全 0 的部分出现全 0 的现象。除此之外，其他依赖 SEEK_DATA 的应用程序也可能受到影响。尽管如此， ZFS 最终写入的原始数据依然是正确的，加上这个问题需要符合一系列比较苛刻的条件才能触发，因此普通用户可能不太容易碰到它。

文件系统对于存储的访问是独占的。读取数据时，很自然的想法是找到盘上存储数据的位置，并发起一个 I/O 操作把数据加载到缓冲区中，然后把该缓冲区通过内核接口交给应用程序。但在实践上，实际发生的操作要复杂得多：盘上的数据可能之前已经读过并且仍然在位于主存的缓冲区中，此时显然直接将这些数据交给应用程序可以省掉一次 I/O；对于刚刚修改过的数据，文件系统更是必须从内存中的副本来取得数据，因为内存中的这份「脏」的数据才是最新的那份。因此，文件系统的实现中就必须对缓冲区的状态进行完整的记账，才能确保其交给应用程序的数据的正确性。

对于 ZFS 来说，这一部分更为复杂。 ZFS 是一个写时复制 (Copy-on-Write) 的文件系统，它在写数据时，并不会覆盖掉已经存在的数据块，而需要将原数据块中不应修改的部分（如果存在的话）读出，然后写入一个处于存储上新位置的全数据块。

ZFS 的事务组 (txg) 包含三个状态： Open (初始状态，允许新的写操作进入。一旦积累够足够多的操作，或是达到了 vfs.zfs.txg.timeout，则进入下一个状态)、Quiescing (允许上一状态中还未做完的操作做完，同时开启一个新的 Open txg) 和 Syncing (将 Quiesced 的 txg 写入可靠的存储)。

在考虑数据是否已经写盘时，需要同时考虑这三个事务组中的状态。考虑在一个已经存在的文件中先后写入两个数据块 a、b 的情况，这可能潜在地会形成两个新的 dnode 版本，这两个版本的 dnode 以及数据块 a、b 可能出现在三个不同状态的事务组中，其 dirty 状态会随着写盘而逐渐被清除。

Quiescing 和 Syncing 状态的事务组中的数据状态未必反映应用程序认为的数据最新状态，但前面提到，「洞」是在写操作做完时才确定的。这意味着 SEEK_DATA 如果遇到了一段标记为「dirty」的区域，则只有写入完成之后才能够可靠地判断它是不是「洞」。然而我们知道 I/O 操作相对于内存操作来说是要慢很多的，一个 txg 可能相当大，假如每次 SEEK_DATA 的时候都等待数据写完，很明显是不经济的。那怎么办呢？考虑 SEEK_DATA 的语意，一组全 0 的数据也可以认为是数据（相反，如果是一组非全 0 的数据被跳过则会导致问题），因此，我们可以判断 dnode 中是否包含了未写盘数据，并针对这些数据一律返回「有数据」，而不是真的等待写入操作做完。由于这样一来一些本应被认为是空洞部分的区域会被认为存在数据，但如此这类操作便不必等待 txg 完全写入，因此会改善一些应用程序的性能。

系统默认的设置 (vfs.zfs.dmu_offset_next_sync=1)，则是在进行 SEEK_DATA 操作时等待之前的事务组完成写入。然而我们注意到，如此设置时，在测试中问题似乎更容易被触发，这又是为什么呢？

在写入 dnode 的过程中，有一个短暂的时间段， dnode 本身的 dirty 状态被清除。但与之相关的文件数据还没有完成写盘操作。这个状态只会发生在 Syncing 阶段。在问题得到修补之前， dnode_is_dirty() 在这种状态下会不正确地返回 B_FALSE。

前面提到，在 SEEK_DATA 时，如果 dnode 包含未写盘的数据则需要进行特殊处理。对于 vfs.zfs.dmu_offset_next_sync=0 的情形，此时应直接告知应用程序此区域有数据，而对于默认情形，则应等待 txg 做完，而 txg 操作需要先把 dnode 的 dn_struct_rwlock 锁打开，如此 dnode 的状态变有可能在这段时间内发生变化，因此必须从头再做一次检查。

无论 dmu_offset_next_sync 的值是什么，最终如果 dnode_is_dirty() 不正确地返回了 B_FALSE 的话，我们都可能告诉应用一个本应被认为有数据的位置是空洞。因此，设置 vfs.zfs.dmu_offset_next_sync=0 并不能真的彻底避免问题，因为问题依旧可能发生，但 vfs.zfs.dmu_offset_next_sync=1 时，由于在等待 txg 做完之前和之后各做一次 dnode_is_dirty() 检查，因此碰到这个边界条件的机会反而增加了。

解决

知道了问题的原因，只要让 dnode_is_dirty() 能返回正确结果便可以修正问题。在修正问题之前，它是如此判断 dnode 是否包含未写盘数据的：

 for (int i = 0; i < TXG_SIZE; i++) {
 if (multilist_link_active(&dn->dn_dirty_link[i])) {
 mutex_exit(&dn->dn_mtx);
 return (B_TRUE);
 }
 }

若 Syncing 阶段的 txg 在不恰当的时机清除了 dnode 的 dirty 状态，则无论其是否包含 dn_dirty_records 均会导致返回 B_FALSE。因此解法便是增加对 dn_dirty_records 的检查：

 for (int i = 0; i < TXG_SIZE; i++) {
 if (multilist_link_active(&dn->dn_dirty_link[i]) ||
 !list_is_empty(&dn->dn_dirty_records[i])) {
 mutex_exit(&dn->dn_mtx);
 return (B_TRUE);
 }
 }

- https://blog.delphij.net/posts/2023/12/zfs-data-corruption/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

FreeBSD 14.0-RELEASE 发布了

Mon, 20 Nov 2023 22:22:39 -0800

delphij's Chaos https://blog.delphij.net/posts/2023/11/freebsd-14/ -

上周末抽时间把服务器升级到了 FreeBSD 14.0-RELEASE。软件的发布中存在许多的工序，大致上，在 releng/ 分支上的代码树会正式命名为 -RELEASE，同时由一位 Release Engineer 开始最终的 build（对应的文件会发布到 FTP 上，并在网站上提供链接），并在适当的时候将 releng/ 分支上的代码 tag 成 release。此后， Security Team 需要将 Release Engineer 签名的 -RELEASE 放到 freebsd-update builder 上再次 build、签名，并生成二进制更新所需的文件。

由于安装用的 ISO 映像文件都比较大，传统上将这些映像文件分发到全球的镜像站点上需要一些时间。现时，云服务提供商往往还有自己的 QA 步骤，因此最终宣布 -RELEASE 的时间往往会比 FTP 上出现的时间晚上一周左右。技术上这段时间这个 build 依然只是一个发布候选版本(Release Candidate)，因此普通用户不应使用这些版本，因为在这一周的时间如果遇到一些突发状况的话可能会需要将这个版本撤回 (例如原本应发布为 FreeBSD 4.6.1 的 FreeBSD 4.6.2 就是这样的情况)。

我个人在机房的机器采用的 FreeBSD 是一套经过定制的版本，因此大版本升级时需要将本地的补丁 rebase 到新的 release 上面。所以我采用的是使用源代码升级的方法。不过，从去年启用了 Poudriere 之后，我通常是在 Poudriere 上先把新的 package 全都 build 好之后用 pkg upgrade -fy 一次性完成升级了。

这次升级遇到的一些比较明显的坑：

第一个是 FreeBSD 14.0-RELEASE 去掉了配置文件中的 $FreeBSD$ 版本标记。在使用 CVS 和 Subversion 的时代，这两个版本控制系统支持关键词扩展，可以将这些标记展开成包含文件路径、版本的字符串，例如：

$FreeBSD: releng/8.2/lib/libc/string/strlen.c 208051 2010-05-13 23:28:20Z delphij $

这些信息有助于在调试时知道一个可执行文件使用了哪些源文件（假如所有的源文件中都正确使用了 __FBSDID 宏，这个宏会把这些字符串放到 ELF 文件的 .comment 段中）。迁移到 git 之后，由于 git 不再支持关键词扩展，这些信息的意义大打折扣，于是我们在最近决定将所有的 $FreeBSD$ 一并删去了。

由于 FreeBSD 的配置文件合并程序（包括 etcupdate 和 mergemaster）在合并时都是采用的三路比对，因此如果原先的 $FreeBSD$ 位置和进行的修改位置接近，则很可能会出现合并冲突，此时会需要手工干预。如果平时做事不太细心，建议换一个头脑比较清楚的时候再做升级。

假如之前没有用过 etcupdate，个人建议在升级之前做一次初始化来让 etcupdate 认识之前的状态。

第二个坑是在安装过程中某些 shared object 库之间存在依赖关系。例如， libedit.so.8 需要用 libtinfow.so.9，后者是 FreeBSD 14 中新引入的，而两个库在安装时并未遵循依赖关系先装后者，因此如果有 cron 任务恰好在安装过程中的某个时刻进入并且可执行文件恰好用到了 libedit 的话，可能会失败。

总体上，FreeBSD 14 已经在家里的网关等机器上跑了很久，因此并没有太多其他的意外。常见的其他注意事项，例如在升级 ZFS 存储池之前要记得更新引导记录（或UEFI ESP）基本上每个版本都需要，在此就不赘述了。

- https://blog.delphij.net/posts/2023/11/freebsd-14/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).

换回了 Comcast

Sat, 28 Oct 2023 23:11:11 -0700

delphij's Chaos https://blog.delphij.net/posts/2023/10/back-to-cable/ -

上回书说到我换到了一个采用微波通讯技术的小型本地 ISP，然而经过将近两年的时间，我最终还是换回了 Comcast。正如张师傅说的，南湾乡下的居民不配有好东西，经过这么久，我家这边依然没有 5G 互联网服务，也没有光纤到府，至于 cable 也很自然地也没有 DOCSIS 4.0，也不想想看，您配吗？

为什么要换回 cable 呢？Sail 声称他们采用的设计可以避免雨季带来的干扰，事实来看确实是这样，但是他们的服务稳定性在过去几个月出现了灾难性的下降，此外延迟由于一些未知的原因增加了不少。我为此收集了一些数据，发现去大河以及 Google 的延迟有时竟然超过了 500ms，这个就实在是太难受了。

考虑再三，我决定还是换回了 Comcast。我使用的是之前的 SB6190，实测下载速度是 520Mbps，上传速度是 23Mbps，和 Sail 的互有胜负，好处是他们提供了 IPv6。

余下的事情是拆除到大河的 IPsec 隧道，改用 DHCPv6，以及防火墙。总体上没什么需要记录的（不过由于此前家里的 IPv6 是写在网桥上的静态地址，这次需要将其全部拆除）。

- https://blog.delphij.net/posts/2023/10/back-to-cable/ - © Xin Li, This blog is licensed under a [Creative Commons License](https://creativecommons.org/licenses/by-nd/4.0/).