消息服务Matrix.org遭遇RAID阵列故障导致55TB数据库损坏 持续1天后已恢复

动态 来源:蓝点网 2025-09-07 14:04:40

RAID 阵列故障导致数据损坏的案例并不少见,日前知名的去中心化分散消息服务 Matrix.org 使用的服务器就遭遇 RAID 阵列故障,故障的是主服务器以至于使用该平台的开发者都无法正常收发消息。

需要明确的是对于拥有自己的专属主服务器的客户例如政府组织不受影响,其他任何使用 Matrix.org 作为主服务器的用户都受影响,以至于无法收到任何消息。

Matrix.org 主服务器托管着大型 PostgreSQL 数据库,这份数据库包含的数据约为 55TB,在故障发生后团队开始处理并想方设法从源数据和备份数据中恢复数据库。

此次故障的发生时间是 2025 年 9 月 2 日 17:39 UTC,直到 9 月 3 日 17:03 UTC 才恢复正常,也就是持续时间将近 24 小时,期间无数开发者受到此次故障的影响。

在实际故障中最初 Matrix.org 的二级数据库由于 RAID 故障而丢失文件系统,随后主数据库也开始跟着崩溃,接着 Matrix.org 支持团队承认事情有点不对劲。

接下来就是着手修复 RAID 阵列故障和恢复数据库,这个过程花费了超过 15 个小时,在初步恢复正常后 Matrix.org 还需要将中断期间的消息逐渐释放出来。

Matrix.org 是免费的因此也没有服务水平协议 (SLA),如果开发者自己搭建了服务器那不受影响,所以如果依赖 Matrix.org 的去中心化服务器,那也要做好可能发生中断的准备。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接