首先要做的工作是存储系统的选型。应用平台上关键部件是不是冗余的,存储系统有没有单一故障点,这个是在一定程度防止物理故障。软件层面来说有没有比较灵活实用的成熟的数据冗余机制,让用户无论是多少规模都可以灵活选择数据保障措施。对于数据逻辑错误,比如说人为误删除,包括后客攻击、病毒感染带来的逻辑错误也要有技术可以防范。 具体实施的时候也有很多问题,如存储网络怎么设计,既能有一个比较好的性价比,还能保持比较好的冗余度,存储访问层面怎么和应用配合,达到一个比较好的性能等等。 在投入运营后,也需要定期对存储系统做体检和巡检,这也是我们强烈建议的。一周之内至少检查一下这么多套系统是否有硬件故障,IO负载有没有异常情况,空间利用率是不是能支撑未来业务的增长等。 我相信通过这样一些机制采用之后,再出现掉算力的情况概率应该非常小。 冷波:我从算法角度讲一下怎么避免掉算力,掉了怎么救援。大概分几个方面,第一个方面是安全方面,即防止黑客,防止非法操作。我们有一些严格的安全管控,如非常重要的钱包不要进机房,防止随意操作随意导入,有任何非法操作都会马上告警。这个层面来讲会防止别人异常控制钱包,如果别人把钱包盗走了算力也会掉。第一个方面最重要的就是安全性。 第二个方面是系统稳定性,一般来讲是通过冗余的方式让系统各个软件来稳定,可以防止单个硬盘或者单个节点损坏,数据还能读取。除此之外做施工证明这些都是需要做冗余,任何的硬件总是会有问题,出了故障不可能不做证明,证明必须马上完成。所以有其他服务接管过来,系统可以继续跑。包括网络链路、各种链通过冗余方式,通过类似互联网架构的高可用性方式,让它更可靠。可能在Filecoin刚开始最早挖矿的时候,很多人觉得这个冗余措施会带来很多额外的成本,但是现在高可用性的冗余方式已经是一个标配了。无论出现什么情况都会有另外的机器和节点把这个服务接上持续跑。 第三个方面,如果真的出现了不可抗力怎么办,比如机房出问题,无法访问了,网络链路都断掉了。所有的惩罚都是程序代码自动完成,没有提交证明就会惩罚。如果长时间数据因为异常原因被毁掉了,没有办法把硬盘数据恢复出来怎么办?从算法上面来说有一个措施,可以在异地利用算法对部分数据进行重新生成,生成之后也可以继续加以证明,能够在一定程度甚至全部把这个算力恢复。当然这个恢复过程相对来说比较复杂,可能在节点初始化建设的时候需要考虑这种冗余措施,这是针对Filecoin业务的灾备方案,也是我们目前实施的还不错的方案。未来肯定会成为主流。主要还是Fil的价格太高了,它带来的预期收入不止几百万,这也给研发和运维的工程师带来巨大压力,大家在想各种各样的方式变得更稳定,不出问题,出了问题可以想到各种方案解决。 (责任编辑:admin) |