全球算力大会丨经常掉算力怎么办？Filecoin算力救援计划看过来(3)

首先要做的工作是存储系统的选型。应用平台上关键部件是不是冗余的，存储系统有没有单一故障点，这个是在一定程度防止物理故障。软件层面来说有没有比较灵活实用的成熟的数据冗余机制，让用户无论是多少规模都可以灵活选择数据保障措施。对于数据逻辑错误，比如说人为误删除，包括后客攻击、病毒感染带来的逻辑错误也要有技术可以防范。

具体实施的时候也有很多问题，如存储网络怎么设计，既能有一个比较好的性价比，还能保持比较好的冗余度，存储访问层面怎么和应用配合，达到一个比较好的性能等等。

在投入运营后，也需要定期对存储系统做体检和巡检，这也是我们强烈建议的。一周之内至少检查一下这么多套系统是否有硬件故障，IO负载有没有异常情况，空间利用率是不是能支撑未来业务的增长等。

我相信通过这样一些机制采用之后，再出现掉算力的情况概率应该非常小。

冷波：我从算法角度讲一下怎么避免掉算力，掉了怎么救援。大概分几个方面，第一个方面是安全方面，即防止黑客，防止非法操作。我们有一些严格的安全管控，如非常重要的钱包不要进机房，防止随意操作随意导入，有任何非法操作都会马上告警。这个层面来讲会防止别人异常控制钱包，如果别人把钱包盗走了算力也会掉。第一个方面最重要的就是安全性。

第二个方面是系统稳定性，一般来讲是通过冗余的方式让系统各个软件来稳定，可以防止单个硬盘或者单个节点损坏，数据还能读取。除此之外做施工证明这些都是需要做冗余，任何的硬件总是会有问题，出了故障不可能不做证明，证明必须马上完成。所以有其他服务接管过来，系统可以继续跑。包括网络链路、各种链通过冗余方式，通过类似互联网架构的高可用性方式，让它更可靠。可能在Filecoin刚开始最早挖矿的时候，很多人觉得这个冗余措施会带来很多额外的成本，但是现在高可用性的冗余方式已经是一个标配了。无论出现什么情况都会有另外的机器和节点把这个服务接上持续跑。

第三个方面，如果真的出现了不可抗力怎么办，比如机房出问题，无法访问了，网络链路都断掉了。所有的惩罚都是程序代码自动完成，没有提交证明就会惩罚。如果长时间数据因为异常原因被毁掉了，没有办法把硬盘数据恢复出来怎么办？从算法上面来说有一个措施，可以在异地利用算法对部分数据进行重新生成，生成之后也可以继续加以证明，能够在一定程度甚至全部把这个算力恢复。当然这个恢复过程相对来说比较复杂，可能在节点初始化建设的时候需要考虑这种冗余措施，这是针对Filecoin业务的灾备方案，也是我们目前实施的还不错的方案。未来肯定会成为主流。主要还是Fil的价格太高了，它带来的预期收入不止几百万，这也给研发和运维的工程师带来巨大压力，大家在想各种各样的方式变得更稳定，不出问题，出了问题可以想到各种方案解决。 (责任编辑：admin)

搜索

热门标签:

全球算力大会丨经常掉算力怎么办？Filecoin算力救援计划看过来(3)