邓小超:刚才冷总分享了掉算力的机制和原因。掉算力的原因确实有很多,比如大一点就是机房整体掉电,肯定掉算力。还有就是机房断了光线,会造成读取数据不能返回,掉算力。通俗总结一下,掉算力的情况可以分为以下三类:一类是硬件故障,一类是软件故障,还有一类是人为故障。如果在做证明的时候出现的是链拥堵或者是服务器程序崩溃,这是软件内的故障。如果是服务器宕机或者网卡中断,这样是硬件的故障。如果是工程师操作不当,这肯定是人为的故障。这种故障不可避免,但是可以通过前期的基础设施建设、项目规划以及一些运营规模进行规避。 如何避免发生掉算力的情况?发生了又该如何救援? 主持人:我们关注到,昨天就出现了新疆比特币矿场,因为停电的事件造成了大量算力大幅下降。类似的事情如果发生在Filecoin上面,我们在算力救援计划中具体能够提供或者得到哪些服务? 邓小超:救援只是一个后路,对于我们来讲更重要是防范。不管是前期基础设施调研还是到后面的项目规划、安全运营保障都需要做好这一块。我们目前建立了管理类、安全运营类的安全体系。通过安全体系去规避一些机房断网的问题以及操作人员操作失误的问题。做好这种安全体系建设后,救援就只是一种演练。我们会通过两种方式进行数据的救援。第一种是基于存储底层的救援,第二种是算力重建一次的救援。所以从我的角度来讲还是优先于安全体系的防范,救援还是在后面。(主持人:这个防范具体涉及到哪一些东西?)比如基础建设方面,首先关注数据中心,数据中心的电路是必须两路接入。网络也要关注,对于机房来讲,现在的数据中心基本上都是接入双运营商的IDC专线,所以断网可能性也基本排除。在运营安全事故方面,我们与一些安全机构合作,通过防火墙、运营安全审计等方式把这种风险降到最低,每个人每个角色只能处理相关的事情,不能越权处理不该处理的事情。 张新凤:我们一直坚持的原则也是防范于未然,所有的工作都要做在事前。事前工作做到位了,出现数据丢失的概率会大大降低。如果我们前期没有做任何防护措施,一旦数据丢失,从存储层面来说能修复的概率是非常低的。这个也是我20多年的工作经验,看到很多惨痛的经历。具体到IPFS领域,刚才听冷总大概介绍了一下,关于惩罚的机制。我大概算了一下,如果算力丢失,即便在14天之内能修复过来,这个惩罚的成本也已经超过了存储系统的构建成本。大家如果要进入到IPFS领域,建议在选择存储系统时一定要选用高可靠的企业级存储。给大家分享一下我们在这个领域的经验。 (责任编辑:admin) |