收集罕见病资料,打破数据垄断,这家公司有高科技也有人情味

 

硅谷Live / 实地探访 / 热点探秘 / 深度探讨

 

 

“处处皆数据” ,但工业界面临的问题在于,什么样的经济模型能够鼓励用户分享数据,如何为那些急需数据的机构找到数据?比如医疗机构如何高效地找到基因数据,那些手握关键数据的患者以如何安全可靠地分享数据?

 

 

 

今天小探采访的这家硅谷创业公司 DxChain,想用区块链+大数据解决上面提到的问题。具体如何解决?这还要听 DxChain 的两位共同创始人,Wei 和 Allan 给小探细细解释。

 

你的数据是 “绝对隐私”,还是 “相对开放”? 

 

Wei 产生合伙创办 DxChain 的想法,和他的工作经历分不开:创办 DxChain 之前,Wei 在 AT&T 做区块链研究,再之前在 Hortonworks 做大数据。

 

(左为 Wei Wang,DxChain 共同创始人、首席科学家;右为 Allan Zhang,DxChain 共同创始人)

 

那时 Wei 就发现,他们的很多客户 —— 比如沃尔玛、Sears 等零售商店 —— 有很多数据,但它们不知道如何从数据里发现有价值的信息,比如卖什么样的商品最赚钱、如何对不同的人推销不同的商品等。

 

这就涉及到了数据的收集、清理以及计算和分析一整套流程,对于大多数企业来说,这是一笔不小的负担。因此,建立在价格低廉的情况下提供这一整套服务的平台,毫无疑问是有前途的,而区块链技术的出现,提供了一个杠杆支点。

 

而 DxChain 正是要用区块链去建立这一整套数据收集、挖掘、分析和得出有用商业结论的平台,而这个背后的核心是区块链上的存储和计算。

 

Wei 告诉小探,这也是为什么 DxChain 给自己取了这个名字:D 是英文里 “数据(Data)” 的第一个字母,x 是乘法,DxChain 把数据和区块链技术结合,从而放大数据的价值。 

 

如果说发掘数据价值分为 “数据收集、清理、分析、出结论” 四步,第一步 “收集数据” 就面临着隐私问题。

 

数据隐私问题在美国已经发生了严重的事故:从美国 Facebook上周股价大跌20%,仍然是对年初爆发出的隐私问题的反弹。

 

目前隐私问题的现状是所有数据在互联网大公司的黑盒子里,至于这些数据到底被谁用了、到底怎么用,我们两眼一抹黑什么也不知道。这种感觉当然不太好,那如果我们走到另一个极端,用 “谁也不许看、谁也不知道” 的办法保护我们的数据,行不行得通呢?

 

 

我们以美国医疗领域为例。美国医疗领域有条《医疗电子交换法案》(简称为 HIPAA),它很强调对每位病人医疗数据的保护。一位病人的具体情况、医疗档案,在这条法案的保护下,只有其就诊医院和保险公司能看到,其他人谁都看不到。

 

保护个人医疗隐私当然十分重要,如果科研机构想利用这些数据开发新药,就会被这 “铜墙铁壁” 碰一鼻子灰,除非该机构得到你的、和参与这项研究每一位患者的书面允许。

 

而一个重要的问题是,从数据角度来说,单个患者信息并不具备价值,患者信息的汇集才有价值。有没有一个平台,在经过患者同意后,在保护患者隐私的情况下,让患者能够把数据分享出去,而且这个平台能够汇集成千上万地患者,让数据聚集起来,具有研究价值?

 

DxChain 希望利用区块链的去中心化和不变性,保护用户隐私,让用户能够在知情的情况下,放心地分享自己数据的同时,能够获得收益,而机构通过这些平台获得大量用户数据而突破研究瓶颈。

 

区块链上的数据隐私保护,业界采用了许多种做法,比如同态加密(Homomorphic encryption)、多方计算(Multi-Party Computation)等,都是通过计算去加密保护隐私,目前常见的还有 SGX,这是通过硬件去加密。

 

DxChain 采用的是一种更实际的解决方案——对关键数据信息加密,从而做到隐私保护,而这个背后是对数据强大的计算能力,“由于我们能够做到对数据细密度的操作,数据入链时都是有结构的,比如数据形成一个表格,有一列是人的姓名,我们就对人名这一列关键信息加密,但是其他的信息公开,不是把整个文件都加密,这种叫做数据模型支持的数据加密”,Wei介绍说。

 

数据收集:打破数据垄断

 

解决数据加密问题,就是让分享数据的用户没有了“隐私”的后顾之忧,而区块链很可能是一个撬动数据所有权革命的杠杆。

 

一个不争的事实是,目前大部分数据都被互联网巨头谷歌、脸书垄断,这些巨头获得用户数据之后,用这些数据盈利,但这有着不合理之处,举个例子就知道了:

 

美国的空调系统非常复杂,维修昂贵且耗时,光是预约就动辄要等十天半个月,如果消费者空调坏了,要找家居电器店、百货商场,哪儿买的找哪儿维修,而不是像国内那样找厂商,而且这都是要付费的。

 

图自网络,版权属于原作者

 

目前的做法是,空调生产商收集用户家里空调的温度,提前发现有可能坏的空调,然后他们把这个信息卖给家居电器店、百货商场等负责空调维修的机构,后者再根据这个信息给消费者有针对性、有选择性地打电话,不少消费者就会说,“哎呀真巧!我的空调还真的有点问题!”

 

这个模式固然很好,但如果你仔细一想,就会觉得有点奇怪:数据是通过收集消费者信息得来的,但最后买单的还是消费者。难道消费者的信息就这么被无偿使用了吗?

 

在 DxChain 的设想下,未来消费者将可以选择把自己的信息放到链上。如果有第三方需要以这个信息为原材料进行分析 —— 不管是空调制造商还是气候研究机构 —— 都可以向数据产生者(在这个例子里,即家里装有空调的人)有偿购买。用这种方式,消费者能够通过分享自己产生数据而获利。

 

我们再说刚才提到的 DxChain 运用在医疗领域的例子。

 

 

在医疗领域,感冒、发烧这种常见病不缺信息,因此也有很多对应药品。但对于罕见病患者就没那么幸运了:信息的零散和缺失给药品研发增加了难度。由于拿不到个人信息,药品研发机构只好和医院、和大学签合同、收集信息,过程曲折漫长、耽误患者治疗。

 

但是,如果有个平台能让患者把自己生病的情况放在上边,药品研发机构就可以直接购买这个信息,患者的病被治好的希望也就多了一分,患者如果能够通过平台售卖数据而获益,帮助他们筹集到更多经费治病,在美国目前昂贵的医疗条件下,是非常有意义的。

 

DxChain 就想成为这个平台。

存储和计算,一个都不能少

 

想成为这个平台,背后核心问题需要解决区块链上的数据的存储计算这两大问题。

 

DxChain 是一个去中心化的大数据存储和计算网络,是一个将区块链的去中心化特性运用到存储和计算领域的开放性公链。

 

目前区块链世界里,存储和计算是怎么做的呢?

 

先说存储。

 

我们都知道,比特币和以太坊的计算和数据存储功能都非常有限,但区块链领域发展迅速,不久后就有了 IPFS,即 “去中心化的、分布式的文件存储系统”。

 

但 IPFS 是个没有链的文件系统,缺乏激励机制,也就是说大家提供信息完全看人品、看心情。 IPFS 有点像区块链版的 “种子”(BitTorrent)。大家谁都想要种子,但谁都不想做种子。做种子既需要带宽、又需要硬盘,除了得到一声 “楼主好人一生平安”,又有什么其他的激励呢?

 

因此有人说:那就给 IPFS 加上区块链,不就有了激励机制了?Filecoin 因此诞生,但目前 Filecoin 进展比较缓慢、尚未落地。

 

说完存储,再说计算。

 

区块链项目 Dfinity 就是想解决区块链的计算问题。Dfinity 是无限扩容的智能分布式云计算系统和第三代区块链,并且高度兼容以太坊现有应用,潜力很大且令人期待,但 Dfinity 没有能够解决数据从何而来的问题。

 

而 DxChain 认为存储和计算不能分家,因此 DxChain 想结合两者、数据为主 —— 当然,这并不是说 “把 Dfinity 和 Filecoin” 攒在一起就能解决问题那么简单,区块链又做存储又做计算,是一个极大的挑战,这需要从系统底层做革新。

 

DxChain 认为单靠一条主链,很难同时满足数据的存储、计算和隐私需求。因此,DxChain 借鉴了闪电网络多条链的思路,添加了存储链、计算链两条侧链,让主链只负责运行智能合约,管理存储和计算侧链,而两条侧链各司其职,分别负责存储和计算,DxChain 把这个系统架构称做“三链合一”。

 

除此之外,DxChain 借鉴了 Hadoop 的思路

 

过去十多年,Hadoop 解决了一个机构、公司内部的数据分布式存储的问题,但如何在不同机构和参与者之间达成信任,从而实现分布式存储,Hadoop 解决不了,但区块链则提供了完美的解决方案。

 

因此,DxChain 将 Hadoop 的技术优点与区块链特有的机制结合起来,解决中心环境下的分布式存储和计算的问题,DxChain 希望能通过这种方式让数据的处理更方便、更高效。

 

从技术细节的角度来看,DxChain 有三大创新之处:

 

● 计算框架下的共识机制采用了 “Verification game + Provable Data Computation(PDC)”的机制,其中Verification game保证了计算过程的可验证性,而PDC则保证了计算结果的可验证性;

 

● DxChain的数据存储的共识机制采用了“Proof of Spacetime (PoSt) + Provable Data Possession(PDP)”的机制,用此来验证旷工连续地提供存储;

 

● DxChain的数据模型是建立在存储之上的,并给数据以定义,数据也就变成了有价值的知识,数据计算也变得方便起来,另外数据模型还帮助实现基于数据模型的加密和differential-privacy的两种隐私防护机制。

 

下一站:价值互联网

 

DxChain 希望能够提供一个平台:在设计上,这个平台由无数的个人电脑或者是特殊设计过的矿机连接在一起组成,这样的设计能够实现存储和计算的低成本;同时,这样的设计能够保证海量数据不被某一个大公司所独占,保证价值上的公平分配。

 

在这个 “数据市场” 上,数据的买卖双方可以到这里各取所需。和传统意义上的市场一样,在数据市场里,不同信息也会有不同的价格,而且同样产品(即数据)的价格也会随着时间波动。比如,年终岁末采购季时,和购物习惯相关的数据就会价格上涨。

 

用 DxChain 共同创始人之一 Allan Zhang 的话来说,DxChain 的终极目标是变成一台 “数据工厂”,这个数据工厂的原材料是我们生活中产生的各种各样的数据,DxChain 的存储功能就是仓库,计算功能就是加工车间,通过存储和计算、再把这些信息放到 “链” 这个平台上,DxChain 把这些无序的、杂乱的数据加工提纯成清晰的、有价值的信息,把现在这个既有噪音、也有信号的互联网变成未来的价值互联网。

 

价值互联网是一个美丽新世界,但这个背后是对区块链存储和计算的攻坚,并不容易,但让人期待。

 

封面图自 American Home Shield

版权属于原作者

 

推荐阅读

区块链报告 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童