基于区块链的机器学习市场

前言：区块链要想真正影响世界，它有一个很重要的突破口就是跟人工智能的结合。对于创业公司来说，人工智能发展最大瓶颈就是缺乏足够多的优质数据。这些数据几乎被科技巨头所拥有。而区块链通过激励机制，形成数据提供者、数据科学家、用户、节点服务提供者等开放式的多方共赢网络，一旦形成了正向循环，它有机会构建有史以来最强大的人工智能系统。当然，这里面也会涉及落地的难点，比如多方计算的落地、隐私保护、不同贡献者的价值衡量等细节问题。目前看，要解决的问题很多，看上去困难重重，但随着越来越多的创新者进入，难题会一个个得到解决。本文作者是Fred Ehrsam，来源于medium.com,由蓝狐笔记社群Anthony翻译。

基于区块链数据市场训练的机器学习模型有可能创造出世界上最强大的人工智能。

它们结合了两个强有力的元素：一是隐私的机器学习。它允许在不泄露敏感隐私数据的前提下进行模型训练。二是基于区块链的激励。区块链系统将吸引最好的数据和模型，来使其更加智能。结果是在公开市场上，任何人都能够售卖他们的数据，同时保护他们的隐私。开发者则通过提供激励获得算法所需的最佳数据。

构建这样的系统极具挑战性，但简单的初始版本看起来是有可能的。我相信这样的市场将把我们从当前的Web 2.0大公司数据垄断时代进化到数据和算法公开竞争的Web 3.0时代。两者都直接商业化。

由来

这个想法源自于2015年与Numerai的Richard交谈。 Numerai是一家对冲基金，它会向数据科学家发送加密的市场数据，这些数据用于构建各自的股票市场模型。Numerai结合最佳模型，并提交到“元模型”中，并通过“元模型”在市场中进行交易。如果模型表现良好，数据科学家会获得收益。

让数据科学家们进行竞争似乎是一个很赞的想法。它让我想到：是否能够创建一个完全去中心化的系统，可以应用到更通用的场景？我的答案是肯定的。

实施

举个例子，让我们先尝试创建一个完全分布式的系统，用来进行加密货币的交易。以下这些是架构类似系统的元素：

数据

数据提供者对数据拥有权益，并使其可供建模者使用。

构建模型

建模者创建模型并选择用于训练的数据。在不泄露基础数据的安全情况下，进行模型训练。模型也会有权益。

AvqYfqF.jpg!web

元模型的构建

基于算法创建元模型，该算法考虑每个模型权益。

创建元模型是可选的——你可以想象使用的模型是那种还没被整合进元模型中的。

使用元模型

智能合约采用元模型，并通过去中心化交易所在链上进行交易。

分配收益或损失

经过一段时间后，交易产生盈利或亏损。这种利润或损失在元模型的贡献者之间进行分配，这取决于模型有多智能。如果模型造成损失，该模型的部分或全部权益会被没收。同时，对于模型的数据提供者，也会执行类似的利益分配或权益消减机制。

可验证的计算

每个步骤的计算要么执行中心化，中心化则可验证且具有挑战性（使用类似于Truebit的可验证游戏），要么实施去中心化，使用安全多方计算。

托管

数据和模型要么托管在IPFS上，要么托管在安全的多方计算网络中，因为链上存储太昂贵了。

是什么让 这个系统强大？

激励措施 吸引全球最好 的数据

吸引数据的激励措施是系统中最有效的部分，因为数据往往是大多数机器学习的最主要限制因素。通过开放式激励，比特币创建了世界上算力最强的新兴系统。同样，设计良好的数据激励结构将为应用程序带来世界上最好的数据。并且几乎不可能关闭这个有数千或数百万数据来源的系统。

算法之间的竞争

算法或模型之间的公开竞争，这在之前是没有过的。可以想象一下，一个分布式的Facebook，有着数千种竞争的“信息流”算法。

透明的奖励机制

数据和模型提供者可以看到他们获得公平的价值收益，因为所有计算都是可验证的，这让他们更有动力参与其中。

自动化链上执行

所有执行通过链上自动完成，并且价值直接转换为代币，这就创建了一个自动化且可信任的闭环。

网络效应

来自用户、数据提供者和数据科学家的多边网络效应使系统迅速自我增强。它表现得越好，吸引的资金越多，这意味着更多的潜在价值输出，这会吸引更多的数据提供者和数据科学家，他们使系统变得更加智能，从而吸引更多资金，实现自循环。

隐私保护

除了以上几点之外，一个更重要的是隐私保护。它允许：

1）人们提交私密的数据；

2）防止数据和模型的经济价值泄漏。如果在公开情况下不加密，数据和模型会被免费拷贝及被人使用，而这些人可能并没有贡献任何工作。也就是存在搭便车的问题。

对搭便车问题的部分解决方案是私下交易数据，即使买家选择再次出售或发布数据，其价值也会随着时间而衰减。但是，这种方法将我们限制在短期内使用的场景，仍然会产生典型的隐私问题。因此，更复杂更强大的方法是使用一种安全计算方式。

安全计算

安全计算方法允许模型在不泄漏数据本身的情况下训练数据。现今使用和研究的3种主要安全计算的形式：同态加密（HE），安全多方计算（MPC）和零知识证明（ZKP）。目前用于机器学习最多是多方计算，因为同态加密往往太慢，而零知识证明应用于机器学习效果还不明显。安全计算方法正处于计算机科学研究的前沿。虽然它们比常规计算慢几个数量级，也代表了系统的主要瓶颈，但近年来一直在改进。

终极推荐系统

为了说明私有机器学习的潜力，想象一下，一个名为“终极推荐系统”的应用程序。它会监视你在设备上执行的所有操作：浏览历史记录，应用程序中的所有操作，手机上的图片，位置数据，消费历史记录，可穿戴传感设备，短信，家中的摄像头，未来AR眼镜的摄像头。然后它会为你提供建议：你应该访问的下一个网站，要阅读的文章，要收听的歌曲或要购买的产品。

这个推荐系统非常有效。它比Google，Facebook或其他任何现有的数据孤岛都要强大。因为它拥有最完整的视图，并且可以更及时地从数据中学习，否则这些数据将过于私密而无法使用。

与之前的加密货币交易系统类似，它允许专注于不同领域的模型（例如：网站推荐音乐），以此来竞争获取用户加密数据并向用户推荐内容，甚至可能通过付费来促使用户贡献数据或注意力。

虽然Google的联合学习和Apple的差异隐私在私有机器学习方向上迈进了一步，但仍然需要获得用户信任，还不允许用户直接检查它们的安全性，存在数据孤立等问题。

目前的方法

现在还是很早期。还没有多少项目，大多数团队都在试图解决一小块问题。

Algorithmia Research的一个简单构建是在高于某个回测阈值的模型上给予一个奖励：

q2IzE3j.jpg!web

（Algorithmia Research 的机器学习模型上简单地创造了一笔赏金的设计）

Numerai目前开启进一步提升：它使用了加密数据（虽然不是完全同态），它将众包模型组合进元模型，并根据未来表现提供奖励（一周股票交易时间），而不是通过以太坊代币Numeraire进行回溯测试。

数据科学家必须将Numeraire作为游戏中的代币，激励未来的表现，而不是已发生的事情。但是，目前它的数据集中分发，最重要的部分被限制了。

目前为止，还没有人成功地创建过基于区块链的数据交易市场。“ Ocean”是早期的一个尝试。

还有一些人从创建安全的计算网络开始。例如Openmined正在创建一个多方的安全计算网络，基于Unity上训练机器学习模型，并能在任何设备上运行，包括游戏控制台（类似于Folding at Home），然后再扩展到安全MPC。 Enigma也有类似的策略。

一个迷人的最终状态是，共同拥有元模型。元模型可以给数据提供者和模型创造者们拥有权，这个权益跟模型的智能程度成正比。模型将代币化，可以随着时间的推移支付股息，甚至可能由训练它们的人管理。一种共同拥有的智能。最初Openmined视频展出的是我迄今为止看到的最接近的构想。

哪些方法可能首先起作用？

我无法知道哪些是最好的结构，但我还是有一些个人的看法。

我评估区块链项目的思想是：在某个范围内，从物理原生属性到数字原生属性，再到区块链原生属性，区块链原生属性越多越好。区块链原生属性越少，就越依赖于引入可信的第三方，增加了复杂度，并降低了与其他系统一起构建的易用性。

这意味着如果创造的价值是可量化的，系统就能更好运行- 理想情况下，直接用代币形式更好，那将是一个干净的闭环系统。将之前的加密货币交易系统与识别X射线中的肿瘤的系统进行比较，在后者中，你需要说服一家保险公司X射线模型是有价值的，并且在有多大价值的问题上讨价还价，然后相信一小群人来验证模型的成功或失败。

这并不是说更积极的数字原生属性的社会不会出现。像前面提到的推荐系统一样可能非常有用，如果附加到策展市场，那是另一种情况，模型在链上运行，系统奖励代币，再次创建一个干净的闭环。虽然现在似乎还不太清淅，但我希望区块链原生项目随着时间的推移而得到扩展。

启示

首先，去中心化的机器学习市场可以突破当前科技巨头的数据垄断。在过去的20年里，巨头们对互联网上价值资源进行了标准化并商业化，形成了专属的数据网络和围绕数据产生的强大网络效应。结果，价值创建从数据转移到算法。

BrmURvE.jpg!web

（技术的标准化和商业化，我们即将接近数据垄断网络时代的终结。图表来自于Placeholder）

换句话说，他们为AI创建了一个直接的商业模式，喂养并训练它。

其次，他们创造了世界上最强大的人工智能系统。通过直接的经济激励吸引了最好的数据和模型。他们的力量随着多边网络效应的增加而增强。随着Web 2.0时代数据网络垄断商品化，它们似乎有可能成为下一个胜出者。我们可能还需要几年时间，但方向看起来是正确的。

第三，如推荐系统案例所示，搜索将被反转。不是人去搜索产品，而是产品去搜索和争取人（这种框架归功于布拉德）。每个人都可能拥有自已的策展市场，推荐系统根据个体相关性的定义，算法模型争相为其推荐最相关的内容。

第四，它们将使我们能够获得类似谷歌和Facebook等公司强大的基于机器学习的服务，同时不会泄露我们的隐私数据。

第五，机器学习发展会更快，因为任何工程师都可以访问开放的数据市场，而不是只有大型Web 2.0公司中的工程师才能获得。

挑战

首先，安全计算方法目前还相当慢，而且机器学习在计算上还很昂贵。但另一方面，由于人们对安全计算方法有了更多兴趣，一切正在变好。在过去的6个月内HE、MPC和ZKP性能提升的新方法已经出现。

一组特定数据或模型对元模型是有价值的，但关于如何计算价值还是很困难的。

清理和格式化众包数据也具有挑战性。我们可能会看到一些工具、标准化和小企业的组合来解决这个问题。

最后，具有讽刺意味的是，用于创建此类系统的通用构造的商业模式不如创建单个实例那么明确。这似乎更适用于许多新的加密原语，包括策展市场。

结论

机器学习与区块链激励相结合，可以在各种应用中创造出最强大的机器智能。随着时间的推移，存在可以解决的重大技术挑战。但他们的长期潜力巨大，并且有可能从目前大型互联网公司对数据的控制中脱颖而出。它们也有点可怕——因为系统引导出自己的存在，自我强化，消费隐私数据，几乎不可能停止，不可能被关闭，创建它们是否有点像召唤了前所未有的强大的异教神摩洛克(Moloch)？无论如何，它们是加密货币将如何慢慢地，然后突然进入每个行业的另一个突破口。

Recommend

Deep Learning Question-Answering System

What's new in the Ionic 4 Beta

Hands-on With ARIA: Accessibility Recipes for Web Apps

react-shimmer: React <img> component that simulates a shimmer effect while...

再谈高可用性(10.11)

作为产品经理，怎么进行产品可行性分析？

优惠券码:京东商城全品类券（两组，不同面额共9张）领券防身，不同程度满减_优惠券码

你所知道的最简单有效的减脂方法是什么？ - 知乎

使用Python CGIHTTPServer绕过注入时的CSRF Token防御

短网址安全浅谈

About Joyk