币界网报道:
Vana 如何用「数据 DAO」和「贡献证明」重构 AI 时代的数据价值链?
撰文:思维怪怪
你有没有想过,为什么像 Reddit、X(前 Twitter)这样的社交媒体可以免费使用?答案其实就藏在你每天发的帖子、点的赞,甚至只是停留的时间里。
曾经,这些平台将你的注意力作为商品卖给广告商。如今,它们找到了一个更大的买家——AI 公司。据报道,仅仅是 Reddit 与 Google 的一项数据授权协议,就能为前者带来每年 6000 万美元的收入。而这笔巨额财富,却与作为数据创造者的你我无关。
更令人不安的是,用我们的数据训练出来的 AI,未来可能还会取代我们的工作。尽管 AI 也可能创造新的就业机会,但这种数据垄断带来的财富集中效应,无疑加剧了社会的不平等。我们似乎正在滑向一个由少数科技巨头控制的赛博朋克世界。
那么,作为普通人,我们该如何在这个 AI 时代保护自己的利益?AI 兴起之后,很多人将区块链视为人类抵抗 AI 的最后一道防线。正是基于这样的思考,一些创新者开始探索解决方案。他们提出:首先,我们要夺回对自己数据的所有权和控制权;其次,我们要利用这些数据,共同训练一个真正为普通人服务的 AI 模型。
这个想法看似理想主义,但历史告诉我们,每一次技术革命都始于一个「疯狂」的构想。而今天,一个名为「Vana」的全新公链项目正在将这个构想变为现实。作为首个去中心化数据流动性网络,Vana 试图让你的数据转化为可自由流通的代币,并以此推动实现真正由用户掌控的去中心化人工智能。
Vana 的创始人与项目源起
事实上,Vana 的诞生可以追溯到麻省理工学院(MIT)媒体实验室的一间教室。在那里,两位怀揣改变世界理想的年轻人——Anna Kazlauskas 和 Art Abal——相遇了。
左:Anna Kazlauskas;右:Art Abal
Anna Kazlauskas 在 MIT 主修计算机科学和经济学,她对数据和加密货币的兴趣可以追溯到 2015 年。那时的她正在参与以太坊的早期挖矿,这段经历让她深刻认识到去中心化技术的潜力。随后,Anna 在美联储、欧洲央行和世界银行等国际金融机构进行数据研究,这些经历让她意识到在未来的世界里,数据将成为一种新的货币形式。
与此同时,Art Abal 在哈佛大学攻读公共政策硕士学位,并在贝尔福科学与国际事务中心深入研究数据影响评估。在加入 Vana 之前,Art 在 AI 训练数据提供商 Appen 公司主导了创新的数据收集方法,这些方法为当今许多生成式 AI 工具的诞生做出了重要贡献。他在数据伦理和 AI 责任方面的洞察,为 Vana 注入了强烈的社会责任感。
当 Anna 和 Art 在 MIT 媒体实验室的课程中相遇时,他们很快发现彼此对数据民主化和用户数据权益有着共同的热忱。他们意识到,要真正解决数据所有权和 AI 公平性的问题,需要一个全新的范式——一个能够让用户真正掌控自己数据的系统。
正是这种共同的愿景,促使他们携手创立了 Vana。他们的目标是打造一个革命性的平台,不仅要为用户争取数据主权,还要确保用户能从自己的数据中获得经济利益。通过创新的 DLP(Data Liquidity Pool)机制和贡献证明(Proof of Contribution)系统,Vana 让用户能够安全地贡献私有数据,共同拥有并受益于由这些数据训练出的 AI 模型,从而推动用户主导的 AI 发展。
Vana 的愿景迅速得到了业界的认可。截止目前,Vana 宣布已经完成了总计 2500 万美元的融资,其中包括由 Coinbase Ventures 领投的 500 万美元战略轮融资、Paradigm 领投的 1800 万美元 A 轮融资,以及 Polychain 领投的 200 万美元种子轮融资。其他知名投资者还包括 Casey Caruso、Packy McCormick、Manifold、GSR、DeFiance Capital 等。
在这个数据就是新时代石油的世界里,Vana 的出现,无疑为我们提供了一个夺回数据主权的重要机会。那么,这个充满潜力的项目究竟是如何运作的?让我们一起来深入了解 Vana 的技术架构和创新理念。
Vana 的技术架构和创新理念
Vana 的技术架构堪称一个精心设计的生态系统,旨在实现数据的民主化和价值最大化。其核心组成部分包括数据流动性池(DLP)、贡献证明机制、名古屋共识、用户自托管数据以及去中心化应用层。这些元素共同构建了一个既能保护用户隐私,又能释放数据潜在价值的创新平台。
1. 数据流动性池(DLP):数据价值化的基石
数据流动性池是 Vana 网络的基本单位,可以将其理解为数据版的「流动性挖矿」。每个 DLP 本质上是一个智能合约,专门用于聚合特定类型的数据资产。例如,Reddit 数据 DAO(r/datadao)就是一个成功的 DLP 案例,吸引了超过 14 万 Reddit 用户加入。它聚合了用户的 Reddit 帖子、评论和投票历史。
用户向 DLP 提交数据后,可以获得该 DLP 特定的代币奖励,比如 Reddit 数据 DAO(r/datadao)的特定代币就是 RDAT。这些代币不仅代表了用户对数据池的贡献,还赋予了用户对 DLP 的治理权和未来收益分配的权利。值得注意的是,Vana 允许每个 DLP 发行自己的代币,这为不同类型的数据资产提供了更灵活的价值捕获机制。
在 Vana 的生态系统中,排名前 16 的 DLP 还能获得额外的 VANA 代币排放奖励,这进一步刺激了高质量数据池的形成和竞争。通过这种方式,Vana 巧妙地将零散的个人数据转化为具有流动性的数字资产,为数据的价值化和流动性奠定了基础。
2. 贡献证明(Proof of Contribution):数据价值的精确度量
贡献证明是 Vana 确保数据质量的关键机制。每个 DLP 都可以根据自身特点,定制独特的贡献证明函数。这个函数不仅验证数据的真实性和完整性,还评估数据对 AI 模型性能提升的贡献度。
以 ChatGPT 数据 DAO 为例,其贡献证明涵盖了四个关键维度:真实性、所有权、质量和独特性。真实性通过验证 OpenAI 提供的数据导出链接链接来确保;所有权则通过用户的邮箱验证;质量评估则借助 LLM 对随机抽样的对话进行打分;独特性则通过计算数据的特征向量并与现有数据比对来确定。
这种多维度的评估确保了只有高质量、有价值的数据才能被接受并获得奖励。贡献证明不仅是数据定价的基础,也是维护整个生态系统数据质量的关键保障。
3. 名古屋共识(Nagoya Consensus):去中心化的数据质量保证
名古屋共识是 Vana 网络的心脏,它借鉴并改进了 Bittensor 的尤马共识(Yuma Consensus)。这一机制的核心思想是通过一群验证节点对数据质量进行集体评估,采用加权平均的方式得出最终分数。
更具创新性的是,验证节点不仅要评估数据,还要对其他验证节点的评分行为进行打分。这种「双层评估」机制极大地提高了系统的公平性和准确性。例如,如果一个验证节点给一份明显低质量的数据打了高分,其他节点会对这一不当行为作出惩罚性评分。
每隔 1800 个区块(约 3 小时)为一个周期,系统会根据这一期间的综合评分,向验证节点分配相应的奖励。这种机制不仅激励了验证节点保持诚实,还能迅速识别和淘汰不良行为,从而维护整个网络的健康运行。
4. 非托管数据存储:隐私保护的最后一道防线
Vana 的一大创新在于其独特的数据管理方式。在 Vana 网络中,用户的原始数据从未真正「上链」,而是由用户自行选择存储位置,比如 Google Drive、Dropbox,乃至在 Macbook 上运行的个人服务器。
当用户向 DLP 提交数据时,他们实际上只是提供了指向加密数据的 URL 和一个可选的内容完整性哈希。这些信息被记录在 Vana 的数据注册合约中。验证者在需要访问数据时,会请求解密密钥,然后下载并解密数据进行验证。
这种设计巧妙地解决了数据隐私和控制权的问题。用户始终保持对自己数据的完全控制,同时又能参与到数据经济中。这不仅确保了数据的安全性,还为未来更广泛的数据应用场景提供了可能。
5. 去中心化应用层:数据价值的多元化实现
Vana 的顶层是一个开放的应用生态系统。在这里,开发者可以利用 DLP 积累的数据流动性构建各种创新应用,而数据贡献者则可以从这些应用中获得实际的经济价值。
例如,一个开发团队可能会基于 Reddit 数据 DAO 的数据训练一个专门的 AI 模型。参与数据贡献的用户不仅可以在模型训练完成后使用它,还可以按照各自的贡献比例获得模型产生的收益。实际上这样的 AI 模型已经开发出来了,详情可阅读《触底反弹,AI 赛道老币 r/datadao 为何起死回生?》。
这种模式不仅激励了更多高质量数据的贡献,还创造了一个真正由用户主导的 AI 开发生态系统。用户从单纯的数据提供者,转变为 AI 产品的共同所有者和受益者。
通过这种方式,Vana 正在重塑数据经济的格局。在这个新的范式中,用户从被动的数据提供者转变为积极参与、共同受益的生态系统建设者。这不仅为个人创造了新的价值获取渠道,也为整个 AI 行业注入了新的活力和创新动力。
Vana 的技术架构不仅解决了当前数据经济中的核心问题,如数据所有权、隐私保护和价值分配,还为未来的数据驱动创新铺平了道路。随着更多的数据 DAO 加入网络,更多的应用在平台上构建,Vana 有潜力成为下一代去中心化 AI 和数据经济的基础设施。
Satori 测试网:Vana 的公开测试场
随着 Satori 测试网于 6 月 11 日的推出,Vana 向公众展示了其生态系统的雏形。这不仅是技术验证的平台,更是未来主网运行模式的预演。目前,Vana 生态为参与者提供了三条主要路径:运行 DLP 验证节点、创建新的 DLP,或者向现有 DLP 提交数据参与「数据挖矿」。
运行 DLP 验证节点
验证节点是 Vana 网络的守门人,负责验证提交到 DLP 的数据质量。运行验证节点不仅需要技术能力,还需要足够的计算资源。根据 Vana 的技术文档,验证节点的最低硬件要求为 1 个 CPU 核心、8GB RAM 和 10GB 高速 SSD 存储空间。
有意成为验证者的用户需要先选择一个 DLP,然后通过该 DLP 的智能合约注册成为验证者。一旦注册获得批准,验证者就可以运行特定于该 DLP 的验证节点。值得注意的是,验证者可以同时为多个 DLP 运行节点,但每个 DLP 都有其独特的最低质押要求。
创建新的 DLP
对于那些有独特数据资源或创新想法的用户,创建新的 DLP 是一个极具吸引力的选择。创建 DLP 需要深入理解 Vana 的技术架构,特别是贡献证明和名古屋共识机制。
新 DLP 的创建者需要设计特定的数据贡献目标、验证方法和奖励参数。同时,他们还需要实现一个能准确评估数据价值的贡献证明函数。这个过程虽然复杂,但 Vana 提供了详细的模板和文档支持。
参与数据挖矿
对于大多数用户来说,向现有 DLP 提交数据参与「数据挖矿」可能是最直接的参与方式。目前,已经有 13 个 DLP 得到了官方推荐,涵盖了从社交媒体数据到金融预测数据的多个领域。
Finquarium:汇集金融预测数据。
GPT Data DAO:专注于 ChatGPT 聊天数据导出。
Reddit Data DAO:聚焦 Reddit 用户数据,已正式启动。
Volara:专注于 Twitter 数据的收集和利用。
Flirtual:收集约会数据。
ResumeDataDAO:专注于 LinkedIn 数据导出。
SixGPT:收集和管理 LLM 聊天数据。
YKYR:收集 Google Analytics 数据。
Sydintel:通过众包智能揭示互联网的黑暗角落。
MindDAO:收集用户幸福感相关的时间序列数据。
Kleo:构建全球最全面的浏览历史数据集。
DataPIG:关注代币投资偏好数据。
ScrollDAO:收集和利用 Instagram 数据。
这些 DLP 有的还在开发,有的已经上线,但是都处于预挖矿阶段。因为只有等主网上线之后,用户才能正式提交数据进行挖矿。不过,用户现在可以通过多种方式提前锁定参与资格。例如,用户可以参与 Vana Telegram App 中的相关挑战活动,或者在各个 DLP 的官方网站上进行预注册。
总结
Vana 的出现,标志着数据经济正在迎来一场范式转变。在当前 AI 浪潮中,数据已然成为新时代的「石油」,而 Vana 则试图重塑这一资源的开采、精炼和分配模式。
本质上,Vana 正在构建一个数据版的「公地悲剧」解决方案。通过巧妙的激励设计和技术创新,它使得个人数据这一看似无限供给却难以变现的资源,转变为一种可管理、可定价、可流通的数字资产。这不仅为普通用户参与 AI 红利分配开辟了新途径,更为去中心化 AI 的发展提供了一个可能的蓝图。
然而,Vana 的成功仍面临诸多不确定性。技术上,它需要在开放性和安全性之间寻找平衡;经济上,它需要证明其模式能够产生持续的价值;社会层面,它还需应对潜在的数据伦理和监管挑战。
更深层次来看,Vana 代表了一种对现有数据垄断和 AI 发展模式的反思与挑战。它提出了一个重要问题:在 AI 时代,我们是选择继续强化现有的数据寡头,还是尝试构建一个更加开放、公平、多元的数据生态?
无论 Vana 最终能否成功,它的出现都为我们提供了一个重新思考数据价值、AI 伦理和技术创新的窗口。在未来,类似 Vana 这样的项目或许会成为连接 Web3 理想与 AI 现实的重要桥梁,为数字经济的下一阶段发展指明方向。
Subscribe to Updates
Get the latest creative news from FooBar about art, design and business.
Vana Creating Value by Enabling Free Flow of Data as Tokens in the AI Era
Add A Comment