7

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

 2 years ago
source link: https://www.qbitai.com/2023/04/48694.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

head.jpg十三 2023-04-23 19:23:25 来源:量子位

怎么收费?学马斯克

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

ChatGPT,遭到了一波反向收费

而管OpenAI要钱的,正是全球最大程序员问答网站StackOverflow

理由是这样的:

你们拿我家的数据去训练AI了。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

无独有偶,在StackOverflow之前,Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。

Reddit老板给出的理由更是直白:

我们的数据非常有价值,不想免费提供给科技巨头们。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

不得不说,这波围绕类ChatGPT展开的“商战”着实有点意思。

不过围观的网友们就不那么乐观了:

唯一没有获利的……好像就是用户了。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

科技巨头们要为训练数据买单了

我们都知道,训练一个像诸如ChatGPT这样的AI,背后定然需要海量的数据。

无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。

但这些科技巨头们一般获取这些数据的方式都是从网上抓取,也因此不会给对应数据背后的公司掏钱。

他们所获取的数据来源,就包括了StackOverflow、Reddit在内的数千个在线“资源”。

然后科技巨头们就会将这些数据“喂”给大模型,让对话AI变得更聪明、更智能。

待产品们成熟可以“上岗”之后,科技巨头们就会开启付费模式,例如我们熟知的ChatGPT Plus、GitHub Copilot等等。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

但在这么一个过程中,像StackOverflow和Reddit这样的网站,就有点惨了。

首先,就是我们刚才提到的,这些AI拿着他们家的数据做训练,变得更强更优秀。

其次,这些AI的诞生似乎对于它们来说并没有太大的益处,反倒可能会变成非常有竞争力的对手。

于是乎,Reddit就率先不干了,CEO Steve Huffman直接撂下狠话:

想白嫖,没门!得交钱。

而后StackOverflow的CEO Prashanth Chandrasekar也公开赞成Reddit的做法。

不仅如此,他还认为这些大语言模型(LLM)的开发人员还违反了自家网站用户们的权益。

因为在StackOverflow条款中有这样的明确规定:

用户拥有他们在Stack Overflow上发布内容的所有权,但所有内容均受知识共享许可的约束,该许可要求以后使用这些数据的任何人都说明其来源。

Chandrasekar认为,日后科技巨头们拿着自家的类ChatGPT的产品去出售的时候,开发人员是解释不清用了StackOverflow哪些用户的问答去训练的模型:

因此,他们违反了知识共享许可。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

据了解,StackOverflow和Reddit目前都没有对数据收费做明确的公示,而且价格也没有定下来。

但另一方面,各种大语言模型背后的企业,也正在努力降低开发的成本。

将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢?

反正Reddit CEO的表态是:

爬取Reddit数据产生了价值,却不将任何价值返还给我们的用户,这是个问题。

会怎么收费?

虽然目前StackOverflow和Reddit都没有明确训练数据的价格,但有媒体猜测,他们可能会借鉴马斯克推特的“定价路线”。

例如在这个月,马斯克就提高了访问推特数据的价格——42000美元/5000万条推文。

更戏剧性的是,马斯克前一阵子还以“OpenAI非法使用推特数据训练”为由,准备起诉OpenAI。

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

而不仅是文字领域,在图片生成领域,因训练数据而产生的纠纷也是屡见不鲜。

例如Getty Image就在此前起诉了OpenAI的对手Stability AI。

理由是涉嫌使用超过1200万张照片且之前没有寻求过许可。

至于像StackOverflow和Reddit最终将如何定价,还需要等待他们官方的表态。

但值得明确的一点是,随着这一波AIGC热潮的到来,其背后的各种“规矩”,是值得深入探讨、商定了。

参考链接:
[1]https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
[2]https://qz.com/reddit-ai-bots-training-payment-1850352526
[3]https://twitter.com/ruchowdh/status/1649168431063736320

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK