5

OpenAI要向出版商付费,终究还是没有免费的午餐

 4 months ago
source link: https://www.36kr.com/p/2597315561011843
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

OpenAI要向出版商付费,终究还是没有免费的午餐

三易生活·2024-01-09 12:36
在OpenAI造出能自我生产内容的AI之前,被新闻出版商围猎几乎是必然。

此前在去年年末,OpenAI CEO Sam Altman在社交平台公布了OpenAI的2024年“愿望清单”,下一代人工智能模型GPT-5赫然在列。

此前有传言称,GPT-4的参数量达到了1.5万亿,模型规模是GPT-3的数倍,因此也可想而知,未来GPT-5的参数规模必然将会更上一层楼。而这也就意味着,OpenAI训练GPT-5所需的语料也将会达到史无前例的程度。

interlace,1

为此,OpenAI已经开始为GPT购买新的语料。

去年12月中旬,OpenAI方面就曾宣布与新闻出版巨头施普林格出版集团(Axel Springer)达成一项史无前例的协议,OpenAI将付费使用施普林格旗下出版物的内容,以填充ChatGPT的答案、并将媒体的内容作为其训练数据。日前OpenAI的知识产权和内容主管Tom Rubin在接受媒体采访时也证实,OpenAI正在积极与传媒行业接触。

Tom Rubin表示,“我们正在与许多出版商进行许多谈判和讨论。他们很活跃,也非常积极,谈判进展得很顺利。你已经看到了我们公开的部分交易,未来还会有更多。”

然而,海外的出版商似乎对于OpenAI给出的价码不太满意。

最近与OpenAI进行谈判的两名媒体公司高管就表示,OpenAI仅仅愿意向部分媒体公司提供每年100万至500万美元的授权费用。即使是对小型出版商来说,这也是一个很小的数字,所有有观点认为这可能会让OpenAI很难达成协议。

interlace,1

OpenAI最近开始积极投身于购买版权内容的原因其实很简单,因为已经版权方“盯上”了他们。就在去年12月27日,大名鼎鼎的《纽约时报》就指控OpenAI和微软未经授权使用其数以百万计的报道,以训练ChatGPT等人工智能聊天机器人。

《纽约时报》方面认为,“(OpenAI)试图搭《纽约时报》在新闻领域巨额投资的便车,在未经许可或未付款的情况下利用《纽约时报》的内容来制造替代产品”。

为什么在2023年年末,OpenAI使用未经许可的数据会被拿出说事呢?答案是GPT-4对于数据或者说语料的渴求,使得目前互联网上公开数据源的开源语料库已经无法满足。

比如,训练ChatGPT的45TB数据主要来源于Common Crawl、维基百科、美国专利文件数据库。其中,Common Crawl是一个抓取互联网、并提供数据开源下载的开源数据库,截止2023年4月其一共汇聚了31亿个网页、共有400TB的原始数据,而纽约时报》的域名就是最具代表性的专有来源之一,贡献了超过1600万条内容。

interlace,1

然而Common Crawl、维基百科、美国专利文件数据库不是政府机构、就是非盈利性组织,所以《纽约时报》没法使用版权这个武器,但OpenAI就不一样了,拥有ChatGPT Plus的它已经是一个盈利组织。而《纽约时报》的底气,则源自于OpenAI单单是训练ChatGPT,就已经几乎将互联网一切英语资源一网打尽,GPT-4的训练更是使用了超过13万亿tokens,甚至OpenAI方面自己都承认,训练GPT-4时使用了来自《纽约时报》的版权内容。

为了避免第二个、第三个《纽约时报》出现,OpenAI就只能选择付钱来购买内容。

那么问题就来了,每年100万至500万美元的授权费用,出版商为什么会觉得这笔钱很少呢?因为在出版商看来,向OpenAI授权相关数据几乎就等于“卖出绞死自己的最后一根绞索”。

interlace,1

如果说当年的搜索引擎与出版商是双赢的关系,毕竟前者需要内容源来满足用户的信息需求,出版商则需要搜索引擎将流量引导到自己的网站,并且搜索引擎只提供简介和链接,详情则要用户点开链接到内容提供方的源头去看。可现在的ChatGPT、Bing Chat却是直接在自己的页面中向用户提供内容,这无疑就是对于出版商的釜底抽薪。

换而言之,通过ChatGPT用户可以直接看到由AI整合的新闻,根本就不需要去《纽约时报》官网再去看相关的内容,长此以往,新闻出版机构存在的意义又在哪里呢?

并且由于AI大模型的发展趋势俨然已经势不可挡,正如当年新闻出版行业被迫与搜索引擎、社交网络媾和一样,因此以《纽约时报》为代表的新闻出版商选择以自己手中的版权作为武器,试图在蓬勃发展的AI行业中分到一杯羹。

interlace,1

而OpenAI大张旗鼓地向出版商购买版权,其实也是一个阳谋。现阶段,大模型赛道的现状是资本和技术双密集,算力成本极其昂贵,以至于有相当多的AI初创企业被迫接受拥有算力资源的英伟达的投资,以此来获得更便宜的算力。如果未来数据或者语料也成为大模型行业的成本,无疑就将会劝退一大批竞争者,这对于保持OpenAI竞争力的相对领先,显然是有很大意义的事情。

可是OpenAI训练GPT需要的内容实在太多,以至于即使不缺资金支持,也难以让每一家出版商都满意,这就是当下OpenAI面临的困局。当拥有数据的一方经过了2023年AI大模型领域爆发式的增长后,已经充分认识到了手中的数据是有价值的,已经处于衰退的出版商就必然指望从这些AI企业手获得更多的收益。

因此从某种意义上来说,在OpenAI造出GPT-5、并产生一个能自我生产内容的AI之前,被新闻出版商围猎几乎是必然。

本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK