3

GPT-4 训练数据偏科幻可能影响表现并版权纠纷 | myfreax

 1 year ago
source link: https://www.myfreax.com/openais-chatgpt-and-gpt-4-memorized-these-books/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

GPT-4 训练数据偏科幻可能影响表现并有版权纠纷

大型语言模型训练用的数据来源繁多,OpenAI 未公开过来源,但有学者分析训练数据偏科幻可能影响表现并有版权纠纷

Updated At 4 May 2023 2 min read
By myfreax
GPT-4 训练数据偏科幻可能影响表现并有版权纠纷

GPT-4 训练数据偏科幻可能影响表现并有版权纠纷

大型语言模型训练用的数据来源繁多,OpenAI 未公开过来源,但有学者分析,发现含不少知名小说内容,多是科幻和奇幻小说。

加州大学柏克莱分校学者发表论文,研究 ChatGPT / GPT-4 有多少本小说内容。OpenAI 模型训练过程含大量版权物,收录标准视网路出现频率高低。

最有名的小说有《哈利波特》、《魔戒》、《饥饿游戏》、《银河便车指南》、《一九八四》和《冰与火之歌》等。

学者强调并非尝试完全解开 GPT-4 训练数据库的谜团,这些小说也并非完整收录至模型,只研究小说内容与模型表现是否有关。

而他们发现,GPT-4 训练用小说多是科幻和奇幻,其他类作品相对少,国际英语文学作品和黑人作品就不多。

模型训练偏重科幻和奇幻小说,对叙事和表现的影响值得思考,确保训练模型时用什么数据透明公开很重要,因此开源模型会是更好方式,希望此研究协助提升收集数据训练时的负责任标准。

另一问题是,当更多版权物内容进入大型语言模型,开发科技企业将会遇到更多版权法律纠纷,使用这些数据训练的模型能否公平使用,只能留待法院判定。

shutterstock_hunger_games.jpg

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK