0

kotlin 源代码数据集

 11 months ago
source link: https://www.v2ex.com/t/950972
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

V2EX  ›  Kotlin

kotlin 源代码数据集

  bigtang · 4 小时 35 分钟前 · 276 次点击

很多公司不愿意从 java 转向 kotlin ,原因是你能想到的几乎所有编程问题,bug ,一搜索都会有一堆 java 案例,而 kotlin ,那则少的可怜,因为 kotlin 毕竟是一门新生语言,虽然 java 可以转为 kotlin ,但对 kotlin 新手还是不友好,转换经常会产生一些编译错误,新手一筹莫展。

如果有大量的 kotlin 源代码可参考,这个问题会大有改观。

BigCode 数据集是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。该数据集包含了来自 Stack Exchange 平台上的问题和答案,包括 StackOverflow 的编程话题下的问题和答案。BigCode 数据集可以用于许多自然语言处理任务,如代码补全、代码摘要、代码搜索等。此外,BigCode 数据集还可以用于研究代码的语义和结构,以及代码的演化和变化。BigCode 项目中包含了 StarCoder 、The Stack 和 SantaCoder 等工件,其中 StarCoder 是用于编码的最先进的语言模型,The Stack 是可用的最大的预训练数据集,包含宽容的代码,而 SantaCoder 是一个参数达到 1.1B 的编码模型。

BigCode 中就有大量的 kotlin 源码,数量是 13G, 375 万个 kt 文件.
下载方法: https://huggingface.co/datasets/bigcode/the-stack/tree/main/data
打开后,点击底部的 Load more files, 直到看见 kotlin, 点击 kotlin
就会看到有 15 个 parquet 文件下载
可以用 Python 对 parquet 文件解压:

import pyarrow.parquet as pq
table = pq.read_table('input.parquet')
table.to_pandas().to_csv('output.csv')

这样你就可以在本地检索 kotlin 源代码了,
在线搜索:源代码搜索网站 www.tanglib.com 提供了本 kotlin 源代码数据集在线全文检索。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK