

AutoDev Coder 6.7B 代码微调模型(v1 试验版)
source link: https://www.phodal.com/blog/autodev-coder-v1/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Posted by: Phodal Huang Jan. 7, 2024, 11:34 a.m.
太长不读性:
适用于 AutoDev 的编码大模型 AutoDev Coder 6.7B 第一个勉强可用的版本出来的。
- HuggingFace 首页:https://huggingface.co/unit-mesh (暂时没有资质提供直接下载,🐶🐶)。
- 数据集下载地址:https://huggingface.co/datasets/unit-mesh/autodev-datasets
PS:由于 AutoDev 1.5.1 在 JetBrains 市场等待审批,而老外们正在休完假,所以模型在 1.5.1 上的体验会比 1.5.0 略微好一点。
除此,在有了更好的算力支持,经过更好的补全测试之后,我们也会将原来的 Inlay 补全模式加回来。
AutoDev Coder 6.7B v1 试验版
当前版本基于 LLaMA 架构下的 DeepSeek Coder 6.7b instruct 模型微调的。
注意事项:作为试验版,主要是为了磨合模型、数据工具与 IDE 插件,以达成更好的协调。因此,在生成质量还需要进一步提高。
AutoDev Coder 64k 数据集
如下是 AutoDev Coder v1 64k 的指令组成:
文件名 | 选取的指令数 |
---|---|
java_oss.jsonl | 4000 |
python_oss.jsonl | 4000 |
code_bugfix_cleaned_5K.json | 4000 |
codeGPT_CN_cleaned_20K.json | 15000 |
code_summarization_CN_cleaned_10K.json | 8000 |
code_generation_CN_cleaned_5K.json | 4000 |
summary.jsonl | 25000 |
其中的 summary.jsonl 是由我们开源的代码微调数据框架 UnitGen 生成(https://github.com/unit-mesh/unit-gen)。
我们挑选了几十个开源软件 Java 和 Kotlin 语言,根据 AutoDev 插件的指令生成,主要分为三类:
- 补全(行内、行间、块间)
详细说明可以见 UnitGen 项目和文档:https://github.com/unit-mesh/unit-gen。
FAQ:AutoDev Coder 模型评估
暂时还在设计中。由于我们需要结合 AutoDev 指令与不同的语言如 Java、 Kotlin 、TypeScript 等语言,而非各种开源模型中喜欢用的 Python 体系,所以需要重新思考怎么设计。
我们前期采用 OSS Instruct 等指令集作为自然语言生成代码的补充,后来发现有一半的指令(~50,000 )与 Python 相关,后来从中刷选出 Java 大概在 ~5,000 左右。在 AutoDev 中采用结果并不是很好。
FAQ:AutoDev 指令
AutoDev 采用的是相关上下文策略,所以在指令上与其它工具有所差异。详细见:https://github.com/unit-mesh/auto-dev
Recommend
-
15
训练CV模型新思路来了:用NLP大火的Prompt替代微调,性能全面提升
-
8
Posted by: Phodal Huang April 18, 2023, 10:11 p.m. 围绕于探索 AI 对软件研发的影响,并在有了 LLM 微调工程化能力之后,我们上周末又开源了一个适用于 AI 研发提效的工具:AutoDev。如...
-
9
QLoRa:在消费级GPU上微调大型语言模型 作者:Benjamin Marie 2023-06-02 15:47:49 大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如,650亿个参数模型需要超过780 Gb的GPU内存。这相当于10个A100 80gb...
-
4
最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作
-
13
项目代码:
-
2
Posted by: Phodal Huang July 23, 2023, 2:24 p.m. 几个月前,我们朝着探索:如何结合 AIGC 的研发效能提升的目标?开源了 AutoDev,如 GitHub 所介绍的:
-
5
Posted by: Phodal Huang Aug. 6, 2023, 3:43 p.m. 四月,在那篇《AutoDev:AI 突破研发效能,探索平台工程新机遇》,我们初步拟定了 AI 对于研发的影响。我们有了几个基...
-
8
[译][论文] LLaMA 2:开放基础和微调聊天模型(Meta/Facebook,2023) Published at 2023-08-06 | Last Update 2023-08-06 本文来自 2023 年 Meta(facebook)的大模型论文:
-
6
AutoDev 1.1 更新:自定义大模型、自定义 prompt 行为项、自定义规范 Posted by: Phodal Huang Aug. 20, 2023, 11:41 a.m. 在过去的半个月里,我们为开源辅助编...
-
4
AutoDev 1.4 规模化 AI 研发辅助:团队 Prompts、自定义活文档、代码检视 Posted by: Phodal Huang Oct. 22, 2023, 3:58 p.m. 在过...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK