2

AI 中的 Question-Answering 任务,如何将大段文本制作成训练数据呢?

 10 months ago
source link: https://www.v2ex.com/t/943071
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

V2EX  ›  问与答

AI 中的 Question-Answering 任务,如何将大段文本制作成训练数据呢?

  KevinQi · 4 小时 14 分钟前 · 247 次点击

在 Question-Answering 的训练任务中,训练任务通常是结构化的数据,大概是下文这种。

Context Question Answer Answer-start
上下文 问题 回答 回答的开始字符位置

现在我有一大段或者很多纯文字数据,如何将这些制作成训练数据集呢?

11 条回复    2023-05-26 11:38:49 +08:00
TimePPT

TimePPT      4 小时 5 分钟前 via Android

纯文本是指原始对话内容还是指纯的知识文档?
前者有角色就能分,后者要做文档 QA 抽取
KevinQi

KevinQi      3 小时 55 分钟前

@TimePPT 谢谢,纯的知识文档,大多是 excel ,还有 pdf 。
DigitalG

DigitalG      3 小时 16 分钟前

可以自己生成吗:Training Question Answering Models From Synthetic Data ,https://arxiv.org/abs/2002.09599
但我觉得这种用途有限。

另外想了解下,如果数据集是这样的话,为什么还要用 QA 任务模型呢?
kingddc314

kingddc314      3 小时 4 分钟前

可以调用 ChatGPT 生成
TimePPT

TimePPT      3 小时 3 分钟前

@KevinQi 不想处理的话,试试用检索增强( ES 搜索、向量检索)大模型端到端的直接问答,可以参考下 Langchain
如果想有监督,可以调取 GPT-4 让列出可能的 QA 对,然后人工筛选入库
KevinQi

KevinQi      2 小时 54 分钟前

@DigitalG 未必是 QA 模型,目前想采用的 3 个,一个是 QA 模型,一个是 Document Question Answer 模型,还有一个是 Table Question Answering ,但是后面两个在 Huggingface 上都没有找到中文的相关模型,所以想着先试试 QA 模型,利用现有数据对某个中文模型进行微调训练。
KevinQi

KevinQi      2 小时 36 分钟前

@TimePPT 我觉得从纯文本 /文件 /图片抽取信息做 QA 或者 Document QA 的训练数据集,或者更普遍的,“如何从无结资料构建 QA 数据?”,应该是训练 AI 的一个很普遍的步骤,为什么检索不到什么通用工具呢?是不是我检索的关键字不对啊,学术领域这个称呼是什么呢?
TimePPT

TimePPT      2 小时 29 分钟前

搜「文档 QA 抽取」
KevinQi

KevinQi      2 小时 17 分钟前

@TimePPT 这篇检索到了,但是只有论文。
DigitalG

DigitalG      2 小时 6 分钟前 via iPhone

@KevinQi nlp 的思路的话,可以先大规模数据上做无监督的 lm 模型,然后小规模数据上微调面向任务的 head 。如果这么操做呢?

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK