AI 中的 Question-Answering 任务，如何将大段文本制作成训练数据呢？

KevinQi · 4 小时 14 分钟前 · 247 次点击

在 Question-Answering 的训练任务中，训练任务通常是结构化的数据，大概是下文这种。

Context	Question	Answer	Answer-start
上下文	问题	回答	回答的开始字符位置

现在我有一大段或者很多纯文字数据，如何将这些制作成训练数据集呢？

11 条回复 • 2023-05-26 11:38:49 +08:00

TimePPT 4 小时 5 分钟前 via Android

纯文本是指原始对话内容还是指纯的知识文档？
前者有角色就能分，后者要做文档 QA 抽取

KevinQi 3 小时 55 分钟前

@TimePPT 谢谢，纯的知识文档，大多是 excel ，还有 pdf 。

DigitalG 3 小时 16 分钟前

可以自己生成吗：Training Question Answering Models From Synthetic Data ，https://arxiv.org/abs/2002.09599
但我觉得这种用途有限。

另外想了解下，如果数据集是这样的话，为什么还要用 QA 任务模型呢？

kingddc314 3 小时 4 分钟前

可以调用 ChatGPT 生成

TimePPT 3 小时 3 分钟前

@KevinQi 不想处理的话，试试用检索增强（ ES 搜索、向量检索）大模型端到端的直接问答，可以参考下 Langchain
如果想有监督，可以调取 GPT-4 让列出可能的 QA 对，然后人工筛选入库

KevinQi 2 小时 54 分钟前

@DigitalG 未必是 QA 模型，目前想采用的 3 个，一个是 QA 模型，一个是 Document Question Answer 模型，还有一个是 Table Question Answering ，但是后面两个在 Huggingface 上都没有找到中文的相关模型，所以想着先试试 QA 模型，利用现有数据对某个中文模型进行微调训练。

KevinQi 2 小时 36 分钟前

@TimePPT 我觉得从纯文本 /文件 /图片抽取信息做 QA 或者 Document QA 的训练数据集，或者更普遍的，“如何从无结资料构建 QA 数据？”，应该是训练 AI 的一个很普遍的步骤，为什么检索不到什么通用工具呢？是不是我检索的关键字不对啊，学术领域这个称呼是什么呢？

TimePPT 2 小时 29 分钟前

搜「文档 QA 抽取」

KevinQi 2 小时 17 分钟前

@TimePPT 这篇检索到了，但是只有论文。

DigitalG 2 小时 6 分钟前 via iPhone

@KevinQi nlp 的思路的话，可以先大规模数据上做无监督的 lm 模型，然后小规模数据上微调面向任务的 head 。如果这么操做呢？

AI 中的 Question-Answering 任务，如何将大段文本制作成训练数据呢？

AI 中的 Question-Answering 任务，如何将大段文本制作成训练数据呢？

Recommend

インスタント 8008 CPU コレクション (インテル、その他)

📲 香港手机号可以注册Facebook吗？香港虚拟手机号能在中国大陆注册脸书

生活近况：更换手机运营商

Top 8 penetration testing tools

From Disney+ to Max, Here Are the Best Streaming Services

浅析 Redis 中 String 数据类型及其底层编码

Kafka实时数据即席查询应用与实践 - vivo互联网技术

微软Build 2023两大主题：Copilots和插件 - 张善友

618 快到了， Win 笔记本求推荐！

生活近况：新的显卡

About Joyk