2

多模内容理解在百度商业广告中的探索实践

 1 month ago
source link: https://zhuanlan.zhihu.com/p/694541378
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

多模内容理解在百度商业广告中的探索实践

10 人赞同了该文章

导读 本次分享的主题是多模态内容理解在百度商业系统中的探索与实践。
今天的介绍会围绕以下几个方面展开:
1. 多模态内容理解在百度商业系统中的应用背景及问题
2. 多模态通用表征学习模型 ViCAN
3. 多模态模型 ViCAN 与百度商业系统融合
4. 多模态与 AIGC
5. Q&A
分享嘉宾|金志鹏 百度 资深研发工程师
编辑整理|Tony Wang
内容校对|李瑶
出品社区|DataFun

01
多模态内容理解在百度商业系统中的应用背景及问题

首先来介绍一下多模态内容理解的应用背景。随着富媒体时代的到来,商业广告已告别了纯文本广告时代,图文广告、视频广告已成为广告主进行创意表达的主要方式。百度自有的手百 APP 同时拥有搜索和推荐两大流量场景,用户可以在这两个场景下进行灵活自由的切换。比如用户在刷 feed 流时,看到感兴趣的内容,就会切换到搜索界面去搜索,之后可能又会返回去刷 feed 流,或者是切换到短视频页面去观看短视频。可以发现在不同场景之间会存在着显著的流量差异性。而如果从用户行为链路的角度来看,其实各个场景之间的切换也是反映了用户的共性意图,我们的多模态理解模型需要同时兼顾这种差异性和共性。
百度当前的广告系统无论是在召回环节、创意优选环节,还是广告排序环节,对多模态特征的感知都是偏低的,系统主要还是利用文本特征,或者是没有泛化性的物料 ID 的特征。但是大量使用物料 ID 特征会带来模型记忆性的问题,使得整个广告系统对广告物料的换血能力会比较差,新物料无法在系统中快速生效。所以如何将多模态特征和商业系统有机结合是非常重要的。
我们的解决方案是构建了统一的多模态预训练大模型 ViCAN。通过深挖共性,来克服单场景可能导致的过拟合问题。并结合不同流量场景、不同漏斗阶段来进行差异化、精细化的微调,从而提升系统对多模态内容的整体感知。

v2-fb10ce61c675f69e8718d9eb9cf03c2b_720w.webp

下面详细介绍我们的升级方案。
首先需要思考一个问题,什么是一个好的多模态特征?回顾已有技术,典型的一个思路是首先基于一个自监督的任务或者是分类任务去训练视觉模态,然后基于一个 NLP 任务去训练文本模态,最后使用双塔建模的方式和对比学习的方式来拉近两种模态之间的距离,从而实现模态之间的对齐。
在 Bert 模型问世后,文本建模已比较通用,都是通过 Transformer 结构去建模。更多的工作会去研究视觉模态如何建模。早期是通过 resnet 类似 CNN 的分类任务的方式建模,这种方式存在表征通用性不足的问题。后来的一些工作是基于目标监测的方式去提升视觉的表征,比如 bounding box 方案,但仍存在两个问题,一个是其检测准确性有限,另外 bounding box 方法的模型复杂度是比较高的,无法做到端到端的学习,不利于大规模数据的训练。所以到了 2021 年前后,Vision Transformer 方案成为了一个主流的方案,它是通过Transformer 结构,用 global attention 的机制来学习像素粒度的视觉关系。ViT 的出现再一次统一了 CV 和 NLP 的技术架构,使模态对齐和融合变得更加容易。

这里不得不提的是在 2021 年初 OpenAI 发布的 CLIP 模型,即基于双塔架构去做文本和视觉的表征,而且取得了一个非常好的效果。在 CLIP 模型出来后,我们发现直接利用大量的图文弱监督数据进行大 batch size 的训练,就能够获得具有良好的 zero-shot 能力的多模态表征模型。而且 ViT 架构使得模型能够比较灵活地去扩容,而大容量的模型也能带来更好的效果提升。简单总结下就是大数据和大模型相结合就能够获得更好的视觉基础表征。

02
多模态通用表征学习模型 ViCAN

因此我们延续了 CLIP 的建模思路,打造了一个商业统一的预训练大模型,称为ViCAN 模型,在数据和模型方面也做了大量的工作。
在数据方面,依赖于百度图搜的场景,利用点击的 Query 和图像的数据获得了大约 100 亿量级的图文配对。这个数据也是我们目前最大的训练数据来源,而且基本上也是目前已知的最大的一个中文领域的图文预训练数据集。另外也收集了商业场景下的一些广告的图文数据,以及一些外部的开源数据集。基于这些数据集我们做了大量的图片数据清洗工作,主要包括低分辨率过滤,用美观度模型去过滤一些比较简单的图片,利用风控算子过滤一些风险图片,以及利用图文相关的模型去过滤图文相关度比较低的图文配对。在文本侧我们会过滤商业属性比较低和序列长度短的文本。通过以上方法,我们构建了一个高质量的图文数据集。
在模型建模上我们构建了一个参数量达到 120 亿量级的图文预训练大模型。主要是引入了对比学习和 Mask 语言模型这两个任务来进行模型的训练。
先来看对比学习任务,如下图右侧的模型结构图所示,整体还是典型的双塔结构,文本层和图片层都是采用了 48 层的 transformer 结构,在 loss 优化上采用了粗粒度和细粒度相结合的对比学习方法。粗粒度方法的对比是将各种模态完整语义的 CLS 去做语义对齐。在常规的跨模态对比的基础上,我们在图片侧和文本侧分别去做增强和 Mask 处理,对增强后的数据和原模态来做自监督的对比学习。
第二块就是细粒度对比学习,具体的设计考虑是,文本或图片都存在一些信息冗余,相对于粗粒度的完整语义对齐,我们希望模型能够学到图片的 patch 粒度和文本侧的 token 粒度之间细粒度的语义对齐。比如文本侧关于汽车的 token 可以直接去对齐图片侧包含汽车的 patch,也就是将 transformer 输出的图片 patch 粒度和文本 token 粒度去计算相似度矩阵,然后通过 attention 的机制去自动学习一个 patch 和 token 之间的语义关系来提升细粒度的语义对齐。

除了对比学习任务,我们引入的第二个任务是多模态的 mask 语言模型任务,具体的模型结构如下图左侧所示,我们是在 48 层的一个 transformer 结构基础上再加了一个多模态的 encoder,把图片侧的 patch 粒度通过 cross-attention 的方式跟文本侧去进行交互来预估文本侧被 mask 掉的文本 token。例如将句子中的汽车 token mask 掉,如果单独依赖文本侧的 context 做预测是相对比较难的,借助视觉信息有助于辅助掩码语言模型的学习,从而确保视觉和文本的语义交互对齐。针对这几个策略我们也做了一些消融实验,如下图表格所示,对比了在跨模态任务的基础上分别叠加自监督学习和 mask 语言模型任务,以及 cross-token 的细粒度对比学习。我们发现各个策略在不同的数据集上表现不完全一致,但都会有一些增益。其中自监督的学习方式效果会更强一些。我们将这几个策略共同叠加后取得了新的 SOTA 效果。
据我们所知,ViCAN 12B 模型是目前最大的一个图文训练模型。我们的 ViCAN 12B 达到了 120 亿参数的量级。我们也将 ViCAN 模型与业界一些主流的中文图文预训练模型进行了对比,在七个数据集上对比,包括四个公开的数据集和百度三个场景的业务数据集。结果显示 ViCAN 模型的效果是不错的,并取得了新的 SOTA 效果,特别是在我们的一些业务场景上的涨幅比较明显。


03
多模态模型 ViCAN 与百度商业系统融合

如何将 ViCAN 图文训练大模型与商业系统进行融合并充分发挥其价值,提升系统对多模态内容的感知,这是一个更加重要的问题。
首先介绍一下百度的商业检索系统,该系统目前还是一个典型的多级漏斗系统,在召回环节会基于各种语义信号,用户的行为信号去召回用户可能点击或转化的一些广告,然后到创意优选环节去给广告筛选匹配出更加好的一些物料创意,比如图片、标题描述等。最后在排序环节,利用离散 DNN 模型结合各种特征信号选出最终的广告,展现到前端。
我们利用 ViCAN 模型对以上三个环节进行了全面的赋能升级。首先看召回环节,我们做了两个工作,第一个是把基于文本语义的触发升级成了一种多模态的触发;第二个是在用户行为网络中引入了多模态特征来发掘用户对模态的兴趣偏好。

先看召回环节的第一个工作,将 ViCAN 模型用于原生视频广告的多模态触发。整体的模型结构如下图左侧所示,我们利用广告的标题和视频内容作为输入,底层处理会从视频帧中提取 ViCAN 的视觉表征,然后分别经过一个多层 transformer。顶层还是利用双塔的结构进行对比学习文本和视频的语义对齐。视频侧我们采用了每隔一秒去抽帧的方式来提取视觉视频特征。这种抽帧方式存在着大量的冗余和噪声,帧和帧之间在视觉上可能差异是非常小的,而且对比学习有可能会导致视觉侧被文本侧过度牵引,进而导致视觉侧失去视觉相似性的刻画。所以在视觉侧对ViCAN 提取的特征,通过加噪声的方式去随机 mask 掉一部分来做增强,并在视觉侧做自监督的学习。
在下图右上角展示了加入自监督方法后的效果,在 text2video 上的召回是基本持平的,但是评估 video2video 的召回时,recall 指标提升了 6 个百分点,这说明加入自监督学习后,视觉侧的特征能够得到更好的保留。在下图右下角的例子也是展示了通过多模态的召回用于 text2vision 和 vison2vision 的召回分支,可以看到升级了多模态的触发后,能够召回一些文本语义上看起来不是那么相关而视觉语义上比较相关的广告,提供了更优质的广告候选。

在召回环节的第二个工作是将多模态信息引入到用户行为图网络来建模,实现更精准地捕捉用户的兴趣。百度的推荐广告场景包括手百图文、好看视频和手百小视频三个主场景,用户可以在这几个场景下进行一些切换。不同场景的行为可能反映了用户共性的意图,因此对用户行为建模时可以将这几个场景进行联合考虑。但这些场景的数据分布存在显著差异,另一方面用户的兴趣是存在多样性的,不同的用户对模态的感知不同。比如有些用户可能是被广告的标题吸引,而有些用户可能是看到一个图片或视频,是被这种图片或视频内容吸引,所以在引入多模态信息时,我们没有简单地把模态的向量作为节点特征去引入,而是综合考虑了场景的差异、模态的差异来构建了一个多域多模态图,整个图学习的过程是采用了类似 graphsage 融合节点属性和图拓扑关系的邻居聚合方式。我们主要改造了节点表征进行特征聚合的部分,如下图右边所示,在聚合节点特征时进行了模态和场景的两层隔离,在场景层各个场景内的特征首先会进行聚合,然后通过 attention 方式去融合不同场景特征。在模态层区分了文本模态和视觉模态,各种模态的特征分别在聚合场景的特征后再做一层模态的融合。通过这种精细化建模方式,显著地提升了用户的行为刻画。在离线评估阶段的三个主场景中 user2ad 的召回都有显著的提升。

再看漏斗的中间环节,即创意环节,主要介绍两个工作,第一是重塑了广告图片创意优选的全流程,显著提高了广告图片的优质率和换血率。第二是在风控场景中针对图片物料利用统一表征建模来提升风险识别能力。
首先来看第一个工作,借助 ViCAN 图文预训练模型来全面升级广告图片的物料优选。图片广告的优选过程也是一个多级漏斗,首先从图库中召回合适的候选图片,之后对各路分支召回的图片进行统一的图文相关性的过滤,最后对过滤后的候选图片以点击率为目标,利用离散 DNN 模型进行排序来选取 TOP1 的图片并展现到广告的前端。我们利用图文训练模型升级了图片广告优选的全流程。从下往上看漏斗,首先在排序部分将视觉的连续表征、离散表征去替换当前排序模型里面的图片ID 这种记忆性特征,来提升模型的泛化性和新物料的换血率。这块工作会在后面的排序环节重点介绍。在中间图文相关性过滤这块,我们将底层的表征升级 ViCAN 模型来提升图文的体验,在漏斗的最上层就是图片的召回部分,利用场景数据微调,并结合下游漏斗的知识蒸馏来提升模型的召回能力。
下图右侧介绍了图文相关性模型升级 ViCAN。图文相关性模型是针对上游的各路分支,对各路分支召回的图片来进行统一的截断,并过滤跟广告不相关的图片。跟ViCAN 利用大量的弱监督数据训练不一样,图文相关性模型需要的数据质量是更高的。我们利用了大量人工标注的数据来进行模型训练,但是人工标注成本较高,同时收集的样本也比较有限。这会导致模型存在过拟合和泛化性不够的问题,而ViCAN 图文预训练模型是基于海量数据训练的,它具有比较良好的泛化性。但是 ViCAN 模型的问题在于参数量达到百亿,如果要做到全线上的话,会占用大量的机器资源,性价比并不是特别高,所以我们采用了下边有图的升级方案。文本侧为了满足线上的性能要求,采用了一个三层的 transformer 结构来实现线上的实时请求,在视觉侧采用了 ViCAN 大模型来进行热启动。考虑到图片是天级更新的物料量级,且并不是特别大量级,大约在几千到一万多的量级。因此可以采用离线 cache 的方式,进行定时刷库,然后通过 KV 词表的方式挂载生效到线上,模型的上层采用了简单的加减乘的运算方式进行模态的交互,接入到这种全连接层,相对于双塔架构,它引入了更好的非线性的刻画能力。图文相关性模型升级 ViCAN 以后,离线 AUC 得到了显著提升,而且上线后图文不相关的 bad case 有显著的下降,用户体验得到了比较好的提升。

再来看漏斗最上层的图片召回环节,主要有两个问题,一个是如何将 ViCAN 大模型的泛化能力和场景数据微调更好地结合。通常情况下场景数据是相对比较少的,如果直接 fine tuning 模型会存在过拟合的现象,模型就会丧失泛化性。另一个问题是如何去提高召回漏斗通过的效率,如果在召回环节就能充分考虑相关性目标和点击率目标的话,也就会带来漏斗效率的提升。所以我们提出了一种场景数据微调和知识蒸馏相结合的算法。看下边右图的模型结构图,我们利用了图文广告的点击数据来微调模型学习什么样的图片更容易被点击。文本侧的 encoder 和图片侧的 encoder 都是基于 ViCAN 模型来进行热启动,但是它会固定住参数。上层分别接入了两个 Adapter 模块,通过残差的结构来学习场景的信息,而这种方式使得模型学到的场景特征不会丧失 ViCAN 模型的泛化性。此外为了提高漏斗的通过率,我们的下游图像相关性模型作为一个 teacher 模型,双塔模型作为 student,然后采用 KL 散度的方式来约束双塔模型打分的结果,跟相关性模型打分的分布一致。
下图右下方展示了采用了两个策略进行升级的效果。左侧是将 Adapter 策略对比 ViCAN 预训练模型和直接 fine tuning,可以看到 ViCAN 在泛化的评估集上的效果是比较好的,但是它在业务评估集上效果就比较一般了。而直接 fine tuning 则正好相反,它在泛化的评估集上效果会衰减得比较厉害,但是在业务评估上会比较好。采用这种 Adapter 策略后可以获得一个更好的平衡,在业务数据上优于预训练模型。同时又保证了泛化性,使模型能够应对非常长尾的广告去召回图片。右侧对比了引入知识蒸馏方案后的效果,从后验打分来看,被相关性模型过滤掉的比例有了显著下降,同时相关性打分值有所提升,说明召回的效率更高了。

物料环节还有一个重要的工作是对图片物料进行风险识别。在之前的工作中,我们的风险识别模型是按照场景来进行独立建模的。这样造成的问题,首先是风险识别的场景比较多,模型部署线上占用的资源会比较大,而且模型升级维护是比较困难的。另一个问题是在分布场景,它是一个典型的小样本场景,样本收集是比较困难的,利用少量样本来训练模型,其泛化性是不够的。
基于以上问题,在有了 ViCAN 图文预训练模型后,我们将 ViCAN 的视觉特征作为 backbone,固定住模型参数。针对各个风控场景,去接不同的 FC 层和分类头,借助 ViCAN 强大的底层表征的能力,在多个场景上看到,相比 base 均有显著的准招的提升。此外由于底层采用了参数共享的方式,所以模型可以在线上重复使用,各个场景上只需要部署简单的连接和分类层就可以了。这样也使得线上的资源部署和维护成本下降,实现了系统整体效率的提升。我们目前在国徽、低俗、引人不适等几个风控识别的场景来实现策略推全。

最后介绍一下在排序环节,将多模态特征通过离散化的方式去更好地适配模型,来提升排序的泛化能力。
目前大规模离散 DNN 是业界排序模型的一个主流发展方向,离散特征也是排序模型优化的一个核心。首先来看文本特征模型,通常都是基于切词,将其 token 化,然后去跟其他的离散特征进行组合,已取得了非常好的效果。而对于富媒体特征,通常是通过 dense 特征去接入或者是进行联合训练。这种方式我们也做过一些尝试,但是在商业场景下效果并不理想。因此在多模态语义大多是稠密特征的情况下,如何跟大规模的离散 DNN 进行有效融合成为一个挑战性的问题。
我们从文本特征模型得到一个启发,文本经过一个高度压缩的语义单元,传统的 NLP 中通过切词的方式把文本进行 token 化,然后基于有限的词字典去获取文本特征。我们希望也能够将多模态特征进行 token 化,并把它变成一个 ID,然后像文本切词一样去切分多模态特征。因此我们提出了多模态特征的离散化方法,将多模态的稠密语义特征 mapping 到有限维的一个字典空间,用多个序列化 ID 来表达高维的复杂语义。

下面介绍下多模态特征的量化方法,MMDict。为了让各种模态充分地融合学习,在建模方式上采用了对比学习的框架,通过这种互相牵引,学习模态间能够互相地去噪,去除冗余信息。那么如何来做量化呢?本质上就是量化的优化过程,也就是将连续信息用多个离散信号来进行表达,再进行重构并还原出连续信号的过程。我们采用神经网络的方式实现了这个过程。如下图右侧的网络结构,我们将各个模态表征分别经过一个 transformer 结构后,进入到一个共享的量化网络模块。在这个量化网络中各种模态经过一个多级的量化并重构还原,最后采用一个 MSE loss 来保证离散信号重构还原出来的结果能够逼近这个连续信号。
如何保证量化质量,缓解量化坍塌的问题呢?具体做法包括四个步骤。首先底层输入会经过 encoder 的输出,并经过一个 R 矩阵来进行正交矩阵的变换,通过这种方式来降低空间的扭曲。之后会进行一个一级的量化来计算,残差的计算会使得空间的分布更加地打散均匀。在第三步对残差再进行一个二级的离散化,这个过程采用了乘积量化的思想来对残差向量进行分段,每个段向量映射到每个 encoder 最近的一个中心点,最后将一级量化结果再加回到 code book 中心点组成的向量,对向量实现重建还原过程。可以看到 MMDict 方法能够将各种模态的稠密表征映射到一个统一的离散字典空间来进行融合的学习。

本质上物料的 ID 特征其实是一个极具个性化的特征,而 MMDict 特征是一个泛化性的特征,对于泛化性特征,如果通用性好,那么其刻画精度可能就会变差,因此需要做好泛化性和刻画精度两者之间的平衡。另一个问题是我们采用这种单个字典,它只是刻画了单一粒度的语义,如何刻画对象多层次的语义信息?其实在实际场景中多层次的结构是非常常见的。比如对于一个 iPhone 15 手机,从粗到细的一个层次化结构为,首先它是一个手机,然后它是一个苹果品牌的手机,最后它是一个 iPhone 15 型号的手机。为了刻画这种多层次的信息,也为了给模型提供更多的选择,去平衡泛化性和刻画精度的问题,我们设计了一个 MMDict 的多粒度网络,参见下图左侧。
我们差异性地设计了从粗到细三种粒度的离散语义空间,然后分别表达这种万级、10 万级和 100 万级的离散空间来进行语义对齐,通过这种方式来大大提升离散的表征能力。
下图右上的曲线是前面介绍的两种方案跟两阶段量化方案在表征召回能力上的对比。这个两阶段量化方案的底层跟 MMDict 的底层 encoder 是一致的,单独采用了 LOPQ 的量化算法来获得离散表征。我们用 text2vision 的召回指标来衡量这种表征能力,可以看到 MMDict 的表征量化联合训练方法显著超过了这种两阶段量化方法。此外引入多粒度的 MMDict 方法在语义相关性上有进一步的提升。
下图右下方的 Demo 展示了两个案例,采用了 MMDict 方法,我们将其聚合到相同 ID 下的图片聚合展示出来,可以看到其具有比较好的语义相关性和视觉相似性。相比那种无意义的 ID,MMDict 的 ID 语义的可解释性更高。

我们在业务中如何将这种离散内容特征赋能排序模型呢?目前主要采用了两种方案,第一种是下图左上所示,为了缓解新广告的冷启动以及长尾物料训练不充分的问题,相比传统的直接将多模态特征拼接到 dense 层的方式,我们将 MMDict 泛化的 ID 下移到 sparse 层,替换物料 ID 加入到模型训练,比如前面介绍的图片广告的优选排序环节就是采用这种方式,缓解了记忆性的问题,提升了物料换血。
第二种方案,排序模型中用户历史行为建模是至关重要的,因此我们也在思考将多模态特征与用户的历史行为进行充分的结合。如下图左下方所示,在原生的视频场景中,构建了一个用户视觉的 session 流,然后将用户历史上的一些行为,包括完播、点击、转化行为,这种有点击行为的视频内容通过 MMDict 投影到一个多模态的语义空间,然后在多模态空间中进行累加聚合,并与当前广告的多模态特征进行组合交叉,通过这种方式来挖掘用户历史上的视觉偏好对当前广告的影响。
下图右侧展示了这种离散特征方法在排序模型中的应用效果。将 MMDict 特征和稠密特征的拼接方法以及两阶段量化方法引入到排序模型对比,相对于 base 模型在 AUC 上有所提升,可以看到最上方的蓝色虚线是 MMDict 方法,其取得了最好的效果。中间的绿色实现是两阶段量化方法,最下方则是 dense 特征直接拼接方法,对比 dense 拼接方法。MMDict 特征具有两个优势,一个是语义泛化 ID 在 sparse 层是直接根据排序模型的点击或者转化的目标去自适应学习面向任务的embedding 的,相比直接将 dense 预训练表征加入的方式,MMDict 与下游任务更加适配。第二个优势是 MMDict 特征作为基础特征,能够在 sparse 层与其它离散特征在底层做显示地特征交叉组合,我们都知道排序模型中组合特征是非常重要的,所以通过引入这种组合特征,可以引入高阶的非线性来提升模型的泛化能力。对比两阶段量化方法,MMDict 的优势是多模态表征跟量化过程是一个联合优化的过程,它的目标更一致,量化的损失更小,因此也取得了一个更好的效果。
下图右下方展示了当前 MMDict 已广泛应用于百度商业的各个业务线,从这个曲线中可以看到,在原生视频广告、电商广告以及一些图文广告上都取得了 AUC 的稳定增长。在带来商业变现效率提升的同时,我们也在多个场景上看到对于新图、新商品物料以及在长尾视频上的泛化性有着明显的提升。


04
多模态与 AIGC

最后介绍下多模态的下一步规划,也是我们正在做的一些工作。AIGC 时代使得优质多模态内容以低成本、批量化地生成成为可能。借助 AIGC 能力,使生成内容更具多样性并拥有更全面的表现力,从而提供更丰富完善的用户体验。
我们目前基于图文预训练大模型 ViCAN 做了一些生成式任务的探索和落地,包括图生文场景和文生图场景。在图生文场景,将 ViCAN 的视觉 encoder 接入到文心的大语言模型,将 ViCAN 作为感知器,而大语言模型作为理解器。利用大语言模型的知识推理能力,实现了对图片的精细化描述。我们希望借助这种细粒度的序列化的描述,帮助商业系统更好地感知视觉信息,为用户体验和商业变现带来更大的商业增益。在文生图领域,我们将 ViCAN 的表征能力作为控制条件接入到 U-Net 网络,通过不断地前向加噪扩散和逆向的去噪学习过程来生成精美的商业营销图片。目前在汽车、医美等行业,借助这种文生图的能力帮助广告主生产营销海报图、整形美容图片,已取得了一些不错的效果。更进一步,我们希望借助这种生成能力使训练数据不再是模型训练的瓶颈。
我们目前正在尝试利用这种图生文产出的精细化描述,进一步精调文生图等模型,使文生图模型能够具有更好的 prompt 遵循能力。参考下图中的例子,我们将一张蝴蝶的图片和一个问题输入到大语言模型,大语言模型能够返回对这张图片中各个主体的数量、颜色和背景的详细描述,我们再将这个描述直接作为 prompt 生成右侧的一个图片,可以看到图片基本上保留了 prompt 中的各个要素。同样文生图产生的这种图片和 prompt 也可以作为图生文的精调数据来提升图生文模型的性能。通过这种循环增强的过程,我们就能够构建起一个数据的飞轮来不断地提升模型效果。

前面介绍的工作更多是在 C 端让用户去感知,我们通过各种多模态策略将检索系统认为最优质的广告创意推送给用户。然而我们也发现,广告创意的天花板来自于供给侧,也就是在 B 端,所以只有从源头上提供更优质丰富的广告物料才能带来质变。百度商业利用 AIGC 技术重点打造了新一代的营销平台,称为擎舵。擎舵平台从灵感到创作,再到广告投放,形成了一个完美的闭环。

在灵感阶段借助大模型的理解能力和推理能力,AI 能够帮助我们去找到什么样的prompt 是好的,从素材洞察到创意指导各个方面丰富灵感。在创作阶段,擎舵目前已经支持了多种 AIGC 能力,包括图片生成能力、文本生成以及数字人的能力,实现了生成式原创素材的批量化生产。在投放阶段通过 AI 优化的方法,从经验试错到自动优化,利用商业系统的反馈信号来指导模型去生成更具商业价值的内容。擎舵平台将效率和效果联动优化,持续打磨 AIGC 的底层能力,不断提升内容的生产力。在此也欢迎大家来进行试用。以上就是今天的分享,谢谢大家。

05
Q&A

Q1:当前的 ViCAN 模型是否已开放?模型的参数量的详细情况是怎样的?
A1:目前 ViCAN 模型还没有开放,主要还是在我们的商业系统里面集成。ViCAN模型包括了文本侧和视觉侧两个模型,文本侧是用了文心的一个大语言模型,大概是100 亿参数量级,视觉侧是 20 亿参数量级。
Q2:百度提供素材给广告主,对于生成图片有什么样的指标来判断是否符合客户的诉求?是怎么定义这个指标的,是以商业指标还是以模型的指标?
A2:评价指标包括两部分,首先是对于用户指标,我们主要还是通过人工评估的方式,因为目前用机器评估的方式(比如 CLIP score、FID 等指标)都不是特别置信,机器指标只是在模型训练过程中作为模型训练迭代的参考依据。人工评估主要是从两个维度,一个是评估 prompt 的遵循能力,另一个是评估图片本身的质量,这是对用户侧的评估。另一部分是结合商业,一个物料是否优质,直接在我们的商业广告检索系统去检验,通过小流量 AB 实验检验物料对于商业的价值,包括观察点击率、转化率等指标。
Q3:关于模型训练时的广告素材,其实现在大多数广告主去投放广告时,素材上面都会有一些额外的东西,比如贴个 logo,或者是加一些文案,用这些图片去训练模型的话,是不是会有一些不太好的影响?
A3:是的,这块是属于数据清洗方面的工作,我们一般会把这种文字图识别出来。Logo 图目前还没有,因为可能涉及侵权的问题。目前针对文字图,有 OCR 检测算子直接把这些文字图过滤掉。
以上就是本次分享的内容,谢谢大家。

v2-28c2138acb229b3a86f3795341f6bf8d_720w.webp




About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK