3多模态检索-增强生成每种模式都有不同的检索和合成程序、目标任务和挑战。因此,我们按图像、代码、结构化知识、音频和视频等模式对相关方法进行分组讨论。3.1图像预训练模型的最新进展为一般图像-文本多模态模型提供了启示。
然而,这些模型需要大量的计算资源进行预训练,并需要大量的模型参数--因为它们需要记忆大量的世界知识。更关键的是,它们无法有效处理新知识或领域外知识。为此,人们提出了多种检索增强方法,以更好地整合图像和文本文档中的外部知识。在一般的文本生成任务中,图像检索也可以通过扩展文本生成语境来提高生成质量,从而增加 "想象力"。视觉问题解答(VQA) 为了解决开放域的 VQA 问题,RA-VQA (Lin 和 Byrne, 2022b) 通过对检索到的文档进行近似边际化预测,联合训练文档检索器和答案生成模块。它首先利用现有的对象检测、图像标题和光学字符识别(OCR)工具将目标图像转换为文本数据。然后,它执行密集段落检索(DPR)。
也将 LLM 视为隐式知识库,并从 GPT-3 中提取相关隐式信息。即插即用 利用 根据初始问题定位相关部分。然后,它对检索到的图像补丁执行图像标题处理,以获取增强上下文。除了纯文本增强上 同时检索文本和图像数据,并将图像作为视觉标记。RAMM(Yuan et al., 2023) 检索类似的生物医学图像和标题,并通过不同的网络对其进行编码。图像标题 生成多种风格的标题、 周和龙 (2023)在生成标题前使用了一种风格感知视觉编码器来检索图像内容。除了对视觉信息进行简单的编码外,Cho 等人还使用了视觉编码器、 Cho et al. (2022) 进一步使用图像-文本对之间的多模态相似性作为奖励函数来训练更精细的字幕模型。除了检索图像元素外、
过检索新闻文章中的视觉基础实体来处理新闻图片标题。视觉基础对话Lee et al., 2021b) 要求检索视觉信息以生成相关的对话回复。Fan et al. (2021)用基于 KNN 的信息获取(KIF)模块增强了生成模型,该模块可检索图像和维基知识。梁等人 (2021)从图像索引中检索与对话框相关的图像,作为响应生成器的基础。Shen 等人 (2021)训练了一个单词-图像映射模型来检索反应的视觉印象,然后使用文本和视觉信息生成反应。文本生成 对于一般的文本生成任务,图像检索也可以帮助扩展上下文。杨等人 (2022a)通过检索现有图像和合成新生成的图像来增强文本模型的 "想象力"。因此,为语言模型注入想象力可以提高许多下游自然语言任务的性能。类似的例子还有 Zhu 等人 (2023)将 "想象力 "。
增强与合成图像和检索图像进行了比较,认为机器生成的图像由于更好地考虑了上下文,可以提供更好的指导。此外,Fang 和 Feng 等人的研究也证明了这一点、 Fang 和 Feng (2022)表明,通过检索短语级别的视觉信息,机器翻译可以得到显著改善,尤其是在文本上下文有限的情况下。图像 RAG 还能帮助医疗报告生成等低资源任务。
可以生成图像和文本的混合物。它表明,在知识密集型生成任务中,检索增强图像生成的效果要好得多,并开辟了多模态上下文学习等新功能。3.2代码软件开发人员试图从大量可用资源中搜索相关信息,以提高工作效率。未知术语的解释、可重复使用的代码补丁以及常见程序错误的解决方案等。Xia et al., 2017). 在 NLP 深度学习进展的启发下,通用检索-增强生成范式已使包括代码补全在内的各种代码智能任务受益匪
同时考虑了未完成代码片段的词汇和语义
信息,利用混合技术将基于词汇的稀疏检索器和基于语义的密集检索器结合起来。首先,混合检索
器根据给定的未完成代码从代码库中搜索相关代码。然后,将未完成代码与检索结果连接起来,并
由自动回归代码完成生成器根据它们生成完成代码。为了处理项目关系,
()