“啄木鸟”免重训方法:多模态LLM幻觉问题降低30%


1.png


近年来,多模态大模型存在的“幻觉”问题一直困扰着科研界。是否还在尝试通过指令微调来解决这个问题?比如下图模型识别图像错误。


2.png


现如今,中科大近日发表的一项研究提出了一种全新的方法,以应对这一难题。该方法被命名为“啄木鸟”(Woodpecker)。


“啄木鸟”技术是一个免重训、即插即用的通用架构。方法的核心思想在于,直接从模型给出的错误文本开始,首先“倒推”找出可能产生“幻觉”的部分。随后,该方法会与图像数据对比,从而确定事实并完成修正。


这种方法可以比作是“森林中的医生”啄木鸟,它会寻找树上的虫洞并吃掉里面的虫子。同样,“啄木鸟”技术能够检测并纠正模型的“幻觉”。这种方法将MiniGPT-4的准确性从54.67%提高到了85.33%。mPLUG Ow的准确性从62%提升至86.33%。


如图所示“啄木鸟”技术在处理难以检测的小对象和复杂计数场景上表现出色。


3.png


然而,它是如何进行具体的检测和诊断的?


啄木鸟法如何治疗多模态LLM模型的幻觉问题


目前,业内通常采用特定数据对大模型进行指令微调。模型倾向于给出肯定答案,如基于图像的问题“头发是什么颜色”,模型可能默认回答“黑”。为纠正此问题,研究者会为模型提供负样本数据。以这种方式就能解决它“无中生有”的幻觉。


除此之外,也有的会进行架构调整,这两种方式都是重新训练一个新的模型。


“啄木鸟”框架为业界提供了一个全新的解决方案。这个方法分为五个步骤:


4.png


1、关键概念提取:

识别模型答案中的主要对象,即最有可能产生“幻觉”的元素。

如描述图中存在自行车、垃圾桶和人等关键概念。


5.png


2、问题构造:

围绕获取的关键概念,提出一系列问题来检验“幻觉”。


分为对象层面和属性层面的问题,如询问“图中有几辆自行车?”或“垃圾桶位于什么位置?”。


在这种情况下,由于属性问题的依赖性上下文较强,作者还提供了一些带有上下文的例子,以引导模型,使得提出的问题更具意义。


3、视觉验证:

利用专家模型回答上述问题,为后续校正提供依据。

关于对象问题,使用GroundingDINO进行对象检测,确定关键目标的存在性和数量。

对属性问题,采用BLIP-2模型,由于传统VQA模型输出答案长度有限,减少“幻觉”问题。


4、视觉断言生成:

基于前两步的问题与视觉信息,合成结构化的“视觉断言”。


6.png


5、“幻觉”纠正:

根据上步的视觉断言比对模型原始输出,生成新的答案。

具体来说就是使用GPT-3.5-turbo进行关键概念提取、提问和纠正。

为确保纠正效果,研究者还采用了两种策略:

1)将简短的“是”或“否”回答与“啄木鸟”给出的答案组合,避免模型仅给出简化答案。

2)在校正中,将原始问题添加到LLM,使其更好地理解文本和任务要求


新方法“啄木鸟法”能降低30%的幻觉


整个方法看起来很简单,那到底是什么效果呢?

研究者在POPE、MME和LLaVA-QA90三个数据集上对此法进行了全面的定量和定性分析。作为比较的基线模型,他们选择了四个当前主流的多模态大模型:MiniGPT-4、mPLUG Owl、LLaVA和Otter。


可以看到,“啄木鸟法”为多数模型带来了显著的性能提升,并大大减少了模型仅回答“yes”的频率。特别是在随机设置中,此方法使MiniGPT-4和mPLUG-Owl的准确率分别提高了30.66%和24.33%。


7.png


进一步,在MME数据集上,“啄木鸟法”有效地减少了模型在对象和属性层面上的“幻觉”。例如,LLaVA模型在颜色属性的得分从78.33分提升到了155分。然而,在位置属性上的提升较为有限,可能的原因包括VQA模型BLIP-2在位置推断能力上的局限性。


8.png


为了更为客观地评估修正效果,研究者采用了开放评估的方法。通过使用OpenAI最近发布的视觉接口,研究者利用GPT-4V直接为修正前后的图片描述进行评分,主要评价标准包括:

l 准确度:描述内容与实际图片内容的符合程度。

l 细节程度:描述的细节丰富度。

实验结果如下表所示(满分为10):


9.png


实验结果显示,“啄木鸟法”修正后的图片描述准确性得到了显著提升,证明该框架能有效地修正幻觉问题。同时,该方法也增强了描述的细节丰富度,为读者提供了更为具体的位置信息。

GPT-4V辅助的评测样例如下图所示:


10.png


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png


关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性。”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


交流.png

扫码交流,一起构建企业人工智能的未来