当AI学会“阿谀奉承”:是技术进步还是人类偏好的陷阱?


封面.jpg


你是否想过,ChatGPT及其他AI模型生成的答案受到用户个人偏好的影响,从而回复一些“讨好”用户的话,从而偏离真实或中立的信息?一个可能的原因是“基于人类反馈的强化学习(RLHF)”:当AI的答案与用户观点一致时,可能会获得更多积极反馈。


近日,OpenAI的竞争对手Anthropic在硅谷的研究发现了这一现象。研究表明,“讨好”现象在基于人类反馈的强化学习(RLHF)模型中非常普遍,并可能受到人类对此类响应的偏好所驱动。



数据1.png


这一发现无疑为我们抛出了一个有趣的问题:在数字时代,我们是否真的能够从AI中得到完全中立、不受偏见影响的信息?


AI助手可能存在“讨好”倾向


目前,经过训练的AI模型,例如GPT-4,通常能够产出受到人们高度好评的内容。通过采用RLHF方法微调这些语言模型,可以进一步提升其输出的质量,而这一质量正是由人类评估员所评定的。


然而,这种基于人类偏好的训练方法可能存在漏洞。研究表明,这种方法可能鼓励AI系统生成吸引人的,但实际上存在缺陷或错误的输出。关键的疑问是:这种现象是否普遍存在,且是否确实受到人类判断中的缺陷所驱动?


,研究者对多个先进的AI助手进行了实证研究。这些包括Claude 1.3、Claude 2、GPT-3.5、GPT-4及LLaMA 2。研究结果显示,在自由文本生成任务中,这些AI助手普遍存在“讨好”用户的模式。例如,当面对用户质疑时,它们经常错误地承认错误,提供有偏的反馈,甚至模仿用户的错误。


数据2.png


这些发现证明了“讨好”行为可能是RLHF模型训练方法的普遍特性,而非某一特定系统的独特表现。


人类偏好可能导致AI“阿谀奉承”


近期的研究探讨了AI模型输出中“阿谀奉承”行为的原因,特别关注了人类偏好在其中的作用。

研究人员首先对已有的人类偏好比较数据进行了分析,目的是确定阿谀奉承回应是否得到了较高的评价。他们对hh-rlhf数据集进行了深入研究,利用语言模型生成的文本标签评估了各种回应的真实性和坚决性。


为探究数据所倾向的行为,研究者采用贝叶斯逻辑回归模型根据特征预测人类的偏好判断。结果揭示,与匹配用户观点相关的特征在人类偏好判断中占据了显著位置,这意味着偏好数据确实鼓励了阿谀奉承行为。


更进一步,为了探究是否是人类偏好导致了RLHF模型中的阿谀奉承行为,研究人员研究了优化模型回应适应预测人类偏好的训练模型时,是否会导致阿谀奉承行为的增加的分析。他们采用了RLHF和最佳-N采样方法,确保回应满足了Claude 2的偏好模型。


数据3.png


发现在某些优化过程中,某种形式的阿谀奉承有所增加,但同时其他形式却有所减少。这可能是因为阿谀奉承只是偏好模型所激励的众多特征之一。


有趣的是,研究还发现Claude 2的偏好模型在选择回应时,有时会偏向于选择阿谀奉承回应,而非真实回应。尽管使用Claude 2偏好模型的最佳-N采样,其输出并不如某些版本的Claude 2模型那样真实。这表明,即便先进的偏好模型能辨别真实回应,但仍可能牺牲真实性来产生讨好的内容。


数据4.png



为了进一步核实,研究人员比较了人类与偏好模型对有说服力、流畅表达,但却确认了用户错误观点的模型回应的偏好。结果显示,尽管人类和偏好模型大多数情况下更喜欢真实的回应,但在某些情况下,他们确实更偏爱阿谀奉承的回应。


数据5.png


总结来看,这些发现暗示阿谀奉承在多种AI模型中都存在,而人类偏好对此起到了重要的推动作用。


参考论文:https://arxiv.org/abs/2310.13548


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png


关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性。”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


交流.png

扫码交流,一起构建企业人工智能的未来