放弃指令:如何让人工智能更懂你的真正需求

9000ba0e-8546-4e6a-b11f-f68730c1fb71.jpg


多年前,在Symbolics公司的一台老式Lisp机上学习编程。这台机器的操作系统有一个独特的功能,名为“DWIM”,即“Do What I Mean”(做我想做的)。当我输入的命令出错时,我可以输入“DWIM”,系统便会尝试理解我真正想要执行的操作。令人吃惊的是,它在某些情况下确实能够正确执行。


这个DWIM命令实际上是现代“AI对齐”问题的一个缩影。这个问题涉及到人类经常给机器下达模糊或错误的指令,而我们希望机器能够根据我们的意图行动,而不仅仅是依照我们所说的字面意思。


计算机常常误解我们的指令,导致出乎意料甚至有时好笑的结果。例如,一位机器学习研究者在探究一个图像分类程序异常高效的原因时,发现这个程序并非基于图像内容分类,而是根据访问图像文件所需的时间来分类,因为不同类别的图像存储在不同的数据库中,访问时间略有差异[1]。有位程序员为避免Roomba吸尘机器人撞到家具,将其与神经网络连接,并在Roomba加速时给予奖励,碰撞时施以惩罚。Roomba的解决方案竟是只向后行驶。


然而,AI对齐领域的研究者们从这些轶事中看到了潜在的危险。他们认为,机器无法真正理解我们的意图,这可能构成存在主义风险。他们强调,我们必须确保人工智能系统与人类的偏好、目标和价值观保持一致。


哲学家尼克·博斯特罗姆在他的2014年畅销书《超智能》中强调了这一观点。他认为,计算机日益增强的智能可能对人类未来构成威胁。博斯特罗姆没有精确定义智能,但他的定义与AI对齐领域的普遍观点一致,并被人工智能研究者斯图尔特·拉塞尔更准确地描述为:“如果一个实体基于所感知的内容,选择能够实现其目标的行动,那么它可以被认为是智能的”。


博斯特罗姆对AI风险的理论基于两个主要观点。第一个是正交性理论,他认为智能与最终目标是两个独立的维度,理论上任何级别的智能都可能拥有任何目标。第二个是工具趋同理论,即智能体会采取有利于其生存、自我完善和资源获取的行动,以实现其最终目标。最后,博斯特罗姆假设,不久将出现超越人类认知能力的超智能AI。


对于博斯特罗姆和其他AI对齐领域的专家而言,超智能AI的前景可能导致人类灭亡,除非我们能够成功地使这些AI与我们的愿望和价值观相匹配。博斯特罗姆通过一个著名的思维实验来说明这一风险:假设一个超智能AI的目标是最大化回形针的生产。他认为,这样的AI将利用其卓越的智慧和创造力来控制所有资源,以制造更多回形针,最终导致人类灭绝,尽管回形针的数量确实被最大化了。


如果我们接受智能是通过实现特定目标的能力来定义的,那么任何目标都可以植入超智能AI中,而它会不惜一切代价达成这些目标。这导致了一个结论,如拉塞尔所言:“灾难只需一台强大但被不完美设定的机器,因为人类无法完美地设定其偏好。”


这种场景,即机器因误解人类欲望而失控,是科幻小说中的常见主题。现在,许多AI研究人员担心这些情节可能在现实中发生。全球数十家机构已投入数亿美元研究此问题,包括全球各地的大学以及谷歌、Meta和OpenAI等大型AI公司。


那些由非超智能AI带来的更直接的风险,如失业、偏见、隐私侵犯和错误信息传播,又该如何应对呢?事实上,主要关注这些短期风险的研究者与更担心长期对齐风险的研究者之间几乎没有交集。这种分歧形成了一种AI文化战争:一方更关注眼前的风险,而另一方则认为超智能AI带来的潜在灾难比当前问题更紧迫。


对许多外行人而言,AI对齐领域似乎像是一种宗教信仰,拥有受尊敬的领袖、坚定的信条和虔诚的追随者。他们正与一个潜在的、强大的敌人作斗争,即未与人类价值观对齐的超智能AI。计算机科学家和博主斯科特·阿伦森(Scott Aaronson)最近指出,AI对齐领域内有两个主要派别:一派主要关注未对齐AI可能欺骗并试图毁灭人类的风险,另一派则同时担忧强大AI被恶意使用,加速带来存在主义风险。


许多研究者正积极研究AI对齐,这一领域广泛涉及向机器灌输道德哲学规则,以及使用公众的道德判断数据来训练大型语言模型。然而,目前还没有特别有效的方法让机器对现实情况进行准确推理。许多学者指出,阻碍机器学习人类偏好和价值观的主要障碍在于,人类行为往往非理性且可能违背自身价值观,而且随着时间的推移,个人和社会的价值观也会发生变化。目前尚不清楚,我们应该让机器学习哪些价值观。


AI对齐领域的许多人认为,逆向强化学习(IRL)是一个有前景的研究方向。这种方法不是将特定目标植入机器,而是让它通过观察人类行为来推断人类的偏好、目标和价值观。近年来,研究者已经通过逆向强化学习成功训练了机器,使其能够通过观察人类玩电子游戏来学习,并通过观看人类对机器人进行的多次后空翻尝试的反馈来教授机器人如何后空翻。


然而,使用类似方法教授机器更加复杂和抽象的人类价值观仍然是一个未知数。作家布莱恩·克里斯汀(Brian Christian)对此持乐观态度,认为如果机器能学习像“后空翻”这样模糊的概念,那么它也有可能学习更抽象的概念,如“帮助”、“善良”或“良好行为”。


尽管如此,我认为这种挑战被低估了。道德观念如“善良”或“良好行为”远比逆向强化学习目前所能处理的任何事物都要复杂,且这些概念高度依赖于具体情境。例如,“诚实”——我们当然希望我们的AI系统能保持诚实,但现在大型语言模型的一个主要问题是它们无法区分真相和谎言。同时,有时我们可能希望AI能在某些情况下稍微“隐藏”真相,比如为了保护隐私、避免无礼或保障安全等。


其他道德概念也同样复杂。我们必须首先让机器理解类似人类的概念,这是教授机器道德概念的关键第一步。这仍然是人工智能领域最重要的未解决问题之一。


此外,我认为AI对齐背后的科学还存在更根本的问题。大多数讨论假设超智能AI是一种机器,它在所有认知任务上的表现都超过人类,但仍然缺乏类似人类的常识。这种观点与博斯特罗姆的正交论相一致,即这种机器在没有自己的目标或价值观的情况下实现了超级智能,并等待人类给予目标。


但智能真的是这样的吗?现代心理学和神经科学没有任何证据支持这种观点。至少对人类而言,智能与我们的目标、价值观以及自我感觉、社会和文化环境深度相联。我们总是直觉地认为可以将纯粹的智能与这些因素分离,但这导致了人工智能历史上的许多失败预测。据我们所知,让一个智能的AI系统发展目标可能并不容易,它的目标可能需要在其自身的社会和文化环境中逐渐发展和形成。


在《AI新生》(Human Compatible)一书中,拉塞尔强调研究对齐问题的紧迫性:“我们应该在何时开始担忧可能威胁人类的严重问题?这不仅取决于问题何时发生,还取决于我们需要多长时间来准备和实施解决方案。”但在我们对智能及其与生活其他方面的关系有更好的理解之前,我们甚至无法定义问题,更别提找到解决方案。恰当地定义和解决AI对齐问题是一项艰巨任务;我们需要发展出一个广泛的、科学基础的关于智能的理论。


作为人类,我们真正期望的人工智能是什么样的?是一种强大的工具,还是一个具有真正智能的实体?


我们已经认识到,简单地向人工智能植入特定目标可能导致严重后果,例如人类灭绝和回形针主导。但同样重要的问题是,如果人工智能由人类开发,并从人类的数据中学习,以及向人类的喜好、价值观和目标看齐,那么这里的“人类”指的是谁?如果人工智能像人类一样通过社会化过程学习和成长,那么它可能也会继承人类社会的问题。例如,它们是否会表现出种族歧视?如果大多数开发者是男性,它们的目标是否会过于男性化,从而忽视女性的不同需求?为了解决AI对齐的诸多挑战,我们可能需要的不仅仅是一个关于智能的理论。


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png

关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性。”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


交流.png

扫码交流,一起构建企业人工智能的未来