AI Agent:引领软件开发革命的未来

AI Agent.png


今年4月,AutoGPT成为GitHub上涨星速度最快的项目之一,凸显AI Agent的重要性。AI Agent代表Software 2.0未来,拥有强大推理引擎和结构化思考框架,为个性化软件生产带来“3D打印”时代。尽管前景光明,但AI Agent在实际知识工作中仍面临可靠性挑战,因其过于强调LLM的自主性和自动化规划。完全自主的Autonomous Agent可能不是商业上的最佳选择。因此我们认为AI Agent产品需要提供干预空间,主要分为Agent Framework和Vertical Agent两类。前者允许领域专家自定义Agent工作伙伴,后者深耕特定领域并收集高质量工作流数据。其中,Coding Agent有望成为未来AI与人之间的关键翻译官。AI Agent将随着模型公司不断改进Agent标准和推理能力,以及Generative UI的人机交互方式创新而逐渐成熟。


什么是AI Agent?


AI Agent是一种具备主动思考和行动能力的智能体,能够自主感知环境、形成记忆、规划和执行任务,并能与其他Agent协作。相对而言,LLM(大型语言模型)是一种被动的推理引擎,只在用户提出请求时才回应。


AIWagent1.png



AI Agent有三种主要理解方式:

首先,它可以看作是AI-native软件的开发方法,将LLM作为核心推理引擎,提供结构化思考的方法论,而非独立商业产品。


其次,优秀的AI Agent产品比传统软件更灵活,尽管在短期内可靠性存在挑战。传统软件依赖规则和启发式算法,保持高可靠性但处理复杂问题受限。AI Agent则借助LLM的推理、执行和互动能力,更具灵活性。随着技术发展,长期内AI Agent的可靠性将逐渐提升,接近传统软件水平。


数据1.jpg

(图片来源于海外独角兽公众号,仅供参考)


最后,AI Agent与早期的LLM-based应用有显著不同之处,包括合作机制、与环境的交互、个性化记忆和主动决策。

l 合作机制:多模型、多 agent 分工与交互,实现复杂工作流,如开发者和质量保证代理。

l 与环境交互:Agent理解自身不足,从外部获取合适工具以解决问题。

l 个性化记忆:记忆用户偏好和工作习惯,随时间了解用户更多。

l 主动决策:Agent有能力在虚拟环境中探索、试错、迭代,与人类思考方式不同。


四个特点的实现时间表从短期到长期依次为:

短期:重点是协作机制(Orchestration)和与环境交互(Grounding)的探索。

中期:个性化记忆(Memory)需要加强,以建立信任和新的数据积累。

长期:主动决策(Decision)是长期目标,需要复杂推理能力和产品形态的进化。


尽管AI Agent领域仍有待解决的问题,但我们对其前景充满信心。AI Agent代表了未来的软件开发方法,将在多个领域展现强大的潜力。与大型模型公司的不断进化和新的人机交互方式相结合,AI Agent将逐步成为知识工作者的可靠伙伴。


AI Agent重要


1. 降低生产成本与个性化定制:AI Agent标志着软件行业迈入"3D打印"时代,能够降低软件生产成本。它们为各行各业提供定制化的解决方案,大幅提高灵活性。这不仅将减少人力成本,还将创造新的商业机会。

2. 思考与慢思考:LLM充当人类思考的系统1(快思考)AI Agent扮演人类思考的系统2的角色(慢思考)这一观点源自行为经济学,将人类思维模式划分为两个系统:系统1代表快速、直觉式的思考,主管自动反应和本能决策;系统2代表慢速、分析性的思考,负责深入思考和复杂的抉择。LLM能够迅速处理信息并生成反馈,但也会出现幻觉来胡编乱造事实和问题,这也就等同于人类的本能反应和思维谬论AI Agent的目标是为LLM提供慢思考框架,促使其进行深度思考和可靠决策,从而提高AI的智能水平和应用领域

3. 个性化工作方式:AI Agent将改变人们进行知识工作的方式,为每个知识工作者提供个性化的合作伙伴和工作分身。用户可以根据自己的工作习惯定制AI同事,而不再局限于机械的软件设计。这一趋势将带来组织架构和科学研究等领域的巨大变革,减小组织规模,提高效率。


理想的Agent框架:构建强大AI助手


AI Agent的理想框架中,它被视为一个系统,能够自主理解、规划和执行复杂任务。这个系统的核心是LLM(大型语言模型),它扮演着“大脑”的角色。围绕LLM的语言理解能力,Agent系统包括以下几个关键模块:


LLM2.jpg

(图片来源于海外独角兽公众号,仅供参考)


1、记忆:由于LLM是无状态的,大参数量使其无法根据经验更新模型参数,但LLM能理解大量语义信息,Agent系统需要建立一个记忆系统,以便模仿人类大脑从过去的经验中学习正确的工作方式。记忆分为短期和长期记忆:

短期记忆:

工作记忆:包括当前决策所需的所有信息,包括上下文和LLM之外的信息。

长期记忆:

事件记忆:记录Agent对过去决策中发生的事情的记忆。每当LLM展示出新的行为和结果时,agent会将这些内容记录在情节记忆中。

语义记忆:包含对世界的语义知识,可以通过外部向量存储和检索。

程序记忆:定义在某些情境下执行操作的工作流程。


2、行动:Agent系统具备完整的行动策略集,以应对不同任务。常见的行为包括:

工具使用:AI Agent教会Agent如何调用外部工具的API,弥补LLM的不足。

职责分工:AI agent不同于LLM需要分工合作,执行各自的任务,,形成一个完整的合作组织。

记忆检索:从长期记忆中检索与当前决策相关的信息。并将其放到工作记忆、交给 LLM 处理。

推理:生成新知识并将其存入长期记忆。

学习:将新知识和对话历史纳入长期记忆,提高Agent的理解能力。

编程:AI Agent实现长尾开发需求,让软件更接近定制化。


3、决策:Agent系统需要智能地选择执行的行为,包括:

事前规划:将大目标分解为可执行的子目标,评估不同行为方案的可行性,选择最优策略。

事后反思:Agents对过去的行为进行自我反省,吸取教训,并通过将这些信息纳入长期记忆中,agent能够利用它们来避免错误,并更新对世界的认知。


现状与未来:AI Agent领域的探索方向


1. Autonomous Agent的启发与限制

Autonomous Agent,即完全由LLM自主规划工作流并执行任务的agent产品,如AutoGPT和BabyAGI,引发了巨大的兴趣和影响。然而,尽管这些代理在学术界和开发者社区取得了巨大的成功,但它们在商业应用中存在一些限制。

优势:这些代理展示了LLM作为推理引擎的强大潜力,能够理解和推理复杂任务,高效地与外部工具交互。

限制:然而,Autonomous Agent在实际应用中面临以下挑战:

不稳定的效果,推理能力不够:对于抽象复杂的问题,Autonomous Agent的解决能力有限,可能导致死循环或错误的决策。它更适用于解决中等难度的任务,而需要LLM推理能力的提升才能解决更复杂的问题。

外部生态整合不足:Autonomous Agent的第三方API支持有限,难以实现完整的跨应用生态。


2. Agent Framework与Vertical Agent:商业可行的探索方向

在当前情况下,人工干预和设计的代理产品更适合商业化。有两种介入方式:一种是提供中间层服务,为用户提供设计agent程序的infra工具,用户需要自己介入并为代理程序提供规划思路;另一种则是深入细分垂类,运用代理程序思想设计Copilot产品,由产品设计者介入并更加可控。它们从不同角度切入,都具有商业前景。


Agent Framework:这个方向关注提供实用且可复用的代理框架,降低了代理开发的复杂性,同时为代理的合作提供机制设计。分别可以在模块化设计、APIs和SDKs以及合作机制设计考虑创新:

l 模块化设计:agent系统模块化,让开发者专注于特定功能,降低整个系统的复杂性。开发者可以灵活组合感知、决策、执行模块适应不同需求

l APIs和SDKs:设计通用的接口和协议,使不同agents可以兼容并协同工作。

l 合作机制设计: Agent Framework提供一种方式,使各个代理能够轻松协作,同时保证数据的安全和隐私。


Vertical Agent:深入某个垂直领域,理解该领域的工作流程和专业知识,快速积累用户数据。

l 领域知识:代理需要理解和掌握特定领域的知识,以解决领域特定的问题。

l 工作流理解:代理应用程序需要了解并适应领域内的工作流程,并探索如何AI协同工作。

l 数据反馈:代理需要收集反馈数据以不断改进性能。

l 多代理协作:某些情况下,多个代理可能需要合作解决问题,这需要强大的协作机制支持。同时,也要避免Copilot形成过度依赖,保持用户的主体地位来进行管理和 review 也同样重要。除此之外,避免过度依赖Copilot并保持用户主导的管理和审核也很重要。


AI Agent平台与工作流程:个性化合作伙伴的未来


1. Agent Framework:打造多样能力的AI Agent平台

1.1 Agent平台

AI Agent的未来发展将使专家能够定制适合自己的AI合作伙伴。Agent平台充当了各种能力的代理聚合平台,每个代理专注于不同的细分领域或功能,如“文章总结agent”或“投资顾问agent”。这些平台融合了PGC(专业生成内容)和UGC(用户生成内容)的特点。官方定义了一些默认的代理设置,用户可以在相对低代码环境中自定义代理,并提供第三方API接口,以实现多个代理之间的协同合作。这类产品的关键评估标准包括平台上代理的丰富性和自定义代理的易用性。


1.2 Agent工作流程

Autonomous Agent具有不可靠性,因此提高可控性的最佳方式之一是协助用户设计AI工作流程,将规划职责交给用户。这类工作流程平台更专注于企业客户的工作流程,与前文的UGC平台有所不同。这些平台将业务流程交给企业内的业务实施人员,而不是由LLM来规划,因此更容易在企业中推广和应用。


2、垂直Agent:AI助手的未来

2.1 编程助手

AI Agent领域中,编程助手是一种备受期待的应用,具有快速落地和广泛应用的潜力。这一领域的问题形式化,输入数据结构化,非常适合AI学习和数据反馈收集。开发者可以通过使用编程助手来生成代码,然后评估生成的代码是否符合其预期,并了解如何与生成的应用程序进行交互。对于这一领域的产品,我们将其分为以下6个方向:


6个方向3.png

(图片来源于海外独角兽公众号,仅供参考)


l LLM-first IDE(集成开发环境):这种IDE根据LLM的需求来设计用户行为,以更好地收集开发中的反馈数据。IDE可以覆盖整个项目开发周期,包括版本控制和测试等流程。这一领域的发展可能会引领新的开发者入口。

l Generative UI(生成用户界面): Generative UI是Chat UI和GUI的关键组件之一。一旦实现了灵活的UI生成,用户可以根据其需求生成临时UI来完成任务。这一领域目前只有少数产品,如Github Copilot和Midjourney,具有真正的数据反馈循环。

l Coding Copilot(代码协同助手):Coding Copilot领域是Github Copilot的强项,包括代码编辑、代码生成和Chat式编程问答。在这一领域,Github已经实现了大部分相关产品,而其他初创公司的机会相对较小。目前,他们需要改进的方面是企业用户的离线部署和隐私安全。

l Codebase Semantic Search(代码库语义搜索): 这个领域的挑战在于解决索引和关键字搜索无法涵盖的问题,LLM通过理解代码的结构在宏观上提高了搜索的效率。

l Fix Code Issues(修复代码问题):在过去,按照规则修复问题的效率有限,但LLM的理解和生成能力可以更高效地解决长尾问题。

l Code Migration(代码迁移): LLM在Code migration中的作用类似于Fix code issues,但二者有所不同。Fix code issues是一项高频、琐碎的任务,而Code migration则是一项相对低频但需要大量工作的任务。Fix code issues的实现可能性和容错率更高


2.2 个人助理

对于硅谷的投资人和创始人来说,优秀的执行助手至关重要。他们能够进行合理的日程管理和外部沟通。然而,这需要隐式上下文的理解,这是ChatGPT等产品难以实现的。优秀的助手需要考虑诸多因素,如见面对方的重要性、当天的其他日程、交通状况、地理位置和偏好等。在这方面,AI助手可以帮助助手获得背后隐藏信息的记忆和工具模块。


2.3 写作agent

个人写作助手是AI Agent领域中最快能够为用户提供价值和产生收入的应用之一。AI的文本理解和生成能力改善了工作邮件、销售文案等方面的效果。然而,这一领域的问题是缺乏壁垒,因为核心的创作能力依赖于LLM的技术。AI Agent的出现为写作助手提供了新的技术路径,可以通过加强浏览和调用工具的能力来提高写作体验,并将功能扩展到其他领域,如在线预订和在线购物。


2.4 数据分析agent

大部分数据分析工作可以离线完成,例如数据可视化和探索性实验。数据分析对于延迟和稳定性的要求较低,对于分析能力和数据安全性的要求较高。LLM对结构化数据具有更好的理解和处理能力,使得许多以前需要机械工作的BI任务可以自动完成。目前,在分析和LLM领域有很多公司,其中大多数都采用了Agent思维。例如,Julius AI和Hex等公司开发了基于Notebook形式的产品,具有潜在机会来满足分析和LLM领域的需求。


AI Agent的未来前景


1. LLM-Based Agent在探索试错能力上的学习

AI Agent的概念在强化学习领域早已存在,但技术路径完全不同。RL-Based Agent通过与环境的互动来学习,但其泛化能力受到限制。相比之下,LLM具有强大的泛化能力,因此在复杂推理方面具有潜力。然而,LLM Agent目前还没有高效从错误中学习的能力,这是一个需要解决的挑战。引入RL思想可能有助于AI Agent取得进一步突破。


2. LLM的优化需求:复杂推理和延迟

AI Agent的应用需要LLM的不断优化,尤其是在复杂推理方面。目前,LLM的训练目标是next token prediction,这在需要多步复杂推理的任务中表现不佳。此外,LLM的响应速度仍然较慢,低延迟对于许多应用至关重要,需要通过模型压缩等方法来改进。解决这些问题将需要科学研究和工程改进。


3. 多代理协作带来的挑战

AI Agent框架中,AI之间会有大量的文本/代码沟通与协作,这将导致生成大量的token数,需要模型侧进行持续的成本优化。同时,多Agent场景下需要更明确的目标和激励机制,这可能需要引入数字货币和代码等机制。这是一个需要进一步探索的方向。


综上所述,AI Agent领域充满了潜力,但也面临着各种挑战。OpenAI等大模型公司在框架和模型推理方面将继续努力,而AI Agent的应用落地还需要革新的人机交互方式。这需要持续的探索和创新,以逼近正确的答案。


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png


关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


20230902

扫码交流,一起构建企业人工智能的未来