斯坦福HAI发布基础模型透明度评分,大模型全军覆没
斯坦福大学的HAI研究机构联合多方最新发布了一项关于基础模型透明度的研究。该研究中设计了一个名为“基础模型透明度指标”(The Foundation Model Transparency Index)的评分系统,从100个维度对10家主流的国外大模型进行了评估。
论文地址:https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
结果,可能让你大跌眼镜!如果说60分为及格线,所有参与评估的大模型均未达标。
此外,斯坦福的研究人员发现,这些模型的创建者们并未披露任何关于社会影响的信息,包括如何处理隐私、版权或偏见的投诉。暗示公司在基础模型领域变得越来越不透明。
研究团队强调,大模型的透明度直接关系到它们的可信度。更深层次的,他们认为这也暴露出整个人工智能行业从根本上存在透明度的问题。
论文深度评估模型透明度
为深入评估大模型透明度,斯坦福研究团队公开了一篇详尽的100多页论文,并据此对10大模型进行了排名。该评估涉及了100个详细的指标维度。
三大评估维度如下:
上游(Upstream):描述基础模型建设时的元素和步骤,例如数据和计算资源。
模型(Model):研究基础模型的特质和作用,涉及其结构、能力和潜在风险。
下游(Downstream):探讨模型的应用和分布方式,包括对用户产生的效果、更新方式和管理策略。
具体成绩细节表明,“上游”指标的得分差异最为明显。例如,BLOOMZ在“上游”类指标中得分较高,而Jurassic-2、Inflection-1和Titan Text的“上游”得分为零。
此外,三大评估维度还细化为13个子域,包括数据、劳动力、计算、方法、模型基础、模型访问、功能、风险、缓解措施、分布、使用策略、反馈和影响。
上文的评估数据,均出自论文《The Foundation Model Transparency Index》
关于持续受关注的“开源闭源之争”,研究团队也进行了考察。Llama 2、BLOOMZ和Stable Diffusion 2被标记为开源模型,且其得分普遍较高。仅GPT-4的得分比Stable Diffusion 2高1分。研究人员指出,这种得分差异主要由闭源模型在“上游”问题上的透明度不足引起,尤其是在构建模型的数据、劳动力和计算方面。
透明度为何至关重要
在数字技术领域,透明度长期是一个关键问题,它关乎误导性广告、工资政策和社交媒体信息的真实性。随着AI技术的迅速发展,确保透明度不仅有助于企业和学者做出明智决策,还是政策制定的基石。Bommasani强调,只有透明度,才能有效应对知识产权、劳动、能源和偏见等挑战。为保障公众权益,他们有权知道AI系统背后的模型原理、如何报告问题并寻求解决方案。
关于企元大数据
广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。
关于汇思人机资本
汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。
汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。
汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性”
我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。
扫码交流,一起构建企业人工智能的未来