史上第一次！“AI vs 人类”工作能力评测，结果对人类不太妙

发布时间：2025-10-05 已有：位网友关注

　　巴克莱在最新研究报告中称，Anthropic的Claude Opus 4.1在与人类专家对比中取得47.6%的胜利或平局率，位居榜首。

　　巴克莱分析师认为，AI模型的胜率在过去15个月中线个月内AI将在大多数工作相关任务上超越人类。分析认为，这一突破为评估AI投资回报率提供了关键数据支撑。

　　评测标准创新突破：模拟真实工作复杂性

　　据巴克莱研究报告，GDPval基准测试的核心创新在于其真实性和复杂性。

　　该评测由平均拥有超过14年行业经验的资深专业人士设计，涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业的1230个专业任务。

　　与传统基准测试不同，GDPval的任务并非简单文本问答，而是包含参考文件和上下文的复杂场景，要求AI交付多样化成果，包括文档、幻灯片、图表和电子表格等。巴克莱指出，这种设计更贴近现实工作环境的复杂性。

　　评测采用盲测方式，由行业专家对AI和人类生成的工作成果进行排名，从难度、代表性、完成时间和整体质量等维度进行综合评估。

　　AI性能接近人类专家水平

　　巴克莱分析显示，当前最先进的AI模型在多个领域已接近或达到人类专家水平。Claude Opus 4.1以47.6%的胜率领先，GPT-5-high紧随其后，达到38.8%，o3 high为34.1%。

　　从行业维度看，AI在零售贸易、批发贸易和政府部门的表现超过人类专家，但在信息技术行业表现相对较弱。职业层面上，AI在柜台和租赁文员、运输接收和库存文员以及软件开发人员任务中表现最佳，而在工业工程师和影视

　　各模型表现出不同特点：Claude Opus 4.1在美学表现方面表现出色，GPT-5在遵循指令和执行准确计算方面最为精准。

　　巴克莱报告特别强调了AI能力提升的速度。

　　研报称，OpenAI模型在GDPval测试中的表现在15个月内提升了3倍以上，这种线性增长趋势表明AI很可能在短期内全面超越人类专家。

　　对GPT-5的失误分析显示，尽管该模型仍会犯一些灾难性错误，但47.7%的失误被归类为可接受但不佳，22.9%的情况下模型表现甚至优于人类。

　　巴克莱分析师认为，AI模型的原始智能，特别是GPT-5，已达到超越人类专家的水平。通过更多后期训练，AI全面超越行业专家的时代已为时不远。

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

推荐