当前位置:主页 > 快讯 > 正文

四大维度深度体验多模态性能,GPT-4o为何被称作“最强大模型”?

发布时间:2024-05-22 已有: 位 网友关注

  去年3月,GPT-4震撼发布,距今已逾一年。尽管科技巨头如谷歌、Meta,以及硅谷新贵如Mistral AI、Anthropic在那之后都争相发布了竞品大模型,但似乎至今还未有第二款大模型达到与GPT-4一般横扫科技圈的力量——直到GPT-4o的诞生。

  当地时间5月13日,OpenAI在万众期待中推出了名为GPT-4o的新一代旗舰AI模型。当日,OpenAI首席执行官阿尔特曼发推文表示,新的GPT-4o是OpenAI“有史以来最好的模型”。

  据悉,GPT-4o支持文字、图像、语音和输入和输出,OpenAI承诺未来将免费让普通用户使用,同时将开放API给GPT开发者,价格直接便宜50%。目前,该模型仅开放了文本和图像功能。

  本周,GPT-4o到底是如何“炼”成的?当地时间5月15日,OpenAI联合创始人之一John Schulman在接受科技播客主持人Dwarkesh Patel时透露,后训练是提高模型性能的关键因素。

  基于类型,
 

  接着,
 

  GPT-4o的表现惊艳,不仅准确识别了该图的主旨内容,并依据图示上的过程用通俗的语言解释了mRNA疫苗的工作原理。

  
 

  接着,
 

  
 

  
 

  
 

  在此维度下,
 

  最后,
 

  
 

  除了识图功能之外,
 

  
 

  从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。

  那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以从OpenAI联合创始人John Schulman当地时间5月15日与科技播客主持人Dwarkesh Patel的对话中一窥究竟。

  John Schulman在中提到,在这里需要区分两个关键的概念,在大模型训练中通常会提到“预训练”、“后训练”等术语。预训练常在大规模的数据集上进行,目标是通过在较大的任务上训练模型,使得模型学习到通用的特征。

  而后训练指的是专注针对特定行为优化模型,在预训练模型的基础上,使用额外的大规模未标注语料库继续训练模型参数,这个过程可以进一步丰富模型对语言的理解和生成能力,使其获得更广泛的知识。

  根据John Schulman的说法,后训练是GPT-4模型不断升级的关键因素。据悉,当前 GPT-4 的 Elo分数比最初发布的版本高出了大约 100 分,而这种改进大部分都是由后训练带来的。

  他同时暗示,在未来用于训练的算力中,OpenAI可能将偏向后训练。他说道:“模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我们通过后训练取得了很多进步。我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。”

  针对GPT-4o强大的多模态能力,英伟达高级研究科学家Jim Fan发表长文表示,从技术角度来看,这需要对标记化和架构进行一些新的研究,但总体上是一个数据和系统优化问题。

  在Jim Fan看来,GPT-4o很可能是GPT-5的一个早期训练点,但训练尚未完成。从商业角度上,他认为,“GPT-4o的定位透露出OpenAI某种不安全感,在谷歌开发者大会之前,OpenAI宁愿超越我们对GPT-4.5的心理预期,也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措,可以争取更多时间。”目前,业界广传GPT-5将在年底发布。

  Jim Fan的观点与一些业内分析不谋而合。分析认为,OpenAI选择此时发布GPT-4o,是为了在竞争对手尤其是谷歌不断发起挑战的情况下,继续保持领先地位。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。