当前位置:首页 > 国际 > 正文

阿里巴巴的Qwen AI模型助力斯坦福、伯克利能够开发出低成本推理模型

  • 国际
  • 2025-02-11 13:31:03
  • 2

  斯坦福的S1和伯克利的TinyZero是研究人员越来越多地使用阿里巴巴技术降低AI训练成本的两个例子。随着美国计算机科学家(包括著名的华裔“AI教母”李飞飞)利用阿里巴巴的开源Qwen2.5模型,以不到50美元的成本训练出一种新的推理模型,在中国DeepSeek取得突破性成功后,生产最便宜且性能顶尖的人工智能(AI)模型的竞赛正在升温。

阿里巴巴的Qwen AI模型助力斯坦福、伯克利能够开发出低成本推理模型

  根据上周发表的一篇研究论文,S1推理模型是由斯坦福大学(李飞飞工作的地方)和华盛顿大学的研究人员在阿里巴巴的Qwen2.5-32b-Instruct模型基础上开发的。

  阿里巴巴模型的能力是中国正在缩小与领先美国AI企业差距的最新证据。此前,DeepSeek发布的低成本、高性能开源模型已引起全球关注。阿里巴巴在香港上市的股票本周一上涨了6%。

  根据论文,S1模型在经过1000个精心设计的问题答案和从谷歌Gemini思维实验模型中蒸馏的“思维过程”训练后,在数学和编程技能上超越了OpenAI的o1-preview模型。

  根据研究中提到的计算,仅用于开发S1的图形处理单元(GPU)运行成本可能低至14美元。论文指出,该模型在16个Nvidia H100上训练了26分钟。这些芯片可以以每小时2美元的价格租用。

  加州大学伯克利分校的计算机科学家Pan Jiayi表示,以如此低的成本(大约相当于纽约熟食店一个三明治的价格)训练一个强大的推理模型的关键在于基础模型。“基础模型的质量是关键,”他说。

  Pan Jiayi的团队在启动一个项目时得出了这一结论。该项目成功复制了DeepSeek-R1模型在倒计时游戏(一种需要模型达到目标数字的算术运算)和乘法任务中的推理能力。该团队的TinyZero项目也是在一系列Qwen2.5模型的基础上构建的,成本约为30美元。

  通过使用强化学习,Pan Jiayi的团队从使用5亿参数的Qwen2.5版本升级到70亿参数的版本。Pan Jiayi在X(前身为Twitter)上表示,一旦使用15亿参数的模型,它就开始“学习搜索、自我验证和修正解决方案,从而使其能够获得更高的分数”。

  S1和TinyZero都选择了阿里巴巴的Qwen2.5,因为该模型的开源代码允许任何人访问和修改基础模型,并且其性能表现出众。

  阿里巴巴的云计算部门于去年9月首次推出Qwen2.5系列,参数规模从5亿到720亿不等。参数是指AI系统在训练过程中存在的变量。AI模型的复杂性和有效性在很大程度上取决于训练过程中涉及的参数规模。

  在发布时,该系列最大的模型Qwen2.5-72b的表现优于其他开源竞争对手模型,包括Meta Platforms的Llama3.1-405b,尽管后者规模更大。

  根据当时的基准测试,其性能也与微软支持的OpenAI和亚马逊支持的Anthropic的顶级闭源模型相当。

  Qwen2.5是全球最大的深度学习和AI模型社区Hugging Face上去年下载量最多的模型,取代了Meta的Llama系列,成为全球研究人员和开发人员的首选。这也解释了为什么越来越多的全球计算机科学家正在通过在Qwen模型上进行实验来增强AI系统。

  OpenAI的GPT系列等顶级模型并非开源,因此无法下载用于此类研究。

  在本月早些时候发表的一篇论文中,上海交通大学的计算机科学家展示了一种使用高质量训练样本来增强AI系统推理能力的方法,该实验也以Qwen模型为基础。

  加拿大滑铁卢大学计算机科学助理教授Chen Wenhu表示:“Qwen模型确实有一些神奇之处。”

  Chen Wenhu在X上写道,他的团队尝试使用相同质量的数据方法训练其他模型,但几乎没有取得任何进展。

有话要说...