李飞飞、DeepSeek为何偏幸这个国产模子?
栏目:行业新闻 发布时间:2025-02-09 09:01
新智元报道 编纂:桃子 好困【新智元导读】近来,李飞飞团队仅用26分钟在Qwen基本上训出超出o1的模子,而DeepSeek更是直接抉择了阿里通义千问Qwen蒸馏开源4款模子。一个不争的现实浮出水面:往日称霸开源界Llama已悄悄退位,新王加冕。 斯坦福李飞飞团队的一篇论文,迩来在AI圈子掀起了一场飓风。团队也再次证实了测试时Scaling的威力。就连AI年夜神Karpathy都为之赞叹。值得一提的是,研讨职员是基于阿里通义千问Qwen2.5-32B-Instruct,实现了推理模子的微调。乃至,在比赛数学识题上,新模子竟将o1-preview甩在死后,当先27%。 开展全文
这一爆炸性冲破,让全天下眼光都聚焦在了,这个来自阿里云的年夜模子——通义千问Qwen。
早在此之前,红遍全网的DeepSeek便抉择的也是Qwen模子。
他们将DeepSeek-R1推理才能蒸馏6个模子开源给社区,此中4个都是基于Qwen打造。基于Qwen-32B蒸馏的模子,在多项才能上机能直追o1-mini。
再一次,通义千问Qwen模子又在开源社区火了。
有专家提出:兴许,这是咱们第一次当真实验研讨,推理中毕竟产生了什么变更。
当初,咱们有充足的来由去质疑「出现」的说法,也有了更多能源去懂得,为什么Qwen-2.5-Math的基本模子要比Llama 3.1好这么多。
确实,现在在业内,这一景象越来越成为各人公认的现实——
凭仗微弱的机能,多样化开源尺寸,以及寰球最年夜的衍生模子群,Qwen曾经代替Llama成为开源AI社区最主要的标杆基座模子。
站在伟人的肩膀上
自2023年8月以来,阿里云通义千问掀起了一场开源反动。
Qwen、Qwen1.5、Qwen2、Qwen2.5四代模子接踵开源,笼罩了年夜言语模子、多模态模子、数学模子跟代码模子等数十款。
在HuggingFace的Open LLM Leaderboard、Chatbot Arena年夜模子盲测榜单、司南OpenCompass等多个海内外威望榜单中,Qwen机能寰球当先,多次斩获「寰球开源冠军」。
乃至,有业内专家指出——
以后AI范畴的诸多冲破性停顿,无论是微调、蒸馏,仍是其余低本钱翻新技巧,并非从0开端练习,而是树立在Qwen等基本模子的优良机能之上。
以后AI范畴的诸多冲破性停顿,无论是微调、蒸馏,仍是其余低本钱翻新技巧,并非从0开端练习,而是树立在Qwen等基本模子的优良机能之上。
Databricks研讨迷信家Omar Khattab称,「更多对于Qwen的发明。我越来越确信这些论文仿佛发明了一些对于Qwen模子的特征,而纷歧定波及推理才能的冲破」。
另一位来自滑铁卢年夜学盘算机系助理教学Wenhu Chen对此观念表现极年夜地认同。
他表现,这基础跟s1的发明一样,用大概1000个样本就能失掉相似的练习成果。
在其余模子上用同样的数据练习,但却完整没功效,这是为何?
显然,Qwen模子自身必定有一些神奇之处。
越来越多的人不谋而合地发明,「咱们多少乎什么都没做,Qwen 2.5却多少乎什么都能做了。」
这就阐明,它的基本模子必定机能超强,在基准测试中十分当先。
由于,这曾经完整不克不及用练习数据品质来阐明了。
李飞飞团队s1模子用实际证实,在特定前提下,低本钱(不到50美金)练习确切可能发生令人惊喜的成果。
这在很年夜水平上,要归功于它所依附的基座模子——通义千问Qwen。
假如不如许强盛的模子作为支持,想要去实现同样的后果,生怕并非易事。
包含DeepSeek开源蒸馏后四款Qwen模子,也是如斯。
这也让Qwen成为推进前沿技巧开展的又一主要案例。
全尺寸、全模态、多场景
能够说,阿里云Qwen模子是业界率先实现「全尺寸、全模态、多场景」的开源。
无论是1.5B、72B仍是110B,Qwen开源的模子尺寸跟版本的笼罩面都最广,闪开发者跟企业有了更多抉择的余地。
从2024年开端,Qwen就曾经在开辟者中领有越来越高的影响力。
比方,在寰球最著名的开源社区HuggingFace数据统计中,2024年,仅Qwen2.5-1.5B-Instruct这款模子,就占到了寰球模子下载量的26.6%,远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%。
而仅仅是视觉懂得Qwen-VL及Qwen2-VL两款模子,寰球的下载量就冲破了3200万次。
就在一周前,Qwen2.5-VL全新进级,又激发了新一轮的开源社区狂热。
现在,细数国内外开源社区,Qwen的衍生模子数目已冲破9万,直接超出了Llama系列衍生模子。
DeepSeek跟李飞飞的抉择,更是证实了Qwen系列的强盛潜力。
在将来,它必将持续发明新的奇观。
参考材料:前往搜狐,检查更多