首页
看点啥
插画图片
首页 看点啥 更小更强大的 GPT-4o mini 背后: AI 模型的未来不再是越大越好

更小更强大的 GPT-4o mini 背后: AI 模型的未来不再是越大越好

2026-07-04 0

我们也曾揭秘负责运作苹果智能的幕后功臣,其中经过微调的 3B 小模型专用于摘要、润色等任务,在经过适配器的加持后,能力优于 Gemma-7B,适合在手机终端运行。

所以我们看到,前 OpenAI 大神 Andrej Karpathy 最近也提出了一个判断,模型尺寸的竞争将会「反向内卷」,不是越来越大,而是比谁更小更灵活。

小模型凭什么以小胜大

Andrej Karpathy 的预测并非无的放矢。

在这个数据为中心的时代,模型正迅速变得更加庞大和复杂,经过海量数据训练出来的超大模型(如 GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。

然而,经过微调的模型在特定任务上甚至「以小胜大」,好用程度媲美不少「超大模型」。

Hugging Face CEO Clem Delangue 也曾建议,多达 99% 的使用案例可以通过使用小模型来解决,并预测 2024 年将是小型语言模型的一年。

究其原因之前,我们得先科普一些知识。

2020 年,OpenAI 在一篇论文中提出一个著名的定律:Scaling law,指的是随着模型大小的增加,其性能也会随之增加。随着 GPT-4 等模型的推出,Scaling law 的优势也逐渐显现出来。

AI 领域的研究者和工程师坚信,通过增加模型的参数数量,可以进一步提升模型的学习能力和泛化能力。就这样,我们见证模型规模从数十亿参数跃升至几千亿,甚至朝着万亿参数规模的模型攀登。

在 AI 的世界里,模型的规模并非衡量其智能的唯一标准。

相反,一个精巧设计的小型模型,通过优化算法、提升数据质量、采用先进的压缩技术,往往能够在特定任务上展现出与大型模型相媲美甚至更优的性能。

这种以小博大的策略,正成为 AI 领域的新趋势。 其中,提高数据质量是小模型以小胜大的方法之一。

Coalesce 的首席技术官兼联合创始人 Satish Jayanthi 曾这样形容数据对模型的作用:

为了产出高质量的结果,大型语言模型需要接受针对特定主题和领域的高质量、有针对性的数据训练。就像学生需要优质的教材来学习一样,LLM 也需要优质的数据源。

抛却传统大力出奇迹的暴力美学,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远前不久提出了大模型时代的面壁定律,即模型的知识密度不断提升,平均每 8 个月提升一倍。

其中知识密度=模型能力 / 参与计算的模型参数。

刘知远形象地解释道,如果给你 100 道智商测试题,你的得分不仅仅取决于你答对了多少题,更在于你完成这些题目所动用的神经元数量。如果用更少的神经元完成更多的任务,那么你的智商就越高。

这正是知识密度所要传达的核心理念:

相比 OpenAI 于 2020 年发布的 1750 亿参数的 GPT-3,2024 年面壁发布 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM -2.4B,知识密度提高了大概 86 倍。

一项来自多伦多大学的研究也表明,并非所有数据都是必要的,从大型数据集中识别出高质量的子集,这些子集更易于处理且保留了原始数据集中的所有信息和多样性。

即使去除高达 95% 的训练数据,模型在特定分布内的预测性能也可能不会受到显著影响。

近期最典型的例子当属 Meta Llama 3.1 大模型。

Meta 在训练 Llama 3 时,喂了 15T tokens 训练数据,但负责 Llama2 和 Llama3 训练后工作的 Meta AI 研究员 Thomas Scialom 却表示:网络上的文本充满了无用信息,基于这些信息进行训练是浪费计算资源。

此外,知识蒸馏也是其中一个「以小胜大」重要的方法。

知识蒸馏指的是通过一个大型且复杂的「教师模型」来指导一个小型且简单的「学生模型」的训练,能够将大模型的强大性能和优越的泛化能力转移给更轻量级、运算成本更低的小模型。

Llama 3.1 发布之后,Meta CEO 扎克伯格在长文《Open Source AI Is the Path Forward》中也着重提到了微调和蒸馏小模型的重要性。

业内也普遍认为,Meta Llama 3.1 的 8B 和 70B 版本是由超大杯的蒸馏而成,因此,整体性能得到了显著跃迁,模型效率也更高。

又或者,模型架构优化也是关键,比如 MobileNet 设计的初衷是在移动设备上实现高效的深度学习模型。

它通过深度可分离卷积(Depthwise Separable Convolution)显著减少了模型的参数数量。MobileNetV1 相比于 ResNet 在参数数量上减少了约 8-9 倍。

由于参数数量的减少,MobileNet 在计算上更为高效。这对于资源受限的环境(如移动设备)尤为重要,因为它可以在不牺牲太多性能的情况下,显著降低计算和存储需求。

尽管技术层面取得了进步,但 AI 行业本身仍面临着长周期投入和高成本的挑战,且回报周期相对较长。

据《每日经济新闻》不完全统计, 截至今年 4 月底,国内共推出了约 305 个大模型,但截至 5 月 16 日,还有约 165 个大模型尚未完成备案。

百度创始人李彦宏曾公开批评,认为当前众多基础模型的存在是对资源的浪费,并建议应将资源更多地用于探索模型与行业结合的可能性,以及开发下一个潜在的超级应用。

这也是当前 AI 行业的一个核心问题,模型数量的激增与实际应用落地之间不相称的矛盾。

面对这一挑战,行业的焦点逐渐转向加速 AI 技术的落地应用,而部署成本低和效率更高的小模型成了更为合适的破局点。

一些专注于特定领域的小型模型也开始冒出来,比如烹饪大模型、直播带货大模型。这些名头虽然看起来有些唬人,但恰恰是走在了正确的道路上。

简言之,未来的 AI 将不再是单一的、庞大的存在,而是会更加多样化、个性化。小模型的崛起,正是这一趋势的体现。它们在特定任务上展现出的卓越性能,证明了「小而美」同样能够赢得尊重和认可。

One more thing

如果你想在 iPhone 上提前跑模型,那不妨尝试 Hugging Face 推出的一款名为「Hugging Chat」的 iOS App。

借助魔法和外区 App Store 账号下载该 App,然后用户即可访问和使用各种开源模型,包括但不限于 Phi 3、Mixtral、Command R+ 等模型。

温馨提醒,为了获得更佳的体验和性能,建议使用最新一代的 Pro 版 iPhone。

喜欢(0)

上一篇

GPT-4o mini凭什么登顶竞技场: OpenAI刷分秘诀被扒 原来奥特曼早有暗示

GPT-4o mini凭什么登顶竞技场: OpenAI刷分秘诀被扒 原来奥特曼早有暗示

下一篇

防不胜防:AI几米外隔空窥屏 HDMI线把信号泄露到空气里了

防不胜防:AI几米外隔空窥屏 HDMI线把信号泄露到空气里了
猜你喜欢