首页看点啥更小更强大的 GPT-4o mini 背后: AI 模型的未来不再是越大越好

更小更强大的 GPT-4o mini 背后: AI 模型的未来不再是越大越好

2026-07-04 0

我们也曾揭秘负责运作苹果智能的幕后功臣，其中经过微调的 3B 小模型专用于摘要、润色等任务，在经过适配器的加持后，能力优于 Gemma-7B，适合在手机终端运行。

所以我们看到，前 OpenAI 大神 Andrej Karpathy 最近也提出了一个判断，模型尺寸的竞争将会「反向内卷」，不是越来越大，而是比谁更小更灵活。

小模型凭什么以小胜大

Andrej Karpathy 的预测并非无的放矢。

在这个数据为中心的时代，模型正迅速变得更加庞大和复杂，经过海量数据训练出来的超大模型（如 GPT-4），大部分其实是用来记住大量的无关紧要细节的，也就是死记硬背资料。

然而，经过微调的模型在特定任务上甚至「以小胜大」，好用程度媲美不少「超大模型」。

Hugging Face CEO Clem Delangue 也曾建议，多达 99% 的使用案例可以通过使用小模型来解决，并预测 2024 年将是小型语言模型的一年。

究其原因之前，我们得先科普一些知识。

2020 年，OpenAI 在一篇论文中提出一个著名的定律：Scaling law，指的是随着模型大小的增加，其性能也会随之增加。随着 GPT-4 等模型的推出，Scaling law 的优势也逐渐显现出来。

AI 领域的研究者和工程师坚信，通过增加模型的参数数量，可以进一步提升模型的学习能力和泛化能力。就这样，我们见证模型规模从数十亿参数跃升至几千亿，甚至朝着万亿参数规模的模型攀登。

在 AI 的世界里，模型的规模并非衡量其智能的唯一标准。

相反，一个精巧设计的小型模型，通过优化算法、提升数据质量、采用先进的压缩技术，往往能够在特定任务上展现出与大型模型相媲美甚至更优的性能。

这种以小博大的策略，正成为 AI 领域的新趋势。其中，提高数据质量是小模型以小胜大的方法之一。

Coalesce 的首席技术官兼联合创始人 Satish Jayanthi 曾这样形容数据对模型的作用：

为了产出高质量的结果，大型语言模型需要接受针对特定主题和领域的高质量、有针对性的数据训练。就像学生需要优质的教材来学习一样，LLM 也需要优质的数据源。

抛却传统大力出奇迹的暴力美学，清华大学计算机系长聘副教授、面壁智能首席科学家刘知远前不久提出了大模型时代的面壁定律，即模型的知识密度不断提升，平均每 8 个月提升一倍。

其中知识密度=模型能力 / 参与计算的模型参数。

刘知远形象地解释道，如果给你 100 道智商测试题，你的得分不仅仅取决于你答对了多少题，更在于你完成这些题目所动用的神经元数量。如果用更少的神经元完成更多的任务，那么你的智商就越高。

这正是知识密度所要传达的核心理念：

相比 OpenAI 于 2020 年发布的 1750 亿参数的 GPT-3，2024 年面壁发布 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM -2.4B，知识密度提高了大概 86 倍。

一项来自多伦多大学的研究也表明，并非所有数据都是必要的，从大型数据集中识别出高质量的子集，这些子集更易于处理且保留了原始数据集中的所有信息和多样性。

即使去除高达 95% 的训练数据，模型在特定分布内的预测性能也可能不会受到显著影响。

近期最典型的例子当属 Meta Llama 3.1 大模型。

Meta 在训练 Llama 3 时，喂了 15T tokens 训练数据，但负责 Llama2 和 Llama3 训练后工作的 Meta AI 研究员 Thomas Scialom 却表示：网络上的文本充满了无用信息，基于这些信息进行训练是浪费计算资源。

此外，知识蒸馏也是其中一个「以小胜大」重要的方法。

知识蒸馏指的是通过一个大型且复杂的「教师模型」来指导一个小型且简单的「学生模型」的训练，能够将大模型的强大性能和优越的泛化能力转移给更轻量级、运算成本更低的小模型。

Llama 3.1 发布之后，Meta CEO 扎克伯格在长文《Open Source AI Is the Path Forward》中也着重提到了微调和蒸馏小模型的重要性。

业内也普遍认为，Meta Llama 3.1 的 8B 和 70B 版本是由超大杯的蒸馏而成，因此，整体性能得到了显著跃迁，模型效率也更高。

又或者，模型架构优化也是关键，比如 MobileNet 设计的初衷是在移动设备上实现高效的深度学习模型。

它通过深度可分离卷积（Depthwise Separable Convolution）显著减少了模型的参数数量。MobileNetV1 相比于 ResNet 在参数数量上减少了约 8-9 倍。

由于参数数量的减少，MobileNet 在计算上更为高效。这对于资源受限的环境（如移动设备）尤为重要，因为它可以在不牺牲太多性能的情况下，显著降低计算和存储需求。

尽管技术层面取得了进步，但 AI 行业本身仍面临着长周期投入和高成本的挑战，且回报周期相对较长。

据《每日经济新闻》不完全统计，截至今年 4 月底，国内共推出了约 305 个大模型，但截至 5 月 16 日，还有约 165 个大模型尚未完成备案。

百度创始人李彦宏曾公开批评，认为当前众多基础模型的存在是对资源的浪费，并建议应将资源更多地用于探索模型与行业结合的可能性，以及开发下一个潜在的超级应用。

这也是当前 AI 行业的一个核心问题，模型数量的激增与实际应用落地之间不相称的矛盾。

面对这一挑战，行业的焦点逐渐转向加速 AI 技术的落地应用，而部署成本低和效率更高的小模型成了更为合适的破局点。

一些专注于特定领域的小型模型也开始冒出来，比如烹饪大模型、直播带货大模型。这些名头虽然看起来有些唬人，但恰恰是走在了正确的道路上。

简言之，未来的 AI 将不再是单一的、庞大的存在，而是会更加多样化、个性化。小模型的崛起，正是这一趋势的体现。它们在特定任务上展现出的卓越性能，证明了「小而美」同样能够赢得尊重和认可。

如果你想在 iPhone 上提前跑模型，那不妨尝试 Hugging Face 推出的一款名为「Hugging Chat」的 iOS App。

借助魔法和外区 App Store 账号下载该 App，然后用户即可访问和使用各种开源模型，包括但不限于 Phi 3、Mixtral、Command R+ 等模型。

温馨提醒，为了获得更佳的体验和性能，建议使用最新一代的 Pro 版 iPhone。

喜欢(0)

GPT-4o mini凭什么登顶竞技场: OpenAI刷分秘诀被扒原来奥特曼早有暗示

防不胜防：AI几米外隔空窥屏 HDMI线把信号泄露到空气里了