源信息经过deepseek翻译并总结

摘要：

大型语言模型（LLM）初期推动企业AI部署，但高成本促使转向小型语言模型（如谷歌Gemma、微软Phi）和蒸馏技术。小型模型降低算力需求、加速推理，减少基础设施支出，且专用模型更易维护。企业通过微调或后期训练可大幅降低成本（如百万美元降至3万美元），专用模型在特定任务表现接近LLM。建议先用LLM验证可行性，再切换至小型模型，但需注意其上下文不足或脆弱性。持续评估模型灵活性是关键，供应商已支持自动切换，企业应选择支持微调的平台以优化长期成本。

模型极简主义：为企业节省数百万的新AI策略

作者：Emilia David @miyadavid
2025年6月27日下午1:00

本文是VentureBeat特别专题《AI的真实成本：规模化下的性能、效率与投资回报》的一部分。阅读更多相关内容。

大型语言模型（LLM）的出现让企业更容易规划可实施的项目，推动了许多试点项目向实际部署过渡。然而，随着项目推进，企业意识到早期使用的LLM不仅笨重，成本也过高。

于是，小型语言模型和模型蒸馏技术应运而生。谷歌的Gemma系列、微软的Phi以及Mistral的Small 3.1等模型让企业能够选择快速、精准且适合特定任务的模型。通过为特定用例选用小型模型，企业可以降低AI应用的运行成本，并可能获得更好的投资回报（ROI）。

LinkedIn杰出工程师Karthik Ramgopal向VentureBeat表示，企业选择小型模型有几个原因：

“小型模型对算力、内存需求更低，推理速度更快，直接降低了基础设施的运营支出（OPEX）和资本支出（CAPEX），尤其是考虑到GPU成本、供应和功耗问题。任务专用模型的范围更窄，其行为更容易长期保持一致，无需复杂的提示工程。”

模型开发者也会相应为小型模型定价。OpenAI的o4-mini输入每百万token收费1.1美元，输出每百万token收费4.4美元，而完整版o3模型的输入和输出价格分别为10美元和40美元。

如今，企业有更多小型模型、任务专用模型和蒸馏模型可选。目前大多数旗舰模型都提供多种规格，例如Anthropic的Claude系列包含最大的Claude Opus、通用型Claude Sonnet以及最小的Claude Haiku。这些模型体积小到可在笔记本电脑或手机上运行。

成本节约的衡量

讨论投资回报时，核心问题始终是：ROI如何体现？是直接的成本节约，还是因时间节省而间接带来的资金节约？接受采访的专家表示，ROI难以一概而论——部分企业认为减少任务时间即已实现ROI，而另一些则等待实际资金节省或业务增长来验证AI投资是否成功。

通常，企业会按Cognizant首席技术官Ravi Naarla提出的公式计算ROI：ROI=（收益-成本）/成本。但对于AI项目，收益往往不会立竿见影。他建议企业明确预期收益、基于历史数据估算、合理评估AI总成本（包括人力、实施与维护），并做好长期投入准备。

专家认为，小型模型能降低实施和维护成本，尤其是在针对企业需求微调模型时。Aible创始人兼CEO Arijit Sengupta指出，模型上下文的引入方式决定了成本节约空间。对于需要复杂提示的用户，长指令会导致token成本上升。

“模型总是需要上下文的，没有免费午餐。但对大模型而言，上下文通常通过提示词提供，”他说，“微调或后期训练是另一种提供上下文的方式。我可能花费100美元的后期训练成本，但这并不夸张。”

Sengupta表示，仅通过后期训练就能实现约100倍的成本削减，模型使用成本“从数百万美元降至3万美元左右”。他强调这一数字包含软件运营费用及模型与向量数据库的持续成本。

“维护成本方面，如果依赖人工专家，小型模型的维护可能很昂贵，因为它们需要后期训练才能达到与大模型相当的效果。”

Aible的实验显示，针对特定任务微调的模型在某些用例中表现与LLM相当，证明部署多个专用模型比使用单一大型模型更经济。该公司对比了Llama-3.3-70B-Instruct的后期训练版与同系列80亿参数的小型版本。70B模型花费11.30美元后期训练后，自动化评估准确率为84%，人工评估达92%；而花费4.58美元微调的8B模型在人工评估中达到82%准确率，足以满足更具体的用例需求。

按需选型的成本考量

模型规格的调整不必以性能为代价。如今企业明白，模型选择不限于GPT-4o或Llama-3.1，而是清楚某些用例（如摘要生成或代码编写）更适合小型模型。

联系中心AI服务商Cresta首席技术官Daniel Hoske表示，先用LLM开发有助于预判成本节约潜力：“应从最大模型开始验证设想是否可行——如果大模型都无效，小模型更不可能成功。”

Ramgopal称LinkedIn也采用类似策略，因为只有通过原型测试才能暴露问题：“对于代理类用例，我们通常先用通用LLM快速原型验证和评估产品市场匹配度。待产品成熟后，再针对质量、成本或延迟问题转向定制方案。”

实验阶段能帮助企业明确AI应用的优先级，从而更好地规划节约目标，选择最适合预算和用途的模型规格。

专家提醒，尽管选用适配开发的模型很重要，但高参数量的LLM始终成本更高。大型模型永远需要强大的算力支持。然而，过度使用小型专用模型也有弊端。AWS数据与AI市场推广副总裁Rahul Pathak在博客中指出，成本优化不仅来自低算力需求模型，更源于任务与模型的匹配。小型模型可能因上下文窗口不足而无法理解复杂指令，反而增加人力成本。

Sengupta也警告，部分蒸馏模型可能脆弱，长期使用未必节省成本。

持续评估

无论模型大小，行业参与者都强调应对新问题或用例的灵活性。如果出现性能相当但成本更低的小型模型，企业不应固守原有选择。

品牌营销公司Mod Op首席技术官兼创新主管Tessa Burg表示，企业必须接受现有技术终将被取代：“我们以‘底层技术会变’的心态设计工作流和流程。我们知道当前使用的模型未来一定会被更好的版本淘汰。”

Burg指出，小型模型为公司及客户节省了研发时间，长期来看确实降低了预算。她建议将高成本、高频次的用例拆分给轻量级模型处理。

Sengupta补充，现在供应商已支持模型自动切换，但用户需选择支持微调的平台以避免额外成本。

VB Transform 2025新增50张门票
6月24-25日，旧金山，与顶尖领袖共同解决真实AI挑战，分享经验并探索未来。点击了解更多。### 你需要的AI洞见，助力领导力

提交

感谢订阅。查看更多VB新闻通讯请点击这里。

发生错误。