正文
返回

模型极简主义:为企业节省数百万的新AI策略

发布:  at  04:00

源信息经过deepseek翻译并总结

摘要:

大型语言模型(LLM)初期推动企业AI部署,但高成本促使转向小型语言模型(如谷歌Gemma、微软Phi)和蒸馏技术。小型模型降低算力需求、加速推理,减少基础设施支出,且专用模型更易维护。企业通过微调或后期训练可大幅降低成本(如百万美元降至3万美元),专用模型在特定任务表现接近LLM。建议先用LLM验证可行性,再切换至小型模型,但需注意其上下文不足或脆弱性。持续评估模型灵活性是关键,供应商已支持自动切换,企业应选择支持微调的平台以优化长期成本。


模型极简主义:为企业节省数百万的新AI策略

作者:Emilia David@miyadavid
2025年6月27日 下午1:00

本文是VentureBeat特别专题《AI的真实成本:规模化下的性能、效率与投资回报》的一部分。阅读更多相关内容。

大型语言模型(LLM)的出现让企业更容易规划可实施的项目,推动了许多试点项目向实际部署过渡。然而,随着项目推进,企业意识到早期使用的LLM不仅笨重,成本也过高。

于是,小型语言模型和模型蒸馏技术应运而生。谷歌Gemma系列微软Phi以及MistralSmall 3.1等模型让企业能够选择快速、精准且适合特定任务的模型。通过为特定用例选用小型模型,企业可以降低AI应用的运行成本,并可能获得更好的投资回报(ROI)。

LinkedIn杰出工程师Karthik Ramgopal向VentureBeat表示,企业选择小型模型有几个原因:

“小型模型对算力、内存需求更低,推理速度更快,直接降低了基础设施的运营支出(OPEX)和资本支出(CAPEX),尤其是考虑到GPU成本、供应和功耗问题。任务专用模型的范围更窄,其行为更容易长期保持一致,无需复杂的提示工程。”

模型开发者也会相应为小型模型定价。OpenAI的o4-mini输入每百万token收费1.1美元,输出每百万token收费4.4美元,而完整版o3模型的输入和输出价格分别为10美元和40美元。

如今,企业有更多小型模型、任务专用模型和蒸馏模型可选。目前大多数旗舰模型都提供多种规格,例如Anthropic的Claude系列包含最大的Claude Opus、通用型Claude Sonnet以及最小的Claude Haiku。这些模型体积小到可在笔记本电脑或手机上运行。

成本节约的衡量

讨论投资回报时,核心问题始终是:ROI如何体现?是直接的成本节约,还是因时间节省而间接带来的资金节约?接受采访的专家表示,ROI难以一概而论——部分企业认为减少任务时间即已实现ROI,而另一些则等待实际资金节省或业务增长来验证AI投资是否成功。

通常,企业会按Cognizant首席技术官Ravi Naarla提出的公式计算ROI:ROI=(收益-成本)/成本。但对于AI项目,收益往往不会立竿见影。他建议企业明确预期收益、基于历史数据估算、合理评估AI总成本(包括人力、实施与维护),并做好长期投入准备。

专家认为,小型模型能降低实施和维护成本,尤其是在针对企业需求微调模型时。Aible创始人兼CEO Arijit Sengupta指出,模型上下文的引入方式决定了成本节约空间。对于需要复杂提示的用户,长指令会导致token成本上升。

“模型总是需要上下文的,没有免费午餐。但对大模型而言,上下文通常通过提示词提供,”他说,“微调或后期训练是另一种提供上下文的方式。我可能花费100美元的后期训练成本,但这并不夸张。”

Sengupta表示,仅通过后期训练就能实现约100倍的成本削减,模型使用成本“从数百万美元降至3万美元左右”。他强调这一数字包含软件运营费用及模型与向量数据库的持续成本。

“维护成本方面,如果依赖人工专家,小型模型的维护可能很昂贵,因为它们需要后期训练才能达到与大模型相当的效果。”

Aible的实验显示,针对特定任务微调的模型在某些用例中表现与LLM相当,证明部署多个专用模型比使用单一大型模型更经济。该公司对比了Llama-3.3-70B-Instruct的后期训练版与同系列80亿参数的小型版本。70B模型花费11.30美元后期训练后,自动化评估准确率为84%,人工评估达92%;而花费4.58美元微调的8B模型在人工评估中达到82%准确率,足以满足更具体的用例需求。

按需选型的成本考量

模型规格的调整不必以性能为代价。如今企业明白,模型选择不限于GPT-4o或Llama-3.1,而是清楚某些用例(如摘要生成或代码编写)更适合小型模型

联系中心AI服务商Cresta首席技术官Daniel Hoske表示,先用LLM开发有助于预判成本节约潜力:“应从最大模型开始验证设想是否可行——如果大模型都无效,小模型更不可能成功。”

Ramgopal称LinkedIn也采用类似策略,因为只有通过原型测试才能暴露问题:“对于代理类用例,我们通常先用通用LLM快速原型验证和评估产品市场匹配度。待产品成熟后,再针对质量、成本或延迟问题转向定制方案。”

实验阶段能帮助企业明确AI应用的优先级,从而更好地规划节约目标,选择最适合预算和用途的模型规格。

专家提醒,尽管选用适配开发的模型很重要,但高参数量的LLM始终成本更高。大型模型永远需要强大的算力支持。然而,过度使用小型专用模型也有弊端。AWS数据与AI市场推广副总裁Rahul Pathak在博客中指出,成本优化不仅来自低算力需求模型,更源于任务与模型的匹配。小型模型可能因上下文窗口不足而无法理解复杂指令,反而增加人力成本。

Sengupta也警告,部分蒸馏模型可能脆弱,长期使用未必节省成本。

持续评估

无论模型大小,行业参与者都强调应对新问题或用例的灵活性。如果出现性能相当但成本更低的小型模型,企业不应固守原有选择。

品牌营销公司Mod Op首席技术官兼创新主管Tessa Burg表示,企业必须接受现有技术终将被取代:“我们以‘底层技术会变’的心态设计工作流和流程。我们知道当前使用的模型未来一定会被更好的版本淘汰。”

Burg指出,小型模型为公司及客户节省了研发时间,长期来看确实降低了预算。她建议将高成本、高频次的用例拆分给轻量级模型处理。

Sengupta补充,现在供应商已支持模型自动切换,但用户需选择支持微调的平台以避免额外成本。


VB Transform 2025新增50张门票
6月24-25日,旧金山,与顶尖领袖共同解决真实AI挑战,分享经验并探索未来。点击了解更多。### 你需要的AI洞见,助力领导力

提交

感谢订阅。查看更多VB新闻通讯请点击这里

发生错误。



上一篇
运行时攻击如何让盈利的AI沦为预算黑洞
下一篇
明智扩展:企业IT团队如何为AI优化计算资源配置