DeepSeek 的启示:人工智能真正的竞争现在才刚刚开始【AI战略洞察】

  不过,这也是目前引起争议比较大的一个领域★:有一些观点认为,DeepSeek 在训练中也使用了 OpenAI 生成的数据,换句话说,DeepSeek 对 ChatGPT 进行了蒸馏★★。但是这种观点目前主要是一些揣测,并没有明确的证据★。

  首先★★★,中国企业目前在大模型方面的成果,更多是在“以10%不到的成本★,实现80%-90%的效果”方面取得突破,要实现超越式的创新和绝对的领先,可能还需要在核心算法★★★、硬件体系等方面★★★,取得理论上的进一步创新★★★。例如,在构建世界模型和理解现实数据方面(不仅限于语言、图片)★★,目前以 Meta 的 Yann Lecun 和 World Labs 的李飞飞为代表★,已经走在了前面★。

  世人常常误以为,爱迪生发明了电灯。然后事实上,法拉第的老师汉弗莱戴维早在1810年就发明了弧光灯,并阐述了白织灯的原理★★★。但是发明是一回事,让它变得稳定★★、易用、便宜,是另外一回事。爱迪生在1879年★,真正研发出了采用炭化棉线的廉价白炽灯泡★★,并构建了发电站、输电网等基础设施,才让电灯,真正点亮千家万户。

  当然,激烈的竞争还在持续进行,就在本文完稿前夜★,OpenAI 最新推理模型 o3-mini 紧急上线。这是 OpenAI 目前性价比最高的推理模型★,价格已经降低到和 DeepSeek 接近★★★。与以往不同的是★★★,OpenAI 向所有用户开放了 o3-mini 在 ChatGPT 和 API 中的使用权限★★。

  因此★★,大模型开源的好处,主要是用户可以下载到本地进行运行★★,既能免费使用(但是需要一定的硬件配置),又能放心使用自己的数据,建立“知识库”,而不用担心隐私泄露的问题。

  在春节期间★,为数众多的自媒体、公众号都在用 DeepSeek 加工各种创意★,有用来编辑过年短信的,有用来制作贺岁图片的(生成提示词)★★★,更多是用它来解答各式各样的问题:这一幕在前几年 ChatGPT 刚刚出现和 Kimi 等产品上线时也曾经出现,但是最大的区别在于★,因为 DeepSeek-R1 在对话中可以方便地启动“深度思考★★★”功能,用户既可以看到它的思考过程,又能够获得更加全面、深入的对话结果★,甚至有人提出:所有之前曾经和其他大模型对话过的内容,都值得用 R1 重新问一遍。

  对于开发者而言,如果是用 API 形式调用 R1,那么其价格:输入 token★,每百万个输入 token 0.55 美元(缓存如果命中则只有 0★★.14 美元)★★,每百万个输出 token 2★★★.19 美元,相比之下★,o1 的收费为 15 美元和 60 美元★★,价格相差接近 30 倍,R1 的优势不言而喻。

  2024年9月5日★★★,DeepSeek合并Coder V2和V2 Chat两个模型,升级推出新模型DeepSeek V2.5。同年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。12月26日晚★★,正式上线全新模型DeepSeek-V3首个版本★★,并同步开源。这是全球首个全开源的混合专家(MoE)模型(关于开源、MoE★,下文将具体说明)★★★,在其技术报告中★★★,DeepSeek透露其训练成本(不包括前期研发成本)仅为 558万美元,远远低于 OpenAI 用于训练 GPT-4o 所用的1亿多美元,只用了 2048 张 H100 的 GPU 集群,再叠加其出色的性能,开始引起全球同行的热议,影响力开始逐步扩大★、发酵。

  在核心技术方面,团队也在提升效率方面采取了一些独特的做法★★,在此因为篇幅限制★★★,只做简要介绍:

  过去在使用开源模型时,虽然有这些好处★★,但是用户苦于开源模型总体性能欠佳,而 R1 改变了这一点,让全世界的用户、开发者和科研机构,以极低的技术门槛,享受到以接近甚至超过闭源的效果★★,从而会极大推动 AI 技术的创新★。

  如同1957年发射首颗人造卫星对当时的科技格局产生颠覆性影响一样,DeepSeek 的 R1 版本以其强大的实力冲击了现有的技术格局。同日,在专家、企业家和教科文卫体等领域代表座谈会上, DeepSeek 公司创始人梁文锋参会并发言,催热舆情★★。

  最后,DeepSeek 的崛起反映了中美科技竞赛的新趋势★。过去,美国通过 GPU 禁运等手段试图遏制中国 AI 技术的发展。然而★★,随着 DeepSeek 等国产 AI 公司的崛起★★,这种策略已经逐渐失效。事实上★★★,DeepSeek 成为了首个在美国也引起广泛关注和影响的国产大模型,具备了真正的国际级的竞争力★。

  但是,这次DeepSeek的正式大规模★“出圈★★”,则是源自于在2025年1月20日发布的DeekSeek-R1 推理大模型。该模型以其更加出色的逻辑推理能力,达到了接近甚至超过OpenAI最新产品 o1 的能力。这一消息瞬间在全球范围内激起千层浪,硅谷的科技媒体开始将其称为新时代的 “斯普特尼克时刻★★★”。

  2023年7月17日,梁文锋决定跨界进入AI领域,正式成立“杭州深度求索人工智能基础技术研究有限公司”★,以实现通用人工智能(AGI)作为企业使命★★。

  最后★★★,开源虽然为技术创新提供了便利条件,但也带来了合规和安全等方面的挑战。企业在使用开源技术时需要严格遵守相关法律法规和行业标准★★,确保技术的合法合规使用。同时★,也要加强安全防护措施★★,防止开源技术被恶意利用或攻击。

  ▲ 杰文斯悖论认为,对于弹性需求★★★,当使用效率更高时★,消费反而会增多,导致需求反弹。来源★★★:

  综合而言,这意味着大模型企业每年必须不断地巨额投资,应对持续上升的模型研发成本,以及当前模型一两年后就会被淘汰的竞争压力。由于开源模式的普及,很难有真正意义上的“护城河”★。最终的少数胜利者★★★,必须是能够持续投入资金、长期坚持创新和能够吸引高水平人才的团队★。这种挑战,不可谓不高,一场估值重构的风暴即将来临。

  这种模式可以在遇到用户提出的问题时,先拆解、分类,再由相应相应领域的专家来解答,各司其职★★★,而不需要所有专家集体会诊,从而极大降低计算量★。与 OpenAI o1 所采用的稠密(Dense)架构相比★★,DeepSeek 使用的 MoE 可以在模型总参数高达 6710 亿的情况下,在实际推理时每次只调用其中的 370 亿个参数。

  “训练算力”(training)指的是在模型训练过程中消耗的算力★★,而“推理算力”(reasoning)是在模型已经开发完成,供用户下载或者调用时★,回答问题所消耗的算力。这些天来,无数国内外用户开始通过网页、APP 或者 API 等形式访问 DeepSeek,这里用到的就是推理算力★★。

  实践证明,在人工智能发展的三驾马车——“算力、算法和数据”之中,算法因为开源模式的推进而逐步大众化,而算力本身并不是护城河,最终起到决定性意义的★★,可能是——数据★★。目前关于 DeepSeek训练数据来源的争议,恰恰反映了数据本身存在着壁垒。对于企业更是如此,自己的数据,才是自身的价值所在,这是我国推进数据要素产业的背景之一。

  但是★★★,在人工智能方向上,什么能像互联网服务一样,具备粘性、数据沉淀、规模效应和成本下降的边际效应?也许★,针对用户个人数据持续优化的个人助理、企业助理是一个方向,或者类似的应用,因为用户切换成本很高★★,用得越多,它对用户的历史★★★、关心、问题就越了解。但是需要注意★★★,这种应用本身也需要和功能不断延伸的大模型相竞争★★。

  然而,要在 ChatGPT 这样的闭源产品上获得类似的效果★,不仅要克服重重障碍才能访问,而且还需要成为付费会员,高价才能使用深度推理功能(o1)★★★。

  R1-Zero 采用的是纯强化学习(pure RL)★★,而不是 GPT 所采用的★★★“人类反馈强化学习”(RLHF)。它用 DeepSeek-V3 作为基础模型,只提供算数★★、代码、逻辑等题目的奖励函数(解答正确★、思考过程符合某种链式推理结构)。没有人类在环(HF),纯粹让模型在奖励指引下自我演化,也就是说,完全不需要人类参与。不过在从 R1-Zero 到 R1 的过程中,团队加入了一些少量的监督数据(cold start)★,然后再做强化学习★★★,生成了完整的 R1。

  这个技术并非 DeepSeek 发明,其历史可以追溯到1991年,当时Michael Jordan和Geoffrey Hinton(去年诺贝尔物理学奖得主)共同发表了开创性论文《Adaptive Mixtures of Local Experts》,首次提出了MoE的概念,旨在通过门控网络(gating network)动态分配输入数据到不同的专家网络,从而实现模型性能的提升★★★。实际上,OpenAI的 GPT4 也采用了这种模式★。

  从技术突破★、市场竞争★★★、行业趋势等多个维度来看★,对当前的 DeepSeek 现象,到底改变了什么,为什么会产生如此大的影响,它对科技行业的未来★★,意味着什么。

  这一点其实是非常具有重要的突破(很多媒体或者文章对这点表达得不够清晰):过去限制大模型发展★★、升级的一个重要瓶颈,就是需要人类的参与★★★,包括数据标注和奖励,现在 DeepSeek 摆脱了这个“镣铐★”,让大模型可以通过自我推理持续进化,那么剩下的就完全是机器效率问题了。这就仿佛是,从过去弯弯曲曲的羊肠小道,走上了一马平川的高速公路。

  再者,作为“杭州科技六小龙★★★”之一★,DeepSeek 的成功离不开杭州这片创新热土的滋养★★。浙江这几年推出的 ★“最多跑一次★★★” ★★、“数字化改革”等措施,降低了创新企业的发展门槛,为民营科技企业提供了良好的营商环境。笔者作为身在杭州的科技工作者,对这一点深有体会。

  其次★★★,DeepSeek 的跨界融合策略为我们展示了传统行业技术与 AI 技术结合的可能性。金融量化交易领域的优化思维被成功迁移到 AI 开发中,为 AI 技术的突破提供了新的思路。这启示我们,未来 AI 技术的发展将更多地依赖于跨学科的融合与创新。

  其次★★★,DeepSeek 团队自己也在报告中说明★,所谓的★★★“低训练成本”,指得是最终模型的训练成本★★★,而不包括前期为各种算法创新所投入的研发成本和底层硬件的采购、运维成本。这方面的巨额投入★★★,来自于基金管理规模一度超千亿元的幻方量化。DeepSeek 拥有万卡集群算力,是大厂之外唯一拥有万张 A100 芯片的公司★。在中国★★,只有腾讯、阿里等极少数公司有能力有动力囤积如此大规模的芯片和算力。

  因此,AI 届的领军人物之一、Meta 公司首席 AI 科学家★、图灵奖得主 Yann Lecun 在社交媒体上评论说:不是中国超越了美国★,而是开源模式正在超越闭源。

  对于应用厂商而言,DeepSeek-R1 带来了更加高效、低成本的 AI 解决方案。事实上,资本市场上相关企业的市值近期有所增长。此外★★,中小开发者也可以利用开源模型推出众多创新应用,共同构建了一个万亿级的★★★“微创新★★★” 生态。

  DeepSeek 团队来自量化交易领域★,擅长通过算法优化实现 “低资源高回报”。这种量化基因被巧妙地运用到了AI开发中,使 DeepSeek 在模型训练和优化方面独具特色。

  在这之后★★,中美的科技行业开始围绕 DeepSeek 现象,展开了广泛的讨论甚至争论,连业界红人马斯克等也开始发言。一场由 DeepSeek 所带来的技术风暴★★,开始席卷全球★★★。

  这里面涉及到大模型和互联网模式的最大区别★★:互联网模式的目的,是通过前期的成本投入形成网络规模和垄断优势,再收回成本★★★。但是大模型的问题在于★★★,用户没有粘性★★。今天网友对于 DeepSeek 的很多赞扬, 几乎一年前在 Kimi 身上都看得到。不难想象★★,如果某个大厂用高薪吸引了 DeepSeek 的主要团队(或者团队自己创业),再开发出个产品出来,效果略微好一些★★,可能用户又会趋之若鹜。因为切换没有成本★,而用户数据没有沉淀★。这显然让投资大模型企业的资本会担忧★★,万一在收回投入之前★★★,就冒出一个新竞争对手出来怎么办★?事实上不可避免,而 DeepSeek 采用的 MIT 开源模式,更是加剧了这种趋势。

  在当前的人工智能市场中,可以把参与者粗略分为:硬件供应商★★★、大模型开发企业和软硬件应用开发企业。下面我们从这三个维度看看,DeepSeek 的崛起,会对它们产生什么样的影响★。

  过去,即使像 Meta Llama 这样知名的开源模型,虽然允许二次开发和商用,但是在协议中添加了一些限制条件,例如Llama License 第2条规定月活7亿以上的企业用户无法获取授权★★★,并且明文禁止使用Llama的输出结果去改善其他大模型。而 DeepSeek 所采用的 MIT 模型★★★,则完全没有这些限制,这也体现了团队的高度自信。

  除此以外,还有FP8混合精度训练、语言一致性奖励★★★、四阶段训练流程等多项技术创新,在此不一一赘述。

  DeepSeek团队采取开源策略的底气,来自于在企业管理、技术研发上的极致高效。换句话说,就算竞争对手什么都拿到了,也难以短时间内复制、改造出更有竞争力的产品。

  近期有很多国内外媒体对团队成员构成和管理方式也进行了深入的分析★★★:年轻化、扁平化★★、精简化的企业文化,将效率至上的理念贯彻到了极致★★。创立一年多来,DeepSeek 几乎每月都会发布一次重大更新★,持续迭代的速度令人惊叹。

  因为今天的大模型产业★★,特别是面向消费者端的大模型产品,要想再进一步,已经不再只是单点上的突破(例如某一个算法、某一行代码),而是需要整个体系的提升——从数据采集、训练,到算法设计、优化,再到推理服务的性能和维护,包括底层硬件的搭配和构建(存储、带宽、通信方式等),环环相扣,每一步都凝聚着工程师的智慧。

  API方式是指用户可以通过程序,直接访问大模型企业的对外服务接口,按照输入和输出的字数(准确来说是 token,即字元的数量★★★,一个汉字大约 0★★.5-1个 token★,一个英文字母大约 1-3 个 token)。

  只有把所有这些紧密整合到一起的团队★★,才能推出一个成功的“产品”(或者说是系统)。这也是英伟达一直认为自己难以被竞争对手超越的原因之一,因为它并不只是研发、销售显卡★★★,而是有CUDA这样的开发框架★★★,数据中心基础设施建设方面的全方位产品和技术。

  传统的大模型开发流程,都是先通过大量标注数据进行 SFT(有监督微调),让模型具备基础能力,之后才使用强化学习(RL)进行能力提升,这是由GPT 系列开创并一直所遵循的范式。然而 DeepSeek 团队发现,大模型可以完全依靠强化学习获得强大的推理能力★★★,无需任何监督式微调,这无疑可以极大提高训练速度,减少对于标注数据的需求。团队直接在 DeepSeek-V3-base 模型上应用强化学习,完全抛开SFT环节,开发了实验性的 R1-Zero 版本。

  本技术为 DeepSeek 团队独创★,针对传统 Transformer模型的“多头注意力机制”在处理长文本时容易★★“分心”的问题。MLA可以通过压缩关键信息,让模型更聚焦核心内容★★。比如阅读一篇长篇小说时,MLA能自动提取人物关系、关键情节等核心线索,减少无效信息的处理★★,提高推理速度,同时显存占用更低。

  从这个意义上,让一项技术能够真正投入使用,★★★“飞入寻常百姓家”★,这才是真正有意义的创新★,也是科技推动新质生产力的真正体现★★★。在这方面,DeepSeek 为我们带来了一个很好的启发和榜样。

  这一发现具有重要的实践意义★:它证明了我们可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中★★,这为 AI 技术的实际应用提供了一条可行的路径。

  ▲ 以 AIME 2024 数据考试为例,R1-zero 模型经过经过多轮强化学习之后(红色实线)★★,超过了 OpenAI o1 的水平(图中紫色虚线)★★,来源★:DeepSeek

  2024年1月5日,DeepSeek发布了首个大模型DeepSeek LLM,迈出了在大模型领域的重要一步。同年5月,其宣布开源第二代模型 DeepSeek-V2★★,凭借出色的性能和极具优势的价格★★,率先发起了大模型领域的价格战,收获了“AI 届拼多多”的称号。不过在当时★,中国的大模型行业正处于“百模大战”的热闹混战之中,大厂们呼风唤雨★,并没有太多人注意到这家从量化基金行业“跨界★★★”而来的★★“小公司★★★”。

  文中不可避免地涉及到一些技术概念,笔者会尽可能用浅显的方式简要说明。另外,因为这个领域的变化,可以用★★“日新月异”来形容★,本文的最后更新日期为2025年2月2日。

  首先★★★,它证明了小团队也能在大时代中创造奇迹。通过算法优化替代算力堆砌★★,DeepSeek 以极小的团队规模支撑起了千亿级的调用量,验证了 “敏捷创新>资源垄断★★” 的新范式。

  简单来说★★★,开源模型让用户可以下载在本地运行★★,但是想要自己重建和修改模型,则相当不易。因此,只有数据源非常小的模型,才可能做到训练原始数据、训练代码等过程全部开源。

  在这个过程中采用了团队还采用了独创的 GRPO 算法,进一步优化强化学习的效果。传统方法通常需要维护一个与主模型规模相当的评价网络来估计状态值,这不仅增加了计算开销★★★,还容易导致训练不稳定。而GRPO 则另辟蹊径★★,移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下★★,模型展现出了持续的自我进化能力,出现了所谓的“Aha moment”(顿悟时刻)。

  DeepSeek的崛起并非“突如其来”。DeepSeek的成立源于创始人梁文锋,对通用人工智能(AGI)的追求和对大模型研发的热情。梁文锋此前在量化投资领域积累了丰富的经验,并通过其创立的知名量化资管巨头幻方量化支持了AI相关研究★★★。

  总而言之,通过各种技术手段,DeepSeek 成功地将大模型的训练成本降低了数十倍,这使得更多企业和个人能够承担得起 AI 技术的使用成本。再通过★“开源”这种方式★★★,推动了 AI 技术的普及和应用★★,为全世界的广大用户提供了高性价比的选择★★★。

  其中★★★,最小的 Qwen-1.5B 模型在 AIME 上达到了 28.9% 的准确率★★★,这个成绩已经超过了一些大得多的基础模型。中等规模的 Qwen-7B 达到了 55★★★.5% 的准确率,这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率,在 MATH-500 上达到了 94.3%★★,这些成绩都接近于原始的 R1 模型。

  但是客观上来说,DeepSeek 不是英伟达的竞争对手,而是英伟达的客户。通过降低大模型的训练★、开发和使用成本,DeepSeek 实际上会扩大 AI 市场,春节期间无数新用户开始使用 DeepSeek 就是很好的例子★★。从中长期而言★★★,这显然有利于以英伟达、AMD 、华为为代表的硬件供应商。微软首席执行官纳德拉就在社交媒体 X 上引用了杰文斯悖论(Jevons paradox)来解释★★★。1865年★,英国经济学家杰文斯在《煤炭问题》一文中提出★★★,随着蒸汽机效率的提升★★,煤炭消耗量不降反增。

  对于硬件厂商来说,DeepSeek 的兴起意味着训练算力的需求将大幅下降★★★,英伟达等芯片巨头因此在短期内面临巨大的市场压力,2025年1月27日,受 DeepSeek 冲击,英伟达股价历史性暴跌,一日内市值蒸发近 6000 亿美元,创美国历史上任何一家公司的单日最大市值损失。除了英伟达外★★★,博通17.40%,AMD下滑6.35%,微软下跌2.14%。受半导体股冲击,当天纳指大跌 3★.07%★。

  DeepSeek 的崛起无疑是 AI 技术普及化进程中的一个重要里程碑。它以其独特的 ★★★“开源 + 低价★” 策略,引领了 AI 技术的新潮流,为产业变革注入了新的活力。在这个特殊的时刻★,笔者想起了科技史上的一个经典案例:

  “开源★”是一种相对于闭源的软件产品发布方式,即把自己的产品代码通过 Github 等平台全部公开。但是要注意的是,大模型产品的开源和一般产品不同,主要是开放训练之后的权重模型,或者说是一个“数据库”★★★,至于这个数据库中的“权重★★★”是怎么得来的★★★,则一般是通过相关论文中的思路说明来提供讲解★★★。另外训练使用的原始数据,也不会提供★★,原因也很简单:数据量通常都会非常庞大。

  对于所有关注AI行业的人而言,这都是一个激动人心的春节假期:在各种新年祝福的中间,DeepSeek 相关的新闻、视频、报道、专访★、直播席卷各大平台,成为热议焦点。技术极客关注它所带来的技术突破和效率提升,自媒体们则津津乐道于它对中美前沿技术竞争的影响,众多读者则为中国科技企业的再次突破激动不已★。

  DeepSeek的崛起,可能威胁更大的★★,是同样做大模型的同行,既包括国外的OpenAI★★、Anthropic★,也包括国内的一干大模型厂商★★。换句话说,它颠覆了大模型这种商业模式。

  再次★★★,大模型的真正价值,关键还是在应用★★。目前在各种媒体上看到的 DeepSeek 应用,还是以日常效率提升为主,没有摆脱过去两年中人工智能应用的总体范式,而真正要在企业界企业界、科研领域得到深入的应用,目前还存在着专业数据不足、应用能力有限等等限制。中国的 AI 应用型企业,特别是中小型企业,虽然有了 DeepSeek 这样的廉价模型,但是目前依然面临着“融资寒冬”,投入有限★★★。

  然而★,在 DeepSeek 引发的技术狂欢中,我们也需要保持清醒的头脑★★,警惕可能存在的认知陷阱★★★。

  更值得一提的是,DeepSeek-R1 采用 MIT 许可协议,这意味着任何人都可以自由地使用、修改、分发和商业化该模型★★★,只要在所有副本中保留原始的版权声明和MIT许可。这一举措彻底打破了以往大型语言模型被少数公司垄断的局面★★,真正将AI技术的力量交到了广大开发者和研究人员的手中★★,这意味着用户可以更加自由地利用模型权重和输出进行二次开发,包括微调和蒸馏。

  低价的原因之一★★,是在大模型 API 的使用场景中,用户输入有相当比例是重复的。例如或在多轮对话中★★★,每一轮都要将前几轮的内容重复输入。因此★★,DeepSeek独创了上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复★★,则重复的部分只需要从缓存读取,无需计算,从而大幅降低成本和计算时间。

  DeepSeek 的 R1 版本能在短时间内引发全球关注,主要得益于三大突出优势:更开放、更高效★★★、更普惠。

  目前,DeepSeek 已将模型完整开源★★★,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型(参数规模分别为 1.5B、7B★★、8B、14B、32B 和 70B)。这些模型均采用 MIT 许可★,发布在 Hugging Face 平台上,可以免费商用、允许任意修改和衍生开发★★★,支持进行二次蒸馏训练★★★。(地址:)

Copyright © 2012-2022 某某公司 版权所有 非商用版本. 地址:中国湖南湘潭. 邮编:411105
  (浙ICP备17039890号-1) 湘教QS3-200505-000059