酷应用

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害在哪里

热点来源：快科技 2025-01-27 15:02:55

在AI领域，DeepSeek带来的影响力，一点也不亚于“六代机”。那么，DeepSeek究竟厉害在哪里？

据新浪科技报道，今日，中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

目前，业界对于DeepSeek的喜爱与赞美，主要集中在三个方面。

第一，在技术层面，DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型，分别实现了比肩OpenAI 4o和o1模型的能力。

第二，DeepSeek研发的这两款模型成本更低，仅为OpenAI 4o和o1模型的十分之一左右。

第三，DeepSeek把这一两大模型的技术都开源了，这让更多的AI团队，能够基于最先进同时成本最低的模型，开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢？郑纬民指出，“DeepSeek自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。”

他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV Cache，该架构和DeepSeek-V3模型中FFN 层的改造相配合，实现了一个非常大的稀疏MoE 层，这成为DeepSeek训练成本低最关键的原因。”

据了解，KV Cache是一种优化技术，常被用于存储人工智能模型运行时产生的token的键值对（即key- value数值），以提高计算效率。

具体而言，在模型运算过程中，KV cache会在模型运算过程中充当一个内存库的角色，以存储模型之前处理过的token键值，通过模型运算计算出注意力分数，有效控制被存储token的输入输出，通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算，提升了算力使用效率。

此外，据郑纬民透露，DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题，而这也成了“DeepSeek训练成本低最关键的原因”。

“DeepSeek比较厉害的是训练MoE的能力，成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。”郑纬民说

此外，DeepSeek还充分利用专家网络被稀疏激活的设计，限制了每个token被发送往GPU集群节点（node）的数量，这使得GPU之间通信开销稳定在较低的水位。

早先，图灵奖得主、主导Meta AI研究的首席科学家杨立昆（Yann LeCun）认为，DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁，而是AI开源的价值使任何人都能受益。

“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言，你的解读错了”，杨立昆在Threads写道，“正确解读应是‘开源模型正超越专有模型’”。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由艾秋发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/news/hot/477999.html

DeepSeek 美国硅谷中国工程院院士郑纬民

图库

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数