SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型

机器之心最新一期线上分享邀请到了电子科技大学朱芮捷,为大家分享他们近期工作 SpikeGPT。
现有的语言模型如 ChatGPT 等都需要大量的计算资源和维护成本,而脉冲神经网络则可以利用稀疏和事件驱动的激活来降低模型推理的计算开销。脉冲神经网络是一种模仿大脑信息处理方式的算法,与传统的深度学习神经网络不同的是,神经元只有在被激活时才会发出脉冲信号。然而,脉冲神经网络在模型训练方面也面临着挑战,很多针对非脉冲神经网络的优化策略难以应用于脉冲神经网络,导致它们在语言生成任务上的性能落后于现代深度学习。
SpikeGPT 借鉴 RWKV 语言模型,用纯二进制的脉冲激活单元替换了传统的深度学习激活单元,并修改了 Transformer 模块,用流式输入代替多头自注意力机制,以减少随序列长度增加的二次计算复杂度。在三种参数规模(45M、125M 和 260M)下进行了实验,其中 260M 是目前最大的可反向传播训练的脉冲神经网络。实验结果与进一步推断表明,在维持相似性能的情况下,SpikeGPT 在能够利用稀疏、事件驱动激活的神经形态硬件上,比相似的深度学习模型节省了约 22 倍的能耗。

分享主题:SpikeGPT:使用脉冲神经网络的生成式语言模型
分享嘉宾:朱芮捷,电子科技大学大四本科生,加州大学圣克鲁兹分校准博士生,主要研究兴趣为脉冲神经网络,为目前两大主流脉冲神经网络框架snntorch与SpikingJelly的贡献者。
分享摘要:本次分享将主要专注于脉冲神经网络、SpikeGPT与RWKV上,尝试为此类RNN的生成式方法梳理一条脉络。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/spikegpt
2)论文链接:
https://arxiv.org/abs/2302.13939v2
3)代码仓库:
https://github.com/ridgerchu/SpikeGPT
4)延伸阅读:
https://news.ucsc.edu/2023/03/eshraghian-spikegpt.html



关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675








机器之心
