新闻动态

CECA在稀疏Transformer模型的软硬件协同设计工作被MICRO'21收录

2021-07-19

第54届“国际计算机微体系结构大会”(MICRO,International Symposium on Microarchitecture)将于2021年10月16日-20日在希腊雅典召开。MICRO是计算机体系结构领域的顶级学术会议 (CCF-A),2021年共有430篇论文投稿,接收94篇,接收率为21.9%。北京大学高能效计算与应用中心(CECA)的梁云教授课题组论文被收录。
  本文提出一个针对稀疏transformer的软硬件协同设计框架Sanger。Transformer模型在自然语言处理和计算机视觉应用中取得了令人瞩目的表现。近年来,attention稀疏化是一种潜在的降低transformer计算复杂度的方法。但是加速稀疏transformer主要存在两方面挑战,(1)传统稀疏计算通常针对静态稀疏,但是稀疏attention是在计算过程中通过query和key动态生成的,因此,硬件不可避免地需要去处理稀疏数据的生成与编解码;(2)attention矩阵的核心计算是输出稀疏矩阵乘法 (SDDMM) 和输入稀疏矩阵乘法 (SpMM),因此,如何同时高效地加速这两类稀疏计算操作也极具挑战。在本文中,我们通过低比特计算和阈值剪枝的方法来预测出一个稀疏的attention矩阵。为了保证各个计算单元的负载均衡与高利用率,我们设计了一个轻量级的预处理单元来对稀疏attention矩阵进行压缩与分块处理。在加速稀疏attention机制的过程中,我们提出了score-stationary计算数据流来有效避免数据编解码的开销。为了同时支持SDDMM和SpMM,我们提出了可重构脉动阵列架构。论文的第一作者是北京大学的卢丽强和金奕成。合作单位有浙江省北大信息技术高等研究院。

  这是梁云课题组在TENET( ISCA'21)和HASCO( ISCA'21)之后的相关工作,也是今年第三篇发表在体系结构领域顶级会议(ISCA,MICRO,ASPLOS)上的论文。通过TENET框架,我们探索了各类加速transformer的实现,最终找出性能最佳、带宽需求最低的计算数据流。

  该项工作具体信息如下:Liqiang Lu, Yicheng Jin, Hangrui Bi, Zizhang Luo, Peng Li, Tao Wang, Yun Liang. Sanger: A Co-Design Framework for Enabling Sparse Attention using Reconfigurable Architecture. The 54th International Symposium on Microarchitecture (MICRO’21), 2021.