研究方向与内容

       经过近五年的发展,至2015年8月,中心在以下研究有了初步进展:
       面向可重构计算多加速器新型体系结构的编译与综合研究:针对拥有可重构多加速器的新型体系结构,中心将研究完整的自动化设计流程,支持从通用算法设计语言(C/C++语言)程序生成到可重构逻辑配置信息的整个工具链:包括高层次综合、逻辑综合、快速布局与布线等,并将实现一套开放源代码的可重构逻辑物理综合流程,以推动相关研究。主要研究内容包括:(1)简单高效的编程模型:复杂的编程模型确限制了基于可重构逻辑FPGA的加速器体系结构的大规模应用,因此我们提出使用并行程序编程语言来编写FPGA程序。我们选取针对GPU的Compute Unified Device Architecture (CUDA) 编程模型。一方面,使用CUDA的线程模型来准确地表示程序的并行度。另一方面,使用CUDA来设计由FPGA, GPU和CPU构成的异构系统结构。(2)高层次综合中的存储优化:综合考虑多种高层次综合中的存储优化策略,包括:数据重用、存储划分及存储合并等,并将其与程序调度、循环变换和循环流水等优化策略相结合,提出优化的自动存储优化算法,实现基于多面体模型的循环优化、跨循环迭代、多维数组的存储划分与基于循环特性的优化地址变换,并增加对新型可重构硬件的支持。(3)电子设计自动化的高可扩展算法:在可重构逻辑的自动设计流程中,布局占用了大约四分之三的运行时间;为缩短其运行时间,中心计划从算法加速、硬件加速和并行化三方面展开研究,开发比现有工具快10倍至100倍的高速布局布线器。本研究获得国家自然科学基金青年项目(61202073)和中国博士后科学基金(2012M52011)支持,初步成果已发表在ICCAD 2012, ASP-DAC 2012, ISPD 2012, ASP-DAC 2013, FPGA 2013, DAC 2013, FCCM 2014, FPT 2014, ICCAD 2015等国际会议论文。
 
 
       众核(GPU/MIC)系统结构和编译优化:作为通用加速器之一,GPU/MIC已经被广泛的使用在各种领域中如大规模模拟,图形图像处理和生物计算等等。然而,目前GPU/MIC体系结构和编译器的设计并不能满足新型应用对性能和功耗的需求。为了提高GPU/MIC的性能、能耗,降低其使用门槛,我们提出创新的体系结构、编译优化算法、性能、能耗和编成模型,并研发基于这些创新技术的应用。本项目已受国家自然科学基金青年项目(61300005)支持,初步成果已发表在ICCAD 2013, DAC 2014, TPDS 2015, CGO 2015, HPCA 2015等国际会议和期刊。
 
       嵌入式系统的编译技术:由于安全性的需求,嵌入式/实时系统需要使用静态程序分析的方法估算程序的最差执行时间。静态的程序分析不仅需要考虑程序的控制和数据流,还需考虑底层处理器的体系结构,如缓存配置等等。我们拟提出使用硬件加锁结合静态程序分析的方法,来优化程序的性能,提高实时系统的性能可预测性。初步成果已发表在TECS 2013, DAC 2013, DATE 2014, TCAD 2015等国际会议和期刊。
 
       高能效、高可靠性存储体系结构研究:当今计算机系统面临严重的“存储墙”问题:即存储系统无法提供足够的数据来匹配飞速增长的计算能力,同时又难以满足功耗和可靠性的需求限制。因此,本课题将通过优化存储体系结构来缓解这一问题,主要包括如下几部分研究:(1)基于新型非易失存储(NVM)的存储体系结构:新型NVM具备密度高、静态功耗低等优点,同时具有非对称访问,寿命有限等新特性,因此,针对其特性在不同存储层次提出结构改进和管理策略的优化来显著提高存储能效;(2)面向新兴应用的存储体系结构设计:针对新兴应用(如内存计算/内存数据库)的数据访存特点,提出创新的访存控制架构与相应管理策略,从而有效地提高访存性能并降低功耗;(3)高可靠性、高安全性的存储体系结构:随着存储工艺的发展以及新型存储器件的兴起,存储可靠性和数据安全性成为一个重要挑战,本课题将通过存储体系结构的优化,提高存储系统的可靠性和安全性。本课题已获得国家自然科学基金项目(61202072)、863项目(2013AA013201)以及华为等项目的支持,初步成果已发表在DATE 2012, ICCD 2013, ISLPED 2014, HPCA 2014, DATE 2015, ISCA 2015, ISLPED 2015等国际会议。
 
       面向大数据的高性能存储系统设计研究:为了有效地利用海量数据,需要解决的首要问题就是如何高效存储及访存这些数据。各种互联网大数据应用的后台基础设施都依赖于一个强大的分布式存储系统,该系统也是各大互联网公司的核心技术。近年来,以传统磁盘为代表的存储设备已经成为计算机的性能瓶颈。因此,存储领域正在发生一场深刻的变革,以闪存固态硬盘(Flash based SSD)为代表的新型存储硬件正逐渐取代传统磁盘来实现高性能数据访存。然而,传统的存储系统并不能充分发挥新型存储硬件的特性,硬件的潜能并没有得到充分挖掘。我们期望能够合理选择并且能够最大限度地发挥底层硬件的价值,在设计、优化存储系统上开展多层次的研究。本课题自上而下涉及如下三个层次的研究:(1)针对新型存储设备的分布式存储系统(如Ceph等)优化设计;(2)面向新型存储设备的文件/操作系统、资源/任务调度优化;(3)衔接上层存储引擎(如KV store等)与底层新型存储设备的接口库开发。本课题已获得863项目(2013AA013201)、百度和华为等项目的支持,初步成果已发表在ISLPED 2013, ASPLOS 2014, EuroSys 2014, ISLPED 2015, MSST 2015, APSys 2015, APPT 2015等国际会议。
 
       带有可重配置特性的高性能无线局域网物理层与数据链路层硬件体系结构:无线局域网(WLAN)技术已经深入到生活的每个角落。越来越高的数据传输率/能源效率、快速的标准演化等趋势对物理层和数据链路层硬件提出了更高的要求。目前国内外工业界和学术界还在不断为满足这些要求而努力。我们拟提出创新的带有可重配置特性的高性能WLAN物理层和数据链路层硬件体系结构,可以在WLAN标准快速演进的过程中,在合理功耗下实现高性能,并具有三个突出优点:实现快速的特性响应时间和更长的生命周期、大幅度减少开发周期并降低开发成本、对WLAN层次协议栈跨层优化提供有效的支持。本项目考虑标准分析与算法结构改进、硬件体系结构设计、高可编程性与兼容性、准确验证与原型系统的实现四个方面的内容,不仅得到创新、严谨、有效的体系结构设计及前端面积/功耗数据,还会针对当前及下一代WLAN标准提供开放易用的FPGA高性能原型系统,在科学研究、国家产业、国产CPU支持等方面均有较好的应用前景。本研究已受国家自然科学基金面上项目(61370056)支持,并发表了MobiCom 2014, ACM SIGARCH Computer Architecture News (2014), FPL 2014, ICFPT 2014等国内外学术期刊和会议论文。
 
       异构三维集成与低功耗电路技术的自动设计方法:中心将研究的异构三维体系结构包括:通用的多处理器层、定制的多加速器层、层间硅通孔(TSV)高效通信互连接口、以及面向三维集成的自动设计工具。初步数据表明,与传统同构多处理器相比,基于三维集成的多加速器体系结构可以在性能和能效方面具有几倍到十几倍的提升。本研究已获得教育部博士点新教师类项目(20120001120124)支持。此外,中心正在研究低功耗电路技术与三维集成的整合,例如如何运用多位触发器降低层间时钟与数据信号传递的功耗是其中的研究问题。我们利用解析式的方法建立多触发器聚合问题的模型,达到与以往最好的方法将时钟信号能耗降低20%的同样效果,并且将线长缩短25%。此工作在ISPD 2013和ISPD 2015国际会议发表了论文。
 
       面向深度学习应用的高能效系统设计研究:近年来,借助于高性能计算机系统的飞速发展和深度学习(Deep Learning)算法的不断改进,科研人员在机器学习领域取得了突破性的进展。目前,深度学习算法已经被广泛应用在图像视频语音识别、自然语言处理等研究方向,并取得了巨大成功。然而,在基于通用处理器的计算机系统上运行深度学习算法的效率较低,而仅仅通过现有的纵向与横向扩展(scale up & out)方法,即使能够满足性能的要求,也由于功耗、价格、体积等因素的限制,难以得到满足不同场景下各种应用的多方面需求。因此,基于GPU、FPGA、定制芯片(ASIC)等开发异构计算系统已经成为主流的解决方案。因此,本课题自下而上在如下三个方面开展高能效深度学习系统设计和优化:(1)针对不同应用的具体需求,合理需用硬件平台并设计相应的深度学习异构加速器;(2)基于异构加速器,设计深度学习异构计算系统并提供灵活易用的开发平台;(3)面向异构系统对深度学习算法和应用进行改造和优化,从而进一步提高其运行能效。本项目初步成果已经发表在SHAW-4, FPGA 2015等国际会议上。
 
       医学图像重建的算法加速和硬件加速:医学图像处理的高级算法(例如低剂量X光层析成像和高分辨电子显微镜层析成像)计算强度大、实时性要求高。基于Mumford-Shah正则项的同时完成图像重建和图像分割的迭代式方法,能有效消除低剂量重建图像的伪影,但耗时较长。我们采用以射线为单位的异步并行算法,实现利于FPGA运行的流水线结构,达到GPU相当的性能,而能效提高58倍的效果。该研究已发表SPIE Optics+Photonics 2015。而电子层析成像是利用计算技术重建更多信息量的原始图像的技术,但它的成像分辨率和视场受限于计算能力。例如,在主流服务器上使用最先进的锥形倾斜方法成像,重建大小为1024×1024×128的图像平均需要15小时。这项研究将从算法加速和硬件加速同时展开,与神经科学研究者设计出适合计算平台的高效的图像重构算法。
 
       基于环境物理特征的定位和平面图重构技术研究:室内定位是基于位置服务(Location Based Service)的关键。目前的定位技术大多依赖于IT基础设施的信号(如WiFi、无线基站等)。当这些信号由于障碍物导致强度或覆盖不够时,它们无法提供准确定位。此外服务提供商无法得到室内平面图,它们是全世界大多数复杂室内环境难以提供定位服务的两大主要原因。针对这两个问题,中心研究如何利用周围环境中固定的物理特征(如商场店面标志、或停车场减速带),通过图像匹配、角度测量、和运动传感器计算,为智能手机在IT基础设施信号不足的环境中提供定位。此外我们还研究通过众包感知的方式,从大量普通移动用户获取图像、惯性传感器等数据,重构复杂室内环境的平面图。这两项研究将使定位服务普适覆盖于所有室内环境成为可能。该研究已发表INFOCOM 2014, ICC 2014, MobiCom 2014和SenSys 2015等国际论文,与百度的合作正在开展,是少数学术界在定位技术上可能被工业界采用的工作之一。