本项目针对现代芯片的存储墙瓶颈,结合新型铁电晶体管和存算架构设计了目前信息密度最高的内容寻址存储器,实现在少样本学习等AI任务的应用,相较于传统GPU能效提升5个数量级。
To overcome the memory wall bottleneck in the modern chip designs, this project integrates emerging Ferroelectric FET (FeFET) devices into the computing-in-memory architecture, and then design the content addressable memory (CAM) with the highest information density. Such a CAM can be further used to implement the system supporting AI tasks on the edge like one- shot learning. When compared with the conventional GPU, the design can improve the computation energy efficiency by 5 orders of magnitude.
该项目由浙江大学信电学院卓成研究员负责,协同尹勋钊研究员带领团队展开铁电晶体管存算芯片设计和设计工具的研究,同时联合德国 Fraunhofer IPMS 团队完成铁电 晶体管及阵列的制备。项目研究团队长期关注集成电路设计和设计自动化的研究,聚焦于现代计算架构普遍存在的功耗墙和内存墙两大挑战,针对譬如类脑计算等未来计算型 态和新型器件展开存算一体电路和设计工具的前瞻性研究,做出一系列优秀工作。其研究获国自然重点、面上、重点研发、省重大、省重点研发等多个项目的资助,与国内外设计企业展开技术合作应用落地的探索。团队在该领域发表包括 IEEE TCAD,IEEE TED,Nature Electronics,DAC,IEDM 在内的多篇器件、设计和设计自动化领域国际知名期刊 /会议论文,获得设计自动化两大顶会 DAC’16 和 ICCAD’20 最佳论文提名。项目负责人曾获 ACM/SIGDA 技术领袖奖,JSPS Invitation Fellowship 等多个奖项,获邀担任 IEEE TCAD、ACM TODAES 等多个期刊编委。
团队照片
图1 Alpha Go与李世石比赛中的能量消耗对比
图2 现代芯片体系架构和存算一体架构的对比
图3 基于铁电晶体管的超高密度内容寻址存储器 (a)器件照片及单元设计;(b)阵列显微镜照片;(c)芯片架构;(d)能效性能提升;(e)面积成本比较
在科幻电影中,人工智能相比人类无比强大。不久之前,名为Alpha Go的小小AI,以无可匹敌的态势战胜了人类顶尖围棋高手,震惊全球,也由此开启了新一轮的人工智能时代,至今不只一个媒体宣扬AI短时间内必将取代人类的言论。然而,事实真是如此吗?
媒体们没有注意到的一个事实是,训练、运行 Alpha Go的计算机芯片,在整场博弈内,消耗了五万倍于围棋高手李世石的能量。你能想象一个“终结者”一天吃五万顿饭,只为做到你吃一顿饭就能完成的事情吗?这未免太过浪费能量和资源。
那么,为什么支持人工智能的芯片需要消耗如此多的能量呢?
我们把计算硬件比作芯片工程师制造的建筑群,他们运用一种叫CMOS的晶体管作为造房子的砖头。他们为算法中的程序指令和数据建造了家(存储)和办公室(计算单元),并用道路连接两者。人工智能的算法数据就好比人们,在家中休息,在办公室工作,上下班走道路。然而,对于现有的计算机来说,高达90%的能量并没有用在办公室的工作中,反而消耗在了道路交通上,这一数据搬运造成的浪费属于传统计算芯片中所谓的“内存墙”瓶颈。相比之下,人的大脑在处理信息时更加高效。大脑中的细胞作故为砖头,将家(存储)和办公室(计算单元)造在了一起。这样一来,工作(计算)、休息(存储)都在一处,再也没有能量浪费在来回往返的道路(数据搬运)上。这无疑是AI芯片的一种完美模型。可惜的是,现有的计算机还无法做到人脑一般:我们既没有像细胞那么优秀的砖头(晶体管),也无法将家(存储)和办公室(计算单元)之间的交通(数据搬运)完全消除。
本项目便是旨在解决上述计算机向人脑这一高效目标过渡时面临的两个问题。CMOS还不够好?那我们便利用新的器件;无法完全消除存储和计算之间的数据搬运?那我们便先将部分计算功能融入存储之中,尽可能减少数据搬运及其相应的能耗,此名为存算一体化技术(如图2)。通过利用一种叫铁电晶体管的新型器件,本项目得以将部分AI算法模型关键功能,如搜索操作等计算任务融入存储模块之中,将芯片的计算能力和能效在对应应用场景下(如神经网络、类脑计算中的匹配、识别、分类、决策等)发挥到最大作用。经过多年的研究探索,我们项目组作为利用铁电晶体管研究存储和计算一体化技术的早期推动者,提出并设计、优化了基于铁电晶体管的一系列在存储内进行高能效并行搜索的电路硬件,名为内容寻址存储器。本项目提出了目前最小面积成本的内容寻址存储器设计优化方法,仅用两个铁电晶体管构建单个存储单元,并流片验证其相比传统CMOS静态存储器,存储密度提升23倍;进一步,设计优化了可支持存储多个比特数据量存储和搜索的超高密度内容寻址存储器,为目前所需晶体管最少、信息密度最高的内容寻址存储器,在数据库的搜索查询应用中相比传统CMOS静态存储器设计,性能提升16倍,能耗延迟积提升29倍;将超高密度内容寻址存储器与人工智能硬件中推理模块结合,提出支持近似搜索的增强记忆神经网络硬件,相比传统基于GPU的神经网络硬件提升了60倍能效和2700倍搜索性能。相关工作成果发表于Nature Electronics,IEEETCAD,IEEE TED,IEDM等多个国际知名期刊和会议。
本项目结合新型器件铁电晶体管,利用存算一体技术,提出的超高密度高效内容寻址存储器的设计优化方法和流片验证测试平台,为支持搜索、识别、匹配、分类等实时性、能效、性能要求高的应用场景的轻量级边缘端芯片系统研发提供了关键的研究思路和核心技术,也与浙江大学的“双脑计划”互为支撑和补充,对于提高我国智能芯片领域核心竞争力、促进新一代智能芯片在人工智能/物联网领域的应用,有着重要意义和实际应用价值。如何让计算机变得和人脑一样高效,运行AI如探囊取物?这是正在快速形成的面向未来信息化时代的科技新赛道,而提高新一代智能芯片能效比,兼具高算力和低功耗,已然成为芯片领域,尤其是智能计算领域一个新制高点。
互动评论
字体:大一号 小一号