一种GPU模块低功耗处理方法


一种gpu模块低功耗处理方法
技术领域
1.本发明涉及一种低功耗处理方法,具体涉及一种gpu模块低功耗处理方法。


背景技术:



2.随着超大规模集成电路和图形技术的不断发展,gpu成为人们研究的焦点之一。由于gpu具有高度并行的架构,适应于单浮点运算、高度并行的数据密集型计算,已经成为芯片设计中不可或缺的模块。在gpu性能提升的同时出现的“功耗墙”问题对设计人员提出了更大的挑战。随着芯片集成度越来越高,芯片表面温度也变得越来越高并呈指数增长,功耗在gpu设计中已经成为与性能和面积同等重要的设计指标。研究表明gpu的效能是cpu的5倍左右,但gpu的总体功耗是cpu的2~3倍。高功耗不仅意味着大量的能源消耗,而且热堆积和不断增加的功耗密度将造成gpu稳定性问题。研究表明工作温度每增加10度,芯片的失效率将增加一倍。另外,为了缓解热堆积,不得不使用散热能力更加强大的封装材料、额外的散热装置和发热保护电路,这无疑增加了gpu的制造成本。过高的功耗限制了gpu性能的提升,如果要进一步提高内核频率或增大片上缓存容量,会使gpu的功耗继续攀升,进而走入恶性循环。因此低功耗设计技术已经成为gpu设计中的核心问题,在工程领域具有重要的实用价值和研究意义。
3.gpu模块的低功耗处理有三个方面:一是与gpu模块低功耗需求相匹配的标准单元库,低功耗标准单元库包括了多阈值电压单元,加长沟道单元与选择性加长沟道单元,多位寄存器,保持寄存器,多尺寸梯度单元,极小尺寸单元和延迟单元以及时序改善寄存器等,为电源规划,多电源多电压,电源门控时钟门控等低功耗技术手段奠定了基础。二是基于整个gpu模块低功耗设计的布局,在布局与优化阶段,标准单元的选取、物理摆放、等价逻辑转换、非关键路径功耗优化等都与芯片的功耗息息相关,如何在保证芯片性能和绕线的基础上降低功耗是芯片低功耗设计的关键。三是低功耗时钟树,时钟是芯片的心脏,时钟树的设计在整个芯片的设计中占有极其重要的地位。由于工艺的提升而造成的不确定性对时钟的干扰越来越大,时钟树的功耗占据了芯片总功耗的20%-40%,高质量的时钟树关系到整个芯片的工作性能的好坏和总功耗的高低。
4.现在常用的后端低功耗处理技术,是时钟门控,多电压域,多阈值电压技术。时钟门控是在时钟树上插入时钟门控单元,以此来降低时钟信号的翻转率。现如今大规模集成电路基本都是时序电路,而时序电路都是使用触发器来实现的。触发器之间的信号传递都是通过时钟信号来控制的。由于时钟网络会周期性的翻转,其庞大的负载会造成较大的动态功耗。门控时钟的使用方法如下图所示,其在后续触发器信号不翻转的情况下,切断部分时钟网络,降低时钟网络负载和翻转率,进而降低时钟网络功耗。多电源域设计的原理是根据集成电路中各模块对性能要求的不同,分别分配到不同的电压域,电源电压会同时影响电路的静态功耗和动态功耗,并且电源电压还会很大程度影响电路的延时。因此对gpu模块中,需要高性能的子模块提高高电压,降低器件延时,对其他性能要求不高的子模块提供低电压,降低gpu模块功耗。多阈值器件的原理是低阈值电压单元工作频率高,速度快,但漏电
电流较大;高阈值电压单元工作频率低,但是单元漏电流较小。低阈值电压的单元工作频率高速度快用在关键路径和时钟树上可以使得gpu获得高质量时序和时钟树,而非关键路径的时序可以为功耗做出一定牺牲,用高阈值电压的单元来降低功耗。
5.虽然在gpu模块的低功耗处理中,时钟门控是一种十分有效的降低时钟树功耗的方法,但是单个时钟门控驱动的触发器数量不能太少,否则时钟门控电路所产生的功耗和面积将使设计者得不偿失;另一方面,驱动的触发器数量太多会导致时钟树综合结果不理想,时钟偏差较大。而且由于在时钟树综合阶段eda工具并不将时钟门控视作时钟树的叶节点,因此时钟信号到达时钟门控的时间要早于被其所驱动的触发器,产生的时钟偏差很容易导致使能信号的建立时间和保持时间违例。并且gpu在建立时钟树的过程中,会给时钟门控单元后的触发器插入大量缓冲器来达到时钟树平衡,造成了面积和功耗的浪费。


技术实现要素:



6.本公开的主要目的在于提供了一种gpu模块低功耗处理方法,以有效解决发明人在上述背景技术提出的问题。
7.为达成上述目的,本发明采用的技术方案如下:
8.一种gpu模块低功耗处理方法,包括以下具体步骤:
9.步骤一:确定低功耗处理方向,主要从低功耗标准单元库、低功耗布局与优化以及低功耗时钟树三个方面进行研究;
10.步骤二:低功耗标准单元库的选取,使用tsmc 6nm工艺进行gpu模块低功耗设计;
11.步骤三:低功耗布局与优化,结合展平式布局和层次化布局方法,将gpu 模块自顶向下划分层次,划分电压域;
12.步骤四:低功耗时钟树,插入时钟门控单元,利用最小生成树算法,以时钟树互连线趋于最小值为标准,对时钟门控单元驱动的触发器进行分组;
13.步骤五:对初始分组的触发器利用阈值电容和阈值距离重新迭代分组,得到最终的触发器组,并对触发器组分配缓冲器;
14.步骤六:对gpu模块进行绕线、静态时序修复和物理验证。
15.优选的,所述步骤二中,芯片物理设计离不开与需求相匹配的标准单元库,低功耗标准单元库包括了多阈值电压单元,加长沟道单元与选择性加长沟道单元,多位寄存器,保持寄存器,多尺寸梯度单元,极小尺寸单元和延迟单元以及时序改善寄存器等,为电源规划,多电源多电压,电源门控,时钟门控等低功耗技术手段奠定了基础。
16.优选的,在芯片的物理设计中,最关键的部分是生产出的芯片能否满足时序要求,因而时钟是芯片的心脏,时钟树的设计在整个芯片的设计中占有极其重要的地位,由于工艺的提升而造成的不确定性对时钟的干扰越来越大,时钟树的功耗占据了芯片总功耗的20%-40%,高质量的时钟树关系到整个芯片的工作性能的好坏和总功耗的高低,由此建立一个符合时序要求和功耗要求的时钟树网络。
17.优选的,所述步骤四中,时钟树的性能指标有时钟延迟、时钟抖动、时钟偏移和传输时间;时钟延时指的是从时钟源点到电路中任何一个时钟引脚的延时;时钟偏移指的是时钟信号到达时序电路中各个部分所用的时间差异;时钟抖动指的是时钟信号边沿与理想时钟信号边沿时间的偏差;传输时间也叫转换时间,指的是信号在两个特定电平间转换所
花的时间,通过对gpu时钟树上的寄存器进行聚类和删除时钟树上的缓冲器来优化gpu时钟树的功耗。
18.优选的,所述步骤三中,布局与优化不仅需要考虑芯片时序和布线的拥挤程度,也需要考虑整个芯片的功耗水平。在布局与优化阶段,标准单元的选取、物理摆放、等价逻辑转换、非关键路径功耗优化等都与芯片的功耗息息相关,保证芯片性能和绕线的基础上降低功耗是芯片低功耗是关键,合展平式布局和层次化布局方法,根据gpu架构来进行gpu的层次划分,对gpu电路使用的cell进行选择,gpu的时钟不止一个,时钟驱动的寄存器有几万个,有一些寄存器插入了时钟门控单元,有一些还是直接和gpu的时钟信号相连,而插入的门控单元可能驱动着数十个甚至上百个寄存器,这些寄存器和仍然直接被gpu时钟信号驱动的寄存器还有优化的空间。
19.优选的,所述步骤三中,gpu的物理设计,主要内容有布局规划,电源规划,时序分析。布局规划的内容有宏单元的摆放,io单元的摆放,模块的层次划分等;电压规划的内容有电压域的划分、电源环的排布等;时序分析的内容有不同层次的模块的建立时间与保持时间是否违例,时序路径是否合理等。
20.鉴于此,与现有技术相比,本发明的有益效果是:
21.(一)、本技术中,采用tsmc 6nm工艺对gpu模块进行低功耗处理,在不牺牲gpu模块性能与面积的前提下,降低gpu模块的功耗,完成gpu模块的物理设计,以获得gpu模块的低功耗处理。
22.(二)、本技术中,根据gpu模块的架构,结合展平式布局和层次化布局方法,将gpu模块自顶向下划分层次,根据各个层次的功能划分电压域,插入时钟门控,在插入时钟门控后,对时钟门控后的触发器进行分组,基于触发器组建立时钟树,对完成绕线的gpu模块使用不同的阈值电压单元来修复时序问题和功耗问题。
23.(三)、本技术中,是在布局完成后,不影响网表的前提下,通过最小生成树的方式,降低时钟树的互连电容并对时钟门控单元驱动的触发器进行分组,进而降低gpu的功耗。本发明没有改变触发器的位置,对信号路径时序不造成影响的同时减小了时钟树的时钟偏移和时钟延时。本方法使用tcl语言设计,在ic compileⅱ上实现,相比于现有的低功耗方法,gpu模块的总功耗降低了5%。
附图说明
24.图1所示为cpu模块布局图;
25.图2所示为开关单元图;
26.图3所示为隔离单元图;
27.图4所示为时钟门控图;
28.图5所示为触发器中心坐标图;
29.图6所示为触发器曼哈顿距离图;
30.图7所示为触发器初始分组图;
31.图8所示为触发器最终分组图;
32.图9所示为插入缓冲器图;
33.图10所示为完成绕线图;
34.图11所示为本发明的具体流程图;
35.图12所示为缓冲器删除算法框图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.请参阅图1-12,本发明提供以下实施例:
38.一种gpu模块低功耗处理方法,包括以下具体步骤:
39.步骤一:确定低功耗处理方向,主要从低功耗标准单元库、低功耗布局与优化以及低功耗时钟树三个方面进行研究;
40.步骤二:低功耗标准单元库的选取,使用tsmc 6nm工艺进行gpu模块低功耗设计;
41.步骤三:低功耗布局与优化,结合展平式布局和层次化布局方法,将gpu 模块自顶向下划分层次,划分电压域;
42.步骤四:低功耗时钟树,插入时钟门控单元,利用最小生成树算法,以时钟树互连线趋于最小值为标准,对时钟门控单元驱动的触发器进行分组;
43.步骤五:对初始分组的触发器利用阈值电容和阈值距离重新迭代分组,得到最终的触发器组,并对触发器组分配缓冲器;
44.步骤六:对gpu模块进行绕线、静态时序修复和物理验证。
45.优选的,步骤二中,芯片物理设计离不开与需求相匹配的标准单元库,低功耗标准单元库包括了多阈值电压单元,加长沟道单元与选择性加长沟道单元,多位寄存器,保持寄存器,多尺寸梯度单元,极小尺寸单元和延迟单元以及时序改善寄存器等,为电源规划,多电源多电压,电源门控,时钟门控等低功耗技术手段奠定了基础。
46.优选的,在芯片的物理设计中,最关键的部分是生产出的芯片能否满足时序要求,因而时钟是芯片的心脏,时钟树的设计在整个芯片的设计中占有极其重要的地位,由于工艺的提升而造成的不确定性对时钟的干扰越来越大,时钟树的功耗占据了芯片总功耗的20%-40%,高质量的时钟树关系到整个芯片的工作性能的好坏和总功耗的高低,由此建立一个符合时序要求和功耗要求的时钟树网络。
47.优选的,步骤四中,时钟树的性能指标有时钟延迟、时钟抖动、时钟偏移和传输时间;时钟延时指的是从时钟源点到电路中任何一个时钟引脚的延时;时钟偏移指的是时钟信号到达时序电路中各个部分所用的时间差异;时钟抖动指的是时钟信号边沿与理想时钟信号边沿时间的偏差;传输时间也叫转换时间,指的是信号在两个特定电平间转换所花的时间,通过对gpu时钟树上的寄存器进行聚类和删除时钟树上的缓冲器来优化gpu时钟树的功耗。
48.优选的,步骤三中,布局与优化不仅需要考虑芯片时序和布线的拥挤程度,也需要考虑整个芯片的功耗水平。在布局与优化阶段,标准单元的选取、物理摆放、等价逻辑转换、非关键路径功耗优化等都与芯片的功耗息息相关,保证芯片性能和绕线的基础上降低功耗是芯片低功耗是关键,合展平式布局和层次化布局方法,根据gpu架构来进行gpu的层次划
分,对gpu电路使用的cell进行选择,gpu的时钟不止一个,时钟驱动的寄存器有几万个,有一些寄存器插入了时钟门控单元,有一些还是直接和gpu的时钟信号相连,而插入的门控单元可能驱动着数十个甚至上百个寄存器,这些寄存器和仍然直接被gpu时钟信号驱动的寄存器还有优化的空间。
49.优选的,步骤三中,gpu的物理设计,主要内容有布局规划,电源规划,时序分析。布局规划的内容有宏单元的摆放,io单元的摆放,模块的层次划分等;电压规划的内容有电压域的划分、电源环的排布等;时序分析的内容有不同层次的模块的建立时间与保持时间是否违例,时序路径是否合理等。
50.本发明的具体实施方式如下:
51.如图1所示,本发明的gpu模块为arm公司的mali-g31。根据该款gpu 的架构,将gpu自顶向下划分为两层,大部分逻辑划归shader_core,其余划归顶层mali_ace。根据core和mali的功能划分四个电压域,编写相应的统一电源格式文件。
52.具体实施步骤:
53.①
根据公式std cell area/(chip area-hard placement area)=util估算gpu模块所需面积,并且划分形状。
54.②
编写upf,使用create_power_domain为gpu模块划分电压域。
55.③
在可关断的电压域插入开关单元和隔离单元。
56.如图4所示,插入时钟门控单元,对时钟门控单元驱动的触发器进行分组。
57.具体实施步骤:
58.①
对时钟门控单元驱动的触发器根据层级进行划分,到同一个层级下的触发器,计算触发器的中心坐标,并根据最大扇出的要求确定阈值距离。
59.②
计算触发器两两之间的曼哈顿距离,根据阈值距离对触发器进行初始分组。
60.③
根据所有触发器的总体负载电容,利用初始分组数计算触发器组的阈值电容,根据阈值电容对触发器进行迭代分组得到最终的触发器组。
61.④
给每个触发器组插入合适的缓冲器。
62.⑤
建立基于触发器组的时钟树。
63.如图10所示,完成绕线并进行静态时序分析和功耗优化。
64.具体实施步骤:
65.①
对时钟树建立完成后的gpu模块进行绕线。
66.②
对绕线完成的gpu模块进行时序修复,使得建立时间和保持时间没有违例。
67.③
根据时序情况,在时序紧张的路径使用低阈值电压单元,时序充裕的地方使用高阈值电压单元。
68.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
69.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,
可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

技术特征:


1.一种gpu模块低功耗处理方法,其特征在于:包括以下具体步骤:步骤一:确定低功耗处理方向,主要从低功耗标准单元库、低功耗布局与优化以及低功耗时钟树三个方面进行研究;步骤二:低功耗标准单元库的选取,使用tsmc 6nm工艺进行gpu模块低功耗设计;步骤三:低功耗布局与优化,结合展平式布局和层次化布局方法,将gpu模块自顶向下划分层次,划分电压域;步骤四:低功耗时钟树,插入时钟门控单元,利用最小生成树算法,以时钟树互连线趋于最小值为标准,对时钟门控单元驱动的触发器进行分组;步骤五:对初始分组的触发器利用阈值电容和阈值距离重新迭代分组,得到最终的触发器组,并对触发器组分配缓冲器;步骤六:对gpu模块进行绕线、静态时序修复和物理验证。2.根据权利要求1所述的一种gpu模块低功耗处理方法,其特征在于:所述步骤二中,芯片物理设计离不开与需求相匹配的标准单元库,低功耗标准单元库包括了多阈值电压单元,加长沟道单元与选择性加长沟道单元,多位寄存器,保持寄存器,多尺寸梯度单元,极小尺寸单元和延迟单元以及时序改善寄存器等,为电源规划,多电源多电压,电源门控,时钟门控等低功耗技术手段奠定了基础。3.根据权利要求1所述的一种gpu模块低功耗处理方法,其特征在于:在芯片的物理设计中,最关键的部分是生产出的芯片能否满足时序要求,因而时钟是芯片的心脏,时钟树的设计在整个芯片的设计中占有极其重要的地位,由于工艺的提升而造成的不确定性对时钟的干扰越来越大,时钟树的功耗占据了芯片总功耗的20%-40%,高质量的时钟树关系到整个芯片的工作性能的好坏和总功耗的高低,由此建立一个符合时序要求和功耗要求的时钟树网络。4.根据权利要求3所述的一种gpu模块低功耗处理方法,其特征在于:所述步骤四中,时钟树的性能指标有时钟延迟、时钟抖动、时钟偏移和传输时间;时钟延时指的是从时钟源点到电路中任何一个时钟引脚的延时;时钟偏移指的是时钟信号到达时序电路中各个部分所用的时间差异;时钟抖动指的是时钟信号边沿与理想时钟信号边沿时间的偏差;传输时间也叫转换时间,指的是信号在两个特定电平间转换所花的时间,通过对gpu时钟树上的寄存器进行聚类和删除时钟树上的缓冲器来优化gpu时钟树的功耗。5.根据权利要求1所述的一种gpu模块低功耗处理方法,其特征在于:所述步骤三中,布局与优化不仅需要考虑芯片时序和布线的拥挤程度,也需要考虑整个芯片的功耗水平,在布局与优化阶段,标准单元的选取、物理摆放、等价逻辑转换、非关键路径功耗优化等都与芯片的功耗息息相关,保证芯片性能和绕线的基础上降低功耗是芯片低功耗是关键,合展平式布局和层次化布局方法,根据gpu架构来进行gpu的层次划分,对gpu电路使用的cell进行选择,gpu的时钟不止一个,时钟驱动的寄存器有几万个,有一些寄存器插入了时钟门控单元,有一些还是直接和gpu的时钟信号相连,而插入的门控单元可能驱动着数十个甚至上百个寄存器,这些寄存器和仍然直接被gpu时钟信号驱动的寄存器还有优化的空间。6.根据权利要求1所述的一种gpu模块低功耗处理方法,其特征在于:所述步骤三中,gpu的物理设计,主要内容有布局规划,电源规划,时序分析,布局规划的内容有宏单元的摆放,io单元的摆放,模块的层次划分等;电压规划的内容有电压域的划分、电源环的排布等;
时序分析的内容有不同层次的模块的建立时间与保持时间是否违例,时序路径是否合理等。

技术总结


本申请属于GPU低功耗处理技术领域,尤其是涉及一种GPU模块低功耗处理方法,包括步骤一:确定低功耗处理方向;步骤二:低功耗标准单元库的选取;步骤三:低功耗布局与优化;步骤四:低功耗时钟树;步骤五,对初始分组的触发器利用阈值电容和阈值距离重新迭代分组,得到最终的触发器组,并对触发器组分配缓冲器。本发明中,根据GPU模块的架构,结合展平式布局和层次化布局方法,将GPU模块自顶向下划分层次,根据各个层次的功能划分电压域,插入时钟门控,在插入时钟门控后,对时钟门控后的触发器进行分组,基于触发器组建立时钟树,对完成绕线的GPU模块使用不同的阈值电压单元来修复时序问题和功耗问题。题和功耗问题。题和功耗问题。


技术研发人员:

杜文静 许文强

受保护的技术使用者:

西安理工大学

技术研发日:

2022.10.20

技术公布日:

2022/12/19

本文发布于:2024-09-23 02:16:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/42178.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:时钟   门控   功耗   单元
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议