Design Compiler:高层次优化与数据通路优化

发布于:2025-08-05 ⋅ 阅读:(11) ⋅ 点赞:(0)

相关阅读

Design Compilerhttps://blog.csdn.net/weixin_45791458/category_12738116.html?spm=1001.2014.3001.5482


        Design Compiler的高层次优化与数据通路优化在设计的RTL层次或者说GTECH层次进行,包括:算术表达式简化、操作符重排序、操作符实现方式(DesignWare)选择、资源共享、数据通路提取与优化。本文就将对此进行简要介绍。

算术表达式简化

        当使用compile_ultra命令进行综合时,某些算数表达式可以被化简、折叠,如下所示。

result = a + 3 * b - 2 - b- a + 2 -> result = 2b

操作符重排序

        当使用compile或compile_ultra命令进行综合时某些操作符的运算顺序可以在保证结果不变的情况下改变,如下所示。

result = a + b+ c + d -> result=(a + b) + (c + d)

        需要注意的是,如果使用了compile命令,则括号会强制影响操作符重排序,如下所示。

result = ((a + b) + c) + d

        一个好的建议是让Design Compiler自行决定运算顺序。

操作符实现方式选择

        在综合过程中,Design Compiler会从综合库中选择速度和面积优化最优的组件实现操作符。综合库分为标准综合库standard.sldb(或者称为Basic DW)以及进阶综合库dw_foundation.sldb(或者称为Licensed DW),一般来说,compile命令默认使用标准综合库(除非将进阶综合库添加到synthetic_library中),compile_ultra命令可以使用标准综合库和进阶综合库(自动添加)。
        如果使用进阶综合库,则其中的数据通路生成器(Datapath Generator)会动态构建每个操作符的合适实现(即满足时序要求的最小实现),如图1所示。

图1 加法操作符的实现

        与其他优化方式不同的是,操作符实现方式可能在综合的后续阶段重新选择。

资源共享

        资源共享可以减少用于实现诸如加法等操作符所需的硬件资源。如果没有资源共享,每一个运算操作都会单独生成对应的硬件,这种硬件重复会增加设计的面积。

        资源共享有两种基本类型:公共子表达式消除和互斥操作共享。

公共子表达式消除

        这种资源共享方式会共享设计中重复的计算,下面举例说明。

result = a > b
result = (a > b) && c

        这段代码包含两个比较器和一个与门。在公共子表达式消除中,共享的表达式a>b会被提取出来,如下所示。

​temp = a > b
result = a > b
result = (a > b) && c

        工具会根据约束选择共享或取消共享某些子表达式,如图2所示。

图2 共享与取消共享

互斥操作共享

        这种资源共享方式会在同一个进程中共享操作符,但前提是:在路径中不会同时执行这些操作,即它们是互斥的。

if (sel)
    result = a + b;
else
    result = c + d;

        与公共子表达式消除类似,是否共享互斥操作也由工具依据时序约束来决定。如果sel信号到达较晚,而共享加法器会导致时序结果变差,Design Compiler会选择不共享该加法器,如图3所示。

图3 共享与取消共享

        需要注意的是,如果使用了compile命令,则操作符的位置会影响互斥操作共享,如下所示。

// 强制不共享
op1 = a + b;
op2 = c + d;
if (sel)
    result = op1;
else
    result = op2;


// 强制共享
if (sel) begin
    op1 = a;
    op2 = b;
end
else begin
    op1 = a;
    op2 = b;
end

result = op1 + op2;

 

数据通路提取与优化

        数据通路设计常用于需要大量数据操作的应用中,例如3D、多媒体和数字信号处理等。数据通路提取会将算术运算符(如加法、减法和乘法)转换为数据通路模块,并最终由数据通路生成器实现,只有使用compile_ultra命令才能进行数据通路提取与优化。

        下面展示了一个使用进位保留(CSA)来提升结果质量(QoR)的例子。

module dp (a, b, c, d, e);
  input [15:0] a,b;
  input [31:0] c,d;
  output [31:0] e;
  assign e = (a * b) + c + d;
endmodule

        如果使用compile命令进行综合,则乘法器和加法器分别独立映射,而未被合并为一个数据通路块,如图4所示。

图4 compile命令的综合结果

        如果使用compile_ultra命令进行综合,乘法器和加法器被合并为一个单一的数据通路块并采用进位保留将结果保留在中间形式,时序提升8.3%,面积减少36%,如图5所示。

图5 compile_ultra命令的综合结果

        图6比较了传统CPA实现和CSA实现的区别。

图6 传统CPA实现和CSA实现对比

        compile_ultra命令可提取的运算符包括+、-、*、>、<、>=、<=、>>、<<、>>>、<<<和MUX,需要注意的是:被提取的运算符必须直接连接,中间不能夹杂非算术逻辑;仅加法器树允许混合符号与无符号操作数;通过显式例化实现的运算符不可被提取;==与!=运算符不可提取;移位量为变量的移位运算符不可提取。

        使用report_resources命令可以报告设计中使用的资源和数据通路块,下面基于图5的综合结果展示了一个例子。

dc_shell> report_resources
 
****************************************
Report : resources
Design : dp
Version: W-2024.09-SP2
Date   : Mon Aug  4 20:07:24 2025
****************************************


Resource Report for this hierarchy in file /home/zhangchen/elaborate/test1.v
=============================================================================
| Cell           | Module         | Parameters | Contained Operations       |
=============================================================================
| DP_OP_5J1_122_1328              |            |                            |
|                | DP_OP_5J1_122_1328 |        |                            |
=============================================================================

Datapath Report for DP_OP_5J1_122_1328
==============================================================================
| Cell                 | Contained Operations                                |
==============================================================================
| DP_OP_5J1_122_1328   | mult_5 (test1.v:5) add_5 (test1.v:5)                |
|                      | add_5_2 (test1.v:5)                                 |
==============================================================================

==============================================================================
|       |      | Data     |       |                                          |
| Var   | Type | Class    | Width | Expression                               |
==============================================================================
| I1    | PI   | Unsigned | 16    |                                          |
| I2    | PI   | Unsigned | 16    |                                          |
| I3    | PI   | Unsigned | 32    |                                          |
| I4    | PI   | Unsigned | 32    |                                          |
| T0    | IFO  | Unsigned | 32    | I1 * I2 (test1.v:5)                      |
| O1    | PO   | Unsigned | 32    | T0 + I3 + I4 (test1.v:5)                 |
==============================================================================


Implementation Report
===============================================================================
|                    |                  | Current            | Set            |
| Cell               | Module           | Implementation     | Implementation |
===============================================================================
| DP_OP_5J1_122_1328 | DP_OP_5J1_122_1328 | str (area)       |                |
|                    |                  | mult_arch: benc_radix4              |
===============================================================================

        其中的资源报告显示哪些运算符被映射为DesignWare组件,这里所有的运算符被提取为一个数据通路块;数据通路报告显示哪些运算符被合并为一个数据通路块,这里的DP_OP_5J1_122_1328单元包含了三个运算操作,操作名中的后缀表示在原始RTL文件中的代码行号,如果一行中有多个同名操作,会继续使用额外的后缀表示;实现报告显示每个DesignWare 组件采用的实现方式。


网站公告

今日签到

点亮在社区的每一天
去签到