维普资讯 http://www.cqvip.com Computer E, neering and Applications计算机工程与应用 片上通信结构 周文彪 一,张 岩 ,毛志刚 共享总 、。 一, 线和NoC的分析与比较 ZHOU Wen—biao1,2 ZHANG Yan .MAO Zhi—gang 1.哈尔滨工业大学深圳研究生院,广东深圳518055 2.哈尔滨T业大学微电子中心,哈尔滨150001 1.Shenzhen Graduate School of Harbin Institute of Technology,Shenzhen,Guangdong 5 1 8055,China 2.Microelectronics Centre of Harbin Institute of Technology,Harbin 150001,China ZHOU Wen—biao,ZHANG Yan,MAO Zhi-gang.Performance analysis and comparison of shared bus and NoC on chip communication architecture.Computer Engineering and Applications,2007,43(15):121—124. Abstract:The paper analyzes some common features of the shared bus with centralized arbitration and two dimensional NoC through a modular method.First the two communication architectures are described with the synthesized Verilog language,and two function veritfcation and cycle accurate performance analysis environments are also implemented to evaluate their performance.The experiment result shows the shared bus is considerably smaller in area than NoC for the same technology,but the throughput ef- ifciencv and bandwidth of NoC obviously outperforms the shared bus for large—scale on—chip communication. Key words:shared bus;Network on Chip(NoC);router;on-chip communication 摘要:采用模块化方法对集中式仲裁共享总线和二维网格片上网络(Network on Chip,NoC)的硬件开销和延迟进行了数学上的 分析 在此基础上.通过可综合Verilog代码对这两种片上通信结构在RTL级进行描述,并建立了这两种通信方式的周期准确级的 功能验证和性能分析环境。结果表明,在同样工艺条件下,共享总线的面积与NoC相比相当小;但对于大规模片上系统置信,NoC 的吞吐效率及带宽明显优于共享总线。 关键词:共享总线;NoC;路由;片上通信 文章编号:1002—8331(2007)15—0121—04 文献标识码:A 中图分类号:TP301.6 l 引言 自20世纪70年代以来的大多数时间内,超大规模集成电 路器件的特征尺寸以每3年70%的速度缩小lll,从而使得数目 越来越多的晶体管可以集成在同一颗半导体芯片上制造。由于 具有速度、价格、面积、功耗和上市时间上的优势,基于IP核复 信结构得到广泛的研究[7-91。NoC片上通信结构把传统计算机网 络中互连思想移植到 了片上系统IP核之间的通信,其采用报 文传输方式.能够满足未来SoC设计中可复用性和带宽可扩展 性的需要:同时,NoC通信结构采用模块化的设计,可以支持全 局异步局部同步的通信模式。尽管NoC存在设计复杂,节点面 积开销大,通信建立时间长的缺点,但在超深亚微米技术下, 用技术l21]】的SoC设计逐渐成为超大规模集成电路设计的~个 重要领域。特别是SoC给无线通信,多媒体和消费类电子领域 的设计提供了一个性能价格比更好的集成解决方案。而在SoC 设计中,通信结构设计与研究及其性能优化,是国内外SoC设 计基础研究中的关键技术之一。 NoC对于大规模SoC设计却是一种优选的片上通信结构。 但对于这两种片上通信结构如何进行选择,即在什么情况 下不使用简单.硬件开销小的共享总线而使用通信效率高结构 复杂的NoC片上通信结构。在已有文献中,这方面工作还比较 少,而且主要是针对具体应用进行性能的比较口oJ。本文分别以 在SoC设计中,IP模块类型很丰富,各个IP之间的通信要 求也不一样,不同系统通信结构对于系统性能的影响差别很 集中式仲裁结构共享总线和二维网格NoC结构为例子,对各 自面积、延迟、工作频率进行了分析。并通过可综合的Verilog 代码对两种片上通信结构的硬件开销,以及不同应用情况下的 通信效率进行了比较,分析结果对于进行SoC片上通信结构设 计有参考意义。 大。传统的SoC系统片上通信结构一般采用共享总线 。在单 一共享总线结构中,所有IP模块共享一条总线。当有多个主设 备同时申请总线时,由仲裁设备决定总线的所有权,各个主设 备的优先级一般预先由设计者来决定。共享总线式片上通信结 构一般比较简单,且硬件代价也较小,但缺点是在同一时刻只 能有一个主设备进行数据的传输,同时带宽无法随着设备的增 多而进行扩展。 下文的组织如下:第2章对共享总线和NoC两种片上通 信结构的特点及面积、延迟进行了分析;第3章采用周期准确 级性能分析环境对两种片上通信结构进行了性能比较:第4章 总结并分析和比较结果。 另一种可选的片上通信结构是NoC。近几年,NoC片上通 作者简介:周文彪(1976一),男,博士研究生,研究方向为NoC设计方法;张岩(1968一),男,教授,研究方向为SoC、NoC、VLSI设计;毛志刚(1962一) 男,教授,博导,研究方向为可编程、可重构硬件设计、数字视频处理。 维普资讯 http://www.cqvip.com 122 2007,43(15) Computer Engineering and Applications计算机工程与应用 2片上通信结构 2.1 共享总线 图1描述了一个通用集中式仲裁的共享总线片上通信结 构,主要由仲裁器、主(从)设备接口、多路器、解码器4个基本 模块组成,其采用集中式仲裁结构,IP模块与总线接13采用多 路器方式。来自主设备的总线请求信号向仲裁器申请总线拥有 权.仲裁器根据预先定义的优先级策略给某一个主设备发出授 权信号,同时控制着主设备到从设备的多路器是否选通。从设 备的响应数据也通过一个多路器与主设备接口连通.该多路器 由解码器的输出信号控制其是否选通。对于这样的片上通信结 构,其面积可以用公式(1)来进行计算: Areab ( + ,bit_width) ( )+ NmXAream (bit_width)+ xAream bit_width) (1) 式(1)中 、 分别表示主设备和从设备的数目,bit_width表 示总线宽度。从公式(1)可以看出,多路器的面积A ‰是设 备数目和总线宽度的函数,仲裁器的面积A 是设备数目 的函数,接口模块Aream 、Area, 的面积是总线位宽的函数。 !从设备 : 图l 通用的共享总线片上通信结构 共享总线的数据传输过程如下:主设备首先向仲裁器发出 请求信号.接着仲裁器把授权信号发给优先级最高的主设备, 此时数据传输开始,多路器一选择合适的数据写到从设备;对 于读数据.则主设备通过多路器二读取来自从设备中的数据。 假设采用burst传输方式,对于这样的一个共享总线数据传输 过程,单个事物传输延迟可以用公式(2)进行计算: DeZ =D d×(D~+D ) (2) 公式(2)中D代表各个模块的延迟,Ot表示传输数据的大小。在 读取数据过程中,解码过程和仲裁过程一般同时进行,且仲裁 过程的时钟周期大于解码过程,因此在单个事物传输延迟计算 公式中忽略了解码模块的延迟。 2.2片上网络 图3描述了一个虫孔交换2D网格NoC,路由采用XY维 序路由算法。其由多个模块化的路由节点相互连接而成,数据 采用报文传输.报文包括报文头和数据负载两部分,如图2所 示;报文头中包含原节点,目的节点以及报文大小信息。每个路 由节点由5个输入链路控制器,5个输出链路控制器和输入缓 冲队列.交叉开关模块,路由和仲裁模块以及网络接口模块组 成。由于NoC采用模块化的通信结构.因此其面积可用公式 (3)来进行计算: Area ̄c=NxAream, ̄r(bit_width) (3) 式(3)中Ⅳ表示设备的数目,相当于共享总线中的 I十 ;每个 路由节点面积A 珥一是一个与数据宽度有关的函数,其中输 入缓冲队列模块面积对整个路由节点的面积有很大影响。 ———一 报文头———— HI—————一 数据————— 图2 NOC报文格式 基于虫孔路由的NoC的数据传输过程如下:与本地链路 控制器相连的IP核通过输入网络接口向路由节点输入报文, 并存于输入缓冲队列中。路由和仲裁模块根据报文头微片的信 息进行仲裁和路由,后面的数据负载微片遵循头微片的传输通 道进行数据传送,只要相邻路由模块的输入缓冲队列不满.数 据微片就向正确的输出端口输出数据:如果相邻路由模块的输 入缓冲已满.则负载微片就地存储。路由模块根据报文数据头 微片的目的节点信息判断是否通过网络接口模块输出到目的 设备。对于这样的一个NoC数据传输过程,其单个报文消息传 输延迟可以用公式(4)来进行计算: Oetay^bc; x(Dr+D,+D )+max(Dl+D ) ; (4) 式(4)中 表示由路由和仲裁产生的消息延迟, 是消息经过 交换矩阵产生的延迟,D 是消息在两个路由节点之间的链路 传输延迟, 表示单个数据报文中包含微片的数目,£表示数据 报文从源节点到目的节点经过的路由节点数目。 3性能分析与比较 采用可综合Verilog实现了一个参数化的虫孔交换2D网 格NoC模型,用于对NoC进行分析和性能评估,该模型的规 模,路由节点Fif0深度,链路宽度都参数可调。对共享总线的性 能分析,采用了一个集成到SoC随机验证环境中设计的片上共 享总线。 首先,对共享总线和NoC两种通信结构进行了面积开销 的分析。在SMIC0.18 am工艺下对不同配置的片上共享总线结 构和NoC进行综合,综合结果如图4所示:图4(a)表示的是在 bit width 分别为8、16、32、64,设备数目为8的情况下两种片上通信结构的面积开销,其中NoC的Fif0深度为8:从图中可 以看出,NoC的面积开销相对于总线的面积开销相差近百倍, 位宽为32的2x4二维网格NoC的面积是共享总线面积的160 倍,而且NOC的面积与设备数目成线性关系。图4(b)表示的 是,在NoC输入缓存队列大小分别为4、6 8、10配置下的NoC 面积开销。图4(c)表示的是在位宽分别为8、16、32、64的情况 下,单个路由节点中的不同FIFO深度对整个路由节点面积的 影响。从图中可以看出,在NoC中,Fif0的面积在整个路由节点 中占据了主要部分,在图4(c)中,当Fif0深度为8,位宽为32 时.F.f0的面积就占据了整个节点面积的86%。图5表示了分 别在不同IP核数目下,数据传输的基本延迟,从图中可以看 出,共享总线的基本延迟保持常数,而对于NoC,随着IP核数 目的增加,其消息的基本延迟也呈线性增加,但增加幅度变慢, 这是由于随着IP核的增加,并行性也增加。 实验分析了图1和图2所示的两种片上通信结构在随机 流量情况下的性能。在共享总线的通信结构中,4个随机流量 维普资讯 http://www.cqvip.com 周文彪.张 岩,毛志刚:片上通信结构——共享总线和NoC的分析-9比较 2007,43(15) 123 东 东 南 南 西 西 北 北 本 本 地 地 图3基于虫孔交换的2一D网格NoC ×10 8 6 槲 丑 4 旧 旧 2 0 数据宽度 (a)不同数据宽度面积 (b)NoC面积开销 (c)Fifo在NoC中的面积比例 图4片上网络和共享总线的面积开销分析 NoC中不同缓冲深度对通信性能的影响。分别对Fifo_depth为 8和16的NoC进行了性能分析。同时.传输数据的总数量为 16000个字。由于在NoC中.数据报文头微片的路由和仲裁延 迟对整个系统的通信性能有很大的影响,因此在实验中,对报 文大小分别为4、8、16、32个微片的情况进行了性能分析和仿 真。对于共享总线的通信结构,采用burst的传输方式。仿真结 果时间如表1所示。从表1中可以看出,当NoC传输的数据报 文中包含的微片为4,共享总线的burst长度为4时,NoC的通 IP核数目 圈5不同IP核数目的平均Latency比较 信效率低于共享总线.这是由于在本文实现的NoC中,在单个 路由节点中其路由和仲裁的延迟为7个周期,占据了单个报文 发生器分别当作4个主设备,产生随机数据发向其他4个从设 延迟的很大一部分.因此,当单个报文的微片数目较少时,NoC 备。为了保证公平性,NoC的通信结构采用2 ̄4的二维网格拓 的通信性能较低,随着单个报文中包含的微片数目增加,NoC 扑结构。4个随机流量发生器分别连接在1、2、3、4四个节点 的通信效率也成线性增长,如在FIFO深度为8时。报文中微片 上,其产生目的节点为5、6、7、8的随机数据报文。为了比较 数目为8的NoC比微片数目为4的NoC通信结构,性能提高 维普资讯 http://www.cqvip.com Computer En ̄neenng and Applications计算机工程与应用 表l 具有8个设备的共享总线和2x4二维网格NoC性能比较 注:仿真时间是对于NoC和共享总线传输相同数目16000字节的情况下,在Verilog—XL仿真器中的仿真周期 了40%。而对于共享总线来说,bunt长度的大小对通信效率的 Council,1999. 提高并不是很明显.而且随着NoC中单个报文的微片数目增 [2]宋廷强,刘川来,李思昆.SoC设计中的IP核复用技术研究[J].青岛 加,NoC表现出更高的通信效率。 化工学院学报,2003,23(3):260—263. [3]葛晨阳,徐维朴,孙飞.IP复用技术的研究[J].微电子学报,2002,32 4结论 (4):257—260. 本文采用集中式仲裁单总线结构和虫孑L交换2D网络 [4]IBM Corporation.The connect bus architecture[EB/OL].(1999).http:// NoC作为例子对两种片上通信结构进行了性能的分析与比较。 rCcqqW.chips.ibm.com. 共享总线通信结构相对比较简单,对于通信量较小.IP核数目 [5]ARM Corporation.the AMBA Speciifcation[EB/OL].(1999).http:// rCcqqW.arn1.Com. 较少的片上系统,其性能是比较有效的,而且由于简单性,共享 总线结构的面积相对较小,可以达到较高的工作频率。而另一 [6]季红彬,蒋斌,魏敬和.C Bus——一个通用的SoC总线结构fJ].中国 方面,NoC是一个比较复杂的片上通信结构.面积开销大,而且 集成电路.2002.4:32—39. 性能随着NoC中单个路由节点中结构参数的不同存在很大差 [7]Benini L,Micheli G D.Networks on chips:a new SoC paradigm[J]. IEEE Computer,2002(1):70—78. 别.但对于将来大规模的SoC和片上并行处理系统。NoC表现 [8]Fernando Gehm Moraes,Aline Mello.A low area overhead packet— 出吞吐率高。带宽大的优点。而且路由节点的面积开销在大规 switched network on chip:architecture and prototyping[C]//IFIP 模的Soc系统中只占据一小部分,因此NoC是解决未来大规 VLSI—SOC.20o3:174—179. 摸复杂SoC片上通信结构设计的一个重要方法。 [9]Zeferino C A,Kreutz M E,Susin A A.RASoC:a muter soft—core (收稿Et期:2006年9月) ofr networks—on—chip[C]//Design,Automation and Test in Europe Conference and Exhibition,2004:198—203. 参考文献: [10]Jiang Xu Wolf,Henkel W,Chakradhar J,et a1.A case study in [1]Semiconductors Industry Association.International technology road— networks-on—chip design for embedded vide0[C]//Design,Automa— map for semiconductors,world semiconductors.World Semiconductor tion and Test in Europe Conference and Exhibition.2004:77 -775. (上接120页) 一 的关系曲线。其中正确同步概率定义为Wimax规定的容忍度 计算的序列个数U=2.5;多径信道增益为SUI一3标准【0,一5, 下的正确同步的概率。从图中可以看出12 dB后新算法正确同 一10]dB;梯形划分尺度S=2;梯形个数n=5;仿真次数1000o次。 步概率已经达到l,体现出非常好的性能。由文献【2】中I ̄Nandula 图7和图8为多径衰落信道下新算法和Schmidl算法的 算法的性能仿真结果可知,在低信噪比下(一5 dB~8 dB之间)本 均方误差MSE和在相同容忍度yt下正确同步概率与信噪比SNR 算法的性能远远优于利用已知性的算法。 帧同步误差的均方误差 —+一本文 e__schmidl 5 结论 本文提出了一种基于曲线拟合的帧同步算法及其简化的 低复杂度算法,通过大量仿真和性能比较表明,本算法不但大 大改善了原有帧同步算法的性能.达到了Wimax协议标准的 要求,而且复杂度远远小于其他同类算法,具有较强的应用价 值。(收稿Et期:2007年2月) 10 15 20 25 SNR 参考文献: 图7均方误差性能比较 [1]Schmidl T M.Robust frequency and timing synchronization for Il:确帧同步概率 OFDM[J].IEEE Trans Communication,1997,45(12):1613—1621. 十 ’ [2]Nandula S.Robust timing synchronization for OFDM based wireless 专 ’ —+一本文 器 e__schmidl LAN system[C]//TENCON 2003.Conference on Convergent Tech— nologies for Asia—Paciifc Region Volume 4,15—17 Oct,2003: = .宝 l558-1561. .骂 2 [3]Feng Lu,Ohseki T.On symbol timing for OFDM based mobile C1//Global Telecommunications Conference, 0.2 籀* 》蝌 communication systems[M 9e ∞ GLOBECOM’02.IEEE Volume 1.17—21 Nov.2002:273—277. 【4]IEEE Std 802.1 一2004 IEEE standard for local and metropolitan 5 0 5 10 15 20 25 area networks_——Part 16:air interface for fixed broadband wireless SNR access systems[S],2004. 图8相同容忍度下的正确同步概率曲线比较 [5]郑成义.计算方法[M].广州:华南理工大学出版社,2002.