基于CK810LINUX3.0内核的移植实现

来源：爱go旅游网

第１期　周峰等：基于ＣＫ８１０　ＬＩＮＵＸ３．０内核的移植实现　２５３　所谓ＡＢＩ就是制作编译器与汇编器工具所要遵循的接口　程中解放出来，极大地提高了系统的安全性，使用户程序具有可　标准并根据编程模型定义软件对硬件资源的使用情况…。ＡＢＩ　移植性。　是一个标准，可以确保所有的ＣＫ８１０的工具是兼容的，可互相　ＣＫ８１０编程模型规定ＣＰＵ的两种运行级别，超级用户模式　操作，也确保兼容的二进制组件库可以创建和维护，包括处理器　和普通用户模式，正好满足Ｌｉｎｕｘ系统运行时的两个级别。系　特定的二进制接口——指令集，基本数据类型（如ｌｏｎｇ、ｓｉｚｅ４、　统调用实现并非直接和程序员或系统管理员打交道，而是一个　ａｉｇｎ４）和异常处理，函数调用约定——如何传递参数和结果返　通过软中断机制，使用系统调用号来区分人口函数，比如ｘ８６架　回，如何分配寄存器以及如何调用堆栈。　构用ｉｎｔ　８０ｈ实现，ＡＲＭ架构用ＳＷＰ指令实现，而ＣＫ８１０通过　针对ＣＫ８１０的ＡＢＩ，Ｌｉｎｕｘ内核非常关注通用寄存器的使　ｔｒａｐ　０软件陷阱异常来实现。　用。ＣＫ８１０ＡＢＩ对寄存器的分配如表１所示。表中规定ｒ０一ｒ３用　系统调用过程：当ＣＰＵ执行陷阱指令ｔｒａｐ　０，进入异常后，　于参数传递，ｒ１４用于堆栈指针，ｒ１５用于函数返回地址，ｒ０、ｒ１用　处理器ＰＳＲ寄存器最高位被硬件置１，实现普通用户到超级用　于函数返回值。　户的转变，紧接着把用户空间的寄存器现场保存到内核堆栈，并　表１　ＣＫ８１０　Ｒｅｇｉｓｔｅｒ　Ａｓｓｉｇｎｍｅｎｔｓ　保存ｅｐｃ、ｅｐｓｒ等状态寄存器，根据ｒ７中保存的系统调用号找到　Ｒｅｇｉｓｔｅｒ　Ｕｓｅ　Ｃｏｎｖｅｎｔｉｏｎ　相应处理函数处理，处理完成后根据内核堆栈恢复原用户空间　Ｎ８ｄａｌｅ　Ｓｏｆｔｗａｒｅ　Ｎａｍｅ　Ｕｓａｇｅ　Ｃｒｏｓｓ．ｃａｌｌ　Ｓｔａｔｕｓ　寄存器。　Ａｒｇｕｍｅｎｔ　Ｗｏｒｄ　１－２／Ｒｅｔｕｒｎ　系统调用中现场的保存与恢复对应ｐｔ＿ｒｅｇｓ结构体，严格遵　１０一ｒ１　ａ０．ａｌ　Ｄｅｓｔｒｏｙｅｄ　Ｂｕｆｆｅｒ　Ａｄｄｒｅｓｓ　守ＣＫ８１０编程模型及ＡＢＩ规范，并将考虑实用及硬件上下文保　ｒ２一ｒ３　ａ２一ａ３　Ａｒｇｕｍｅｎｔ　Ｗｏｒｄ　３－４　Ｄｅｓｔｒｏｙｅｄ　存号恢复的效率，精心设计了如下ｐｔ＿ｒｅｇｓ结构体。　ｒ４．ｒ１１　ｌ０．１７　Ｌｏｃａｌ　Ｐｒｅｓｅｒｖｅｄ　ｓｔｒｕｃｔ　ｐｔ—ｒｅｇｓ　ｉ　Ｔｅｍｐｏｒａｒｙ　ｒｅｇｉｓｔｅｒｓ　ｕｓｅｄ　ｆｏｒ　ｕｎｓｉｇｎｅｄ　ｌｏｎｇ　ｐｃ；　ｒ１２．ｒｌ３　ｔｏ．ｔｌ　Ｐｒｅｓｅｒｖｅｄ　ｌｏｎｇ　ｏｒｉｇａＯ；　ｅｘｐｒｅｓｓｉｏｎ　ｅｖａｌｕａｔｉｏｎ　＿ｕｎｓｉｇｎｅｄ　ｌｏｎｇ　ｓｒ；　ｒ１４　ｓｐ　Ｓｔａｃｋ　Ｐｏｉｎｔｅｒ　Ｐｒｅｓｅｒｖｅｄ　ｌｏｎｇ　ａ０；　／／ｒＯ　ｒ１５　ｌｒ　Ｌｉｎｋ／Ｓｃｒａｔｃｈ　Ｒｅｔｕｒｎ　Ａｄｄｒｅｓｓ　ｌｏｎｇ　ａｌ；　／／ｒｌ　ｒ１６一ｒｌ７　ｌ８．Ｉ９　，　Ｌｏｃａｌ　Ｐｒｅｓｅｒｖｅｄ　ｌｏｎｇ　ａ２；　／／ｒ２　Ｔｅｍｐｏｒａｒｙ　ｒｅｇｉｓｔｅｒｓ　ｕｓｅｄ　ｆｏｒ　Ｄｅｓｔｒｏｙｅｄ　ｒ１８．ｒ２５　ｔ２一ｔ９　ｌｏｎｇ　ａ３；　／／ｒ３　ｅｘｐｒｅｓｓｉｏｎ　ｅｖａｌｕａｔｉｏｎ　ｌｏｎｇ　ｒｅｇｓ［１０］；　ｒ２６　ｒ２６　Ｌｉｎｋｅｒ　ｒｅｇｉｓｔｅｒ　ｌｏｎｇ　ｌｒ；　／／ｒｌ５　ｒ２７　ｒ２７　Ａｓｓｅｍｂｌｅｒ　ｒｅｇｉｓｔｅｒ　ｌｏｎｇ　ｅｘｒｅｇｓ［１６］；　ｒ２８　ｒｄｂ／ｇｂ　Ｄａｔａ　ｓｅｃｔｉｏｎ　ｂａｓｅ　ａｄｄｒｅｓｓ　ｔ；　ｒ２９　曲　ＧＯＴ　Ｂａｓｅ　Ａｄｄｒｅｓｓ　ｆｏｒ　ＰＩＣ　内核规定系统调用参数一般不多于６个，当系统调用超过　ｒ３０　ｒ３０　Ｈａｎｄｌｅｒ　Ｂａｓｅ　ａｄｄｒｅｓｓ　４个参数时，ＡＢＩ规定传参寄存器１０－ｒ３不足以表示参数，必须在　ｒ３ｌ　ｔｌｓ　ＴＬＳ　ｒｅｇｉｓｔｅｒ　进入系统调用处理函数之前，调整堆栈指针并将最后两个参数　放在内核堆栈中。　２移植过程　２．２进程管理　进程是执行程序的一个实例，Ｌｉｎｕｘ中每个进程有唯一的　本次移植采用的内核版本为Ｌｉｎｕｘ　３．０．８。Ｌｉｎｕｘ主要包括　ＰＩＤ号，进程和进程描述符（ｔａｓｋ—ｓｔｒｕｃｔ）之间有非常严格的一一　以下几个部分：进程管理、内存管理、异常中断、信号处理、系统　对应关系。进程描述符用数据结构ｔａｓｋ—ｓｔｒｕｃｔ表示，该数据结　调用及虚拟文件系统等　。　构非常庞大，用来刻画进程的状态，是内核操作和管理进程的唯　Ｌｉｎｕｘ移植主要是硬件抽象层的移植，包括体系结构抽象　一手段。内核采用宏定义ｃｕｒｒｅｎｔ来快速、高效地找到当前进程　层、变体抽象层和平台抽象层。体系结构抽象层指ＣＰＵ的启　的描述符，大大提升了系统的性能。Ｌｉｎｕｘ调用ｄｏ—ｆｏｒｋ来创建　动、中断异常处理及上下文切换，变体抽象层指该类处理器所具　新进程，调用ｅｘｅｃｖｅ系统调用执行新的进程，调用ｅｘｉｔ（）终止　有的特殊性，包括Ｃａｃｈｅ、ＭＭＵ、ＦＰＵ、Ｐｒｏｆｉｌｉｎｇ等，平台抽象层指　进程。　对当前系统的硬件平台进行抽象，包括平台的启动、芯片的选择　ＣＫ８１０为每个进程分配２个页——８　ＫＢ（２”）的空间用来　和配置、定时设备、外设Ｉ／Ｏ寄存器访问以及中断控制等。　存放内核堆栈，每个进程有独自对应的内核态堆栈。内核堆栈　Ｌｉｎｕｘ的移植一般通过这三个抽象层为模块来完成。对于　的底部存放进程需要快速访问的状态标记数据结构ｔｈｒｅａｄ—ｉｎ．　新的体系结构，其抽象层的建立并非那么容易。下面介绍体系　ｆｏ，ｔｈｒｅａｄ—ｉｎｆｏ结构的ｔａｓｋ成员指向自身的进程描述符　Ｊ。由于　结构移植中一些关键点。　内核态堆栈由高地址向低地址方向增长，且内核态堆栈ｓｔａｃｋ所　２．１　系统调用　占空间比ｔｈｒｅａｄ—ｉｎｆｏ结构大得多，能有效防止两者的相互覆盖、　系统调用是操作系统提供给用户程序调用的一组“特殊”　造成冲突，因而内核通过当前内核堆栈可以快速取得当前进程　接口，是内核和用户程序之间沟通的桥梁　ｊ。用户程序可以通　的描述符ｃｕｒｒｅｎｔ。进程描述符中ｔｈｒｅａｄ成员是一个ｔｈｒｅａｄ—　过这组“特殊”接口来获得操作系统内核提供的服务。Ｌｉｎｕｘ的　ｓｔｒｕｃｔ结构类型，ｔｈｒｅａｄ—ｓｔｒｕｃｔ结构包含体系结构相关的进程信　运行空间分为内核空间与用户空间，它们各自运行在不同的级　息比如浮点寄存器上下文，其中ｋｓｐ和ｕｓｐ两个成员分别指向　别中，逻辑上相互隔离。通过系统调用把用户从底层的硬件编　进程的内核态堆栈和用户堆栈。这些数据结构与堆栈之间的关　第１期　何香等：三维声波方程正演多级异构并行算法设计与实现　２６７　４．３　多级异构并行实验结果　并行模式经过优化之后，在实验性平台上进行了测试。测　试时采用网格规模为５１×６４１×６７０，炮数为３２，测试过程中，暂　不考虑Ｉ／０过程。表３给出了３级并行模式并行规模为１～１２８　的核心计算迭代５００步的计算时问、加速比和并行效率测试　结果。　平台，以提高课题的实际应用性能为目的，实现了两级ＭＰＩ并　行和第３级众核并行的设计和优化，并取得了较为理想的加速　效果。本文还完成了在某实验性众核平台上多级异构算法的测　试，对课题的实际应用具有一定的意义。　参考文献　表３中的测试结果表明，采用了三级并行方式的算法在　ＭＰＩ并行规模大于１６时，能够保持较为理想且基本稳定的并行　效率，这是因为各炮之间数据不相关，ＣＰＵ组间没有通信，因　［１］方伍宝，孙建国，赵改善，等．波动方程叠前深度偏移成像软件系统　的研制及应用［Ｊ］．石油勘探，２００５，４４（５）：４８６—４９０．　［２］陈左宁，李宏亮，胡苏太．异构成为高效能计算机体系结构的新趋　此，计算通信开销比例基本保持不变。　表３　多级异构并行算法实验结果　进程　运行时间（Ｓ）　加速比　并行效率（％）　ｌ　９　９９３．４１６　ｌ　１００　４　２　８０５．８６５２８　３．５６　８９　１６　７４７．２６４３２　ｌ３．３７　８３．５６　６４　ｌ８７．１６９６４　５３．３９　８３．４２　１２８　９２．５７８９６　１０７．９４　８４．３２　如图５所示，上方浅色曲线为多级异构并行模式实现后的　加速比，下方深色曲线为众核并行算法的加速，从图中可以看　到，多级并行的实现对加速比的提高有很明显的作用。　ｌｚｕ　Ｌ００　舯　蔷６０　异　４０　２０　ｎ　０　２０　４０　６０　８Ｏ　１００　１２０　１４０　进程数　ｌ＋众核并行算法加速比＋多级异构并行模式加速比　ｌ　图５　多级异构并行算法实现前后加速比对比　为了验证多级并行方式对ＭＰＩ扩展性能的提高，实验进行　了大规模ＭＰＩ并行测试，图６中给出了３级并行模式实现后　１２８—１　０２４进程的核心计算迭代５００步的加速比测试结果。　图６的曲线显示大规模运行时，多级并行异构算法的ＭＰＩ　扩展性很好，因此，多级并行的实现对课题的实际应用有极大的　帮助。　图６三级异构并行算法１２８—１０２４进程加速比　５　结语　本文以三维声波正演算法为基础，基于某众核处理器计算　势［Ｊ］．高性能计算技术，２００７（１８４）：１—６．　［３］谢向辉，胡苏太，李宏亮．多核处理器及其对系统结构设计的影响　［Ｊ］．计算机科学与探索，２００８，２（６）：６４１—６５０．　［４］陈芳园，张冬松，王志英．异构多核处理器体系结构设计研究［Ｊ］．　计算机工程与科学，２０１１，３３（１２）：２７—３５．　［５］莫则尧，刘兴平，廖振民．应用程序并行与优化关键技术研究［Ｊ］．　数值计算与计算机应用，２００２（１）：３１—３３．　（上接第２５５页）　３．３　Ｐｒｏｆｉｌｉｎｇ应用　Ｐｒｏｆｉｌｉｎｇ是ＣＫ８１０处理器内部的功能单元，用来统计从开　始ｐｃ到结束ｐｃ之间处理器的各项数据，包括总指令数、ｌｏａｄ　ｓｔｏｒｅ指令数、跳转预测、系统调用数目及ＴＬＢ　ｍｉｓｓ数等。　新增功能单元，内核需要做一定的改动才能实现其运行。　如２．２节介绍，新增的寄存器在软件方面保存在ｔｈｒｅａｄ—ｓｔｒｕｃｔ数　据结构中，这样便于数据的读取与存放，进程切换与复制需要保　存ｐｒｏｆｉｌｉｎｇ协处理器硬件上下文。　实现ｐｒｏｉｆｌｉｎｇ功能，在已有的系统调用末尾增加了两个新　的系统调用（３４４与３４５号ｓｙｓｃａｌ１）——ｃｓｋｙ＿ｐ皿』堍实现功能：　设置触发使能位，开始与停止Ｐｃ地址，让ｐｒｏｆｉｌｉｎｇ启动计数；　ｃｓｋｙｐｒｆｌ—ｒｅａｄ实现功能：读取ｐｒｏｉｆｌｉｎｇ协处理器的信息，即从　ｃｕｒｒｅｎｔ线程里读取寄存器的信息存放到结构体ｐｒｆｌ中供用户使　用。用户通过内嵌汇编把相应系统调用号写入Ｒ７寄存器就能　调用该系统调用实现ｐｒｏｉｆｌｉｎｇ的功能。　４　结语　随着Ｌｉｎｕｘ的不断成熟，势必被越来越广泛地应用于嵌入　式领域。本文从体系结构角度阐述了Ｌｉｎｕｘ内核移植及应用，　更多驱动程序的开发及平台的推广应用将是下一步工作。　参考文献　［１］杭州中天微系统有限公司．Ｃ－ＳＫＹ　ＣＰＵ　ＡＢＩ　Ｓｔａｎｄａｒｄｓ　Ｍａｎｕａｌ［Ｍ］．浙　江．２０１２．　［２］Ｃｉ　Ｗｅｕｙａｎ，Ｃｈｅｎ　Ｘｕｄｉ，Ｃａｉ　Ｓｕｈｕａ，ｅｔ　ｌａ，Ｍｅｔｈｏｄｓ　ａｎｄ　Ｓｋｉｌｌｓ　ｏｎ　Ｔｒａｎｓｐｌａｎ—　ｔｉｎｇ　Ｌｉｎｕｘ　ｔｏ　ＡＲＭ￥３Ｃ２４１０［Ｃ］／／Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ（ＩＣＣＥＴ　２０１０）２ｎｄ，Ｃｈｅｎｇｄｕ，０２１０，４．　［３］任桥伟．Ｌｉｎｕｘ内核修炼之道［Ｍ］．北京：人民邮电出版社，２０１０．　［４］Ｒｏｂｅ￣Ｌｏｖｅ．Ｌｉｎｕｘ　ｋｅｒｎｅｌ　Ｄｅｖｅｌｏｐｍｅｎｔ［Ｍ］．３版．陈莉君，康华，　译．北京：机械工业出版社，２０１０．　［５］刘文峰，李程远，李善平．嵌入式Ｌｉｎｕｘ操作系统的研究［Ｊ］．浙江　大学学报：工学版，２００４（４）．　［６］韦东山．嵌入式Ｌｉｎｕｘ应用开发完全手册［Ｍ］．、北京：人民邮电出　版社，２００８．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文