失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 中科院计算机所副研究员 中科院计算技术研究所副研究员 谭光明

中科院计算机所副研究员 中科院计算技术研究所副研究员 谭光明

时间:2022-12-26 23:25:40

相关推荐

中科院计算机所副研究员 中科院计算技术研究所副研究员 谭光明

嘉宾介绍:谭光明,中国科学院计算技术研究所副研究员、博士生导师。

主要研究方向为并行算法、编程与体系结构,负责计算机体系结构国家重点实验室和曙光团队的并行算法小组的研究工作。作为科研骨干参加了863项目曙光4000/5000/6000(星云)系统的研制;承担并参与了多项国家自然科学基金项目和973项目;8月至8月访问University of Delaware,参与了IBM Cyclops-64众核体系结构的研究。在高性能计算方面发表了论文三十余篇,包括超级计算领域的国际会议和期刊如SC、ICS、SPAA、PPoPP、TPDS和JPDC等。曾担任多个国际会议的程序委员会委员(ICS 、ICPP 、HiPC -12等),并担任了多个期刊的审稿人(TPDS、JPDC、PC、IJHPCA等)。获得中国科学院院长优秀奖,获得中国计算机学会优秀博士论文奖,获得中科院卢嘉锡青年人才奖,入选中科院青年创新促进会。

演讲主题:面向GPU的快速稠密矩阵乘算法设计和实现

主题概述:双精度稠密矩阵乘(DGEMM)是科学与工程计算应用中重要的性能关键的核心算法,本工作介绍一种基于现有的GPU体系结构如NVIDIA Fermi和AMD Cypress的高度优化的DGEMM设计和实现。针对两种GPU存在的共同的存储墙问题,开发了算法性能模型确定最优分块因子的以缓解其内存带宽瓶颈。进一步考虑到两种GPU上不同的来自体系结构方面的性能瓶颈,提出了新的半自动自动调度算法和细粒度软件流水算法,并分别在NVIDIA Fermi和AMD Cypress的GPU平台上实现了优化的DGEMM程序。在NVIDIA Fermi平台上,优化DGEMM的浮点峰值从原来的302GFLOPS(效率58%)提升到362GFLOPS(效率70%),超过比CUBLAS4.0版本20%;在AMD Cypress平台上,浮点峰值从优化前的438GFLOPS(47%)提升到758GFLOPS(82%)。二者都是目前为止公开报道的在上述两种GPU体系结构上性能最高的DGEMM实现,在NVIDIA Fermi上优化实现的DGEMM已经被集成到评测CPU-GPU超级计算机的基准测试程序HPL GPU版本中。

如果觉得《中科院计算机所副研究员 中科院计算技术研究所副研究员 谭光明》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。