(报告出品方:东方证券)
1算力芯片壁垒高、发展必要性强
英伟达宣布生成式AI引擎NVIDIADGXGH现已投入量产。年5月28日,英伟达创始人兼CEO黄仁勋在NVIDIAComputex演讲中宣布,生成式AI引擎NVIDIADGXGH现已投入量产。GH使用Nvidia的NVLink-C2C互连技术,将Nvidia基于ARM的GraceCPU和HopperGPU架构融合到一个芯片中。NVIDIADGXGH将个NVIDIAGraceHopper超级芯片完全连接到单个GPU中,支持万亿参数AI大模型训练,能够处理大规模推荐系统、生成式人工智能和图形分析,并为巨型人工智能模型提供线性可扩展性。Nvidia的服务器合作伙伴正计划基于新的GHSuperchip打造他们自己的系统,首批产品将于今年晚些时候上市。
GH速度和功耗指标都有显著提升。这款新的芯片总带宽达每秒GB,比当今最先进的加速计算系统中采用的标准PCIeGen5通道高出7倍。Nvidia表示,Superchip的功耗也降低了5倍,使其能够更有效地处理那些要求苛刻的AI和高性能计算应用。AMD推出数据中心APUInstinctMI。北京时间年6月14日凌晨,AMD推出数据中心APU(加速处理器)InstinctMI,其旨在帮助数据中心处理人工智能相关数据流量,并在这一快速增长的市场上挑战英伟达的垄断地位。InstinctMI系列将包括一个GPU(图形处理器)MIX,可以加速ChatGPT等聊天机器人所使用的生成式AI技术的处理。先进算力国产替代在行业变革中有望迎来机遇。半导体国产化势在必行,而算力芯片又是重中之重。AI算力、低功耗等对服务器算力芯片提出新的要求,市场格局近几个季度变化较多,英伟达GH有望加速全球AI服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇。
1.1不同算力芯片的特点与区别
计算芯片包括CPU、GPU、FPGA、ASIC等,都用作计算分析。其中,CPU是性能最综合的计算芯片,AI算法的执行也运用GPU、FPGA、ASIC等芯片。
CPU是综合计算芯片,擅长逻辑控制和串行运算。计算机的运算器和控制器一起组成了CPU,CPU是整台计算机的大脑,也是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。CPU有大量的缓存和复杂的逻辑控制单元,非常擅长逻辑控制、串行的运算,但因计算单元占30%左右,不擅长复杂算法运算和处理并行重复的操作。GPU相比CPU计算单元大大增加,擅长大量并行计算。而作为通用芯片的GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工,计算单元相比CPU大大增加。GPU最初承担图像计算任务,能够进行并行计算,因此GPU架构本身比较适合深度学习算法,通过对GPU的优化,进一步满足深度学习大量计算需求。其主要缺点在于功耗较高。
GPU按照接入类型可以分为独立GPU和集成GPU。独立GPU即独立显卡,需要插在主板的相应接口上,具备单独的显存,不占用系统内存,能够提供更好的显示效果和运行性能。全球知名供应商主要包括AMD和NVIDIA两家。集成GPU即集成显卡,是将图形核心以单独芯片的方式集成在主板上,并且动态共享部分系统内存作为显存使用,能够提供简单的图形处理能力,以及较为流畅的编码应用。全球知名供应商主要包括英特尔和AMD两家。
GPU按照应用场景不同可分为PCGPU、服务器GPU和移动GPU。1)集成GPU一般运用于PC以轻办公、文字编纂为主;独立GPU则一般运用于PC以制作高清图片、编辑视频、渲染游戏等。2)服务器GPU主要以独立GPU为主。服务器GPU主要应用于服务器,可做专业可视化、计算加速、深度学习等应用。3)移动GPU以集成GPU为主。随着移动端向着轻薄化不断发展,终端内部净空间随着多种功能模组的增加呈快速下降趋势。此外,就目前的移动端视频和图片的处理要求而言,集成GPU的性能尚可满足移动端的需要。FPGA又称半定制化芯片,具有足够的计算能力、较低的试错成本和足够的灵活性。FPGA的计算速度快是源于它本质上是无指令、无需共享内存的体系结构,“无指令”即使用硬件描述语言编程,直接编译为晶体管电路的组合,所以FPGA实际上直接用晶体管电路实现用户的算法,没有通过指令系统的翻译;“无需共享内存”是指对于保存状态的需求,FPGA中的寄存器和片上内存(BRAM)是属于各自的控制逻辑的,无需不必要的仲裁和缓存。因此FPGA运算速度足够快,优于GPU。同时,相比量产成本高昂的ASIC芯片,因为FPGA是一种半定制的硬件,通过编程可定义其中的单元配置和链接架构进行计算,因此在灵活性上优于ASIC,具备较低试错成本。
ASIC是全定制芯片,性能强但是前期开发久、成本高。是根据产品的需求进行特定设计和制造的集成电路,能够在特定功能上进行强化,具有更高的处理速度和更低的能耗。缺点是成本高,且由于定制化,可复制性一般,因此只有用量足够大时才能够分摊前期投入,降低成本。
1.2CPU广泛应用于服务器、工作站、个人计算机等
CPU可以应用在服务器、工作站、个人计算机(台式机、笔记本电脑)、移动终端和嵌入式设备等不同设备上,根据应用领域的不同,其架构、功能、性能、可靠性、能效比等技术指标也存在一定差异。
服务器处理器需长时间运行,数据处理能力最强、设计工艺最复杂、可靠性最高。服务器具有高速的数据处理能力、强大的I/O数据吞吐能力、良好的可扩展性,并需要长时间可靠运行,其CPU芯片在性能、可靠性、可扩展性和可维护性等方面要求较为苛刻。因此,服务器处理器是数据处理能力最强、设计工艺最复杂、可靠性最高的处理器。服务器的应用领域包括实时分析、5G应用、人工智能、机器学习、金融、大数据和云计算等领域。工作站主要为单用户提供比个人计算机更强大的性能。工作站是一种高端微型计算机,主要为单用户提供比个人计算机更强大的性能,尤其是在数据并行处理能力和图形处理能力等方面。工作站的典型应用领域包括科学和工程计算、软件开发、计算机辅助设计等。个人计算机主要满足个人需求,核心数量较少。个人计算机包括台式机和笔记本电脑两大类,主要用于满足个人的工作、学习、娱乐需求,以及企业员工的办公需求。个人计算机处理器核心数量较少,具有较少I/O。
移动终端具有低功耗、轻量化等特点,