(报告出品方/分析师:天风证券唐海清王奕红)
1服务器构成及市场情况
服务器整体市场情况
服务器构成:主要硬件包括处理器、内存、芯片组、I/O(RAID卡、网卡、HBA卡)、硬盘、机箱(电源、风扇)。以一台普通的服务器生产成本为例,CPU及芯片组大致占比50%左右,内存大致占比15%左右,外部存储大致占比10%左右,其他硬件占比25%左右。
服务器的逻辑架构和普通计算机类似。但是由于需要提供高性能计算,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
逻辑架构中,最重要的部分是CPU和内存。CPU对数据进行逻辑运算,内存进行数据存储管理。
服务器的固件主要包括BIOS或UEFI、BMC、CMOS,OS包括32位和64位。
服务器市场规模持续增长。
根据Counterpoint的全球服务器销售跟踪报告,年,全球服务器出货量将同比增长6%,达到万台。收入将同比增长17%,达到亿美元。根据IDC、中商产业研究院,我国服务器市场规模由年的亿美元增长至年的.4亿美元,复合年均增长率达14.5%,预计年我国服务器市场规模将增至亿美元。
竞争格局:根据IDC发布的《年第四季度中国服务器市场跟踪报告Prelim》,浪潮份额国内领先,新华三次之,超聚变排行第三,中兴通讯进入前五。
2AIGC带来服务器变革
AIGC火热,产业生态形成
年12月,OpenAI的大型语言生成模型ChatGPT火热,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度。全球各大科技企业都在积极拥抱AIGC,不断推出相关技术、平台和应用。
生成算法、预训练模式、多模态等AI技术累计融合,催生了AIGC的大爆发。
目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构:①第一层为上游基础层,也就是由预训练模型为基础搭建的AIGC技术基础设施层。②第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。③第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。
模型参数量持续提升
GPT模型对比BERT模型、T5模型的参数量有明显提升。GPT-3是目前最大的知名语言模型之一,包含了亿(B)个参数。在GPT-3发布之前,最大的语言模型是微软的TuringNLG模型,大小为亿(17B)个参数。GPT-3的paper也很长,ELMO有15页,BERT有16页,GPT-2有24页,T5有53页,而GPT-3有72页。
训练数据量不断加大,对于算力资源需求提升。
回顾GPT的发展,GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT,是一种生成式的预训练模型,由OpenAI团队最早发布于年,GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。其中,GPT-1使用无监督预训练与有监督微调相结合的方式,GPT-2与GPT-3则都是纯无监督预训练的方式,GPT-3相比GPT-2的进化主要是数据量、参数量的数量级提升。
异构计算成为趋势
未来异构计算或成为主流
异构计算(HeterogeneousComputing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。让最适合的专用硬件去服务最适合的业务场景。
在CPU+GPU的异构计算架构中,GPU与CPU通过PCle总线连接协同工作,CPU所在位置称为主机端(host),而GPU所在位置称为设备端(device)。基于CPU+GPU的异构计算平台可以优势互补,CPU负责处理逻辑复杂的串行程序,而GPU重点处理数据密集型的并行计算程序,从而发挥最大功效。
越来越多的AI计算都采用异构计算来实现性能加速。
阿里第一代计算型GPU实例,年对外发布GN4,搭载NvidiaM40加速器.,在万兆网络下面向人工智能深度学习场景,相比同时代的CPU服务器性能有近7倍的提升。
为什么GPU适用于AI
未来异构计算或成为主流
?CPU适用于一系列广泛的工作负载,特别是那些对于延迟和单位内核性能要求较高的工作负载。作为强大的执行引擎,CPU将它数量相对较少的内核集中用于处理单个任务,并快速将其完成。这使它尤其适合用于处理从串行计算到数据库运行等类型的工作。
?GPU最初是作为专门用于加速特定3D渲染任务的ASIC开发而成的。随着时间的推移,这些功能固定的引擎变得更加可编程化、更加灵活。
尽管图形处理和当下视觉效果越来越真实的顶级游戏仍是GPU的主要功能,但同时,它也已经演化为用途更普遍的并行处理器,能够处理越来越多的应用程序。
3训练推理带来服务器增量需求
训练推理
训练和推理过程所处理的数据量不同。
在AI实现的过程中,训练(Training)和推理(Inference)是必不可少的,其中的区别在于:
训练过程:又称学习过程,是指通过大数据训练出一个复杂的神经网络模型,通过大量数据的训练确定网络中权重和偏置的值,使其能够适应特定的功能。
推理过程:又称判断过程,是指利用训练好的模型,使用新数据推理出各种结论。
简单理解,我们学习知识的过程类似于训练,为了掌握大量的知识,必须读大量的书、专心听老师讲解,课后还要做大量的习题巩固自己对知识的理解,并通过考试来验证学习的结果。
分数不同就是学习效果的差别,如果考试没通过则需要继续重新学习,不断提升对知识的掌握程度。
而推理,则是应用所学的知识进行判断,比如诊断病人时候应用所学习的医学知识进行判断,做“推理”从而判断出病因。
训练和推理过程所处理的数据量不同。
训练需要密集的计算,通过神经网络算出结果后,如果发现错误或未达到预期,这时这个错误会通过网络层反向传播回来,该网络需要尝试做出新的推测,在每一次尝试中,它都要调整大量的参数,还必须兼顾其它属性。
再次做出推测后再次校验,通过一次又一次循环往返,直到其得到“最优”的权重配置,达成预期的正确答案。如今,神经网络复杂度越来越高,一个网络的参数可以达到百万级以上,因此每一次调整都需要进行大量的计算。
吴恩达(曾在谷歌和百度任职)举例“训练一个百度的汉语语音识别模型不仅需要4TB的训练数据,而且在整个训练周期中还需要20exaflops(百亿亿次浮点运算)的算力”,训练是一个消耗巨量算力的怪兽。
推理是利用训练好的模型,使用新数据推理出各种结论,它是借助神经网络模型进行运算,利用输入的新数据“一次性”获得正确结论的过程,他不需要和训练一样需要循环往复的调整参数,因此对算力的需求也会低很多。
此外,训练和推理过程中,芯片的部署位置、准确度/精度要求、存储要求等都有所不同。
训练和推理所应用的GPU/服务器也有不同。
推理常用:NVIDIA?T4GPU为不同的云端工作负载提供加速,其中包括高性能计算、深度学习训练和推理、机器学习、数据分析和图形学。引入革命性的TuringTensorCore技术,使用多精度计算应对不同的工作负载。从FP32到FP16,再到INT8和INT4的精度,T4的性能比CPU高出40倍,实现了性能的重大突破。
训练:A和H。对于具有庞大数据表的超大型模型,A80GB可为每个节点提供高达1.3TB的统一显存,而且吞吐量比A40GB多高达3倍。在BERT等先进的对话式AI模型上,A可将推理吞吐量提升到高达CPU的倍。
推算ChatGPT带来的服务器需求增量
由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。
根据天翼智库,训练阶段的算力估算。
根据OpenAI在年发表的论文,训练阶段算力需求与模型参数数量、训练数据集规模等有关,且为两者乘积的6倍:训练阶段算力需求=6×模型参数数量×训练集规模。
GPT-3模型参数约亿个,预训练数据量为45TB,折合成训练集约为亿tokens。即训练阶段算力需求=6×1.75××3×=3.15×FLOPS=3.15×PFLOPS
依据谷歌论文,OpenAI公司训练GPT-3采用英伟达VGPU,有效算力比率为21.3%。GPT-3的实际算力需求应为1.48×PFLOPS(PFLOPS-day)。
假设应用A640GB服务器进行训练,该服务器AI算力性能为5PFLOPS,最大功率为6.5kw,则我们测算训练阶段需要服务器数量=训练阶段算力需求÷服务器AI算力性能=2.96×台(同时工作1秒),即台服务器工作1日。
推算ChatGPT带来的服务器需求增量
由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。
根据天翼智库,训练阶段的算力估算。
H性能更强,与上一代产品相比,H的综合技术创新可以将大型语言模型的速度提高30倍。根据Nvidia测试结果,H针对大型模型提供高达9倍的AI训练速度,超大模型的AI推理性能提升高达30倍。
在数据中心级部署HGPU可提供出色的性能,并使所有研究人员均能轻松使用新一代百亿亿次级(Exascale)高性能计算(HPC)和万亿参数的AI。
H还采用DPX指令,其性能比NVIDIAATensorCoreGPU高7倍,在动态编程算法(例如,用于DNA序列比对Smith-Waterman)上比仅使用传统双路CPU的服务器快40倍。
假设应用H服务器进行训练,该服务器AI算力性能为32PFLOPS,最大功率为10.2kw,则我们测算训练阶段需要服务器数量=训练阶段算力需求÷服务器AI算力性能=4.×台(同时工作1秒),即台服务器工作1日。
由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。
训练阶段的算力估算-敏感性分析。
根据天翼智库,GPT-3模型参数约亿个,预训练数据量为45TB,折合成训练集约为亿tokens。按照有效算力比率21.3%来计算,训练阶段实际算力需求为1.48×PFLOPS。
对AI服务器训练阶段需求进行敏感性分析,两个变化参数:①同时并行训练的大模型数量、②单个模型要求训练完成的时间。
按照A服务器5PFLOPs,H服务器32PFLOPs来进行计算。
若不同厂商需要训练10个大模型,1天内完成,则需要A服务器3台,需要H服务器台。
此外,若后续GPT模型参数迭代向上提升(GPT-4参数量可能对比GPT-3倍数级增长),则我们测算所需AI服务器数量进一步增长。
由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。
根据天翼智库,推理阶段的算力估算。
ChatGPT与用户对话时需进行模型的推理,消耗智能算力。根据前述OpenAI论文,推理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍:推理阶段算力需求=2×模型参数数量×训练及规模。
假设每轮对话产生tokens(约个单词)则每轮对话产生推理算力需求:2×1.75××=0.PFLOPS。
根据Similarweb的数据,OpenAI网站月度访问量从今年1月6.67亿次,持续快速上升,到3月单月访问次数已达到16亿次,换算成每日访问量约为每日万访问量,假设每次访问发生10轮对话,则我们测算每日对话产生推理算力需求=0.×5.3××10=9.×PFLOPS,假设有效算力比率按30%取定,则我们测算每日对话实际算力需求为3.09×PFLOPS。
假设应用搭载16片VGPU的英伟达DGX2服务器进行训练推理,该服务器算力性能为2PFLOPS,最大功率为10kw,则我们测算需要服务器数量为=1.×台(同时工作1秒),即台服务器工作1日。
由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。
推理阶段的算力估算-敏感性分析。
根据天翼智库,ChatGPT与用户对话时需进行模型的推理,消耗智能算力。根据前述OpenAI论文,推理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍:推理阶段算力需求=2×模型参数数量×训练及规模。
模型参数数量不变,每轮对话产生tokens数量的变化将影响推理阶段所需算力需求,随着未来智能语音、娱乐甚至B端等应用场景的增多,每轮对话产生tokens数可能发生变化,以此作敏感性分析。
此外,用户访问量预计将随着ChatGPT的持续火热和普及,访问数量持续增加。若后续ChatGPT普遍应用于日常生活工作,则日访问用户数将显著提升。
仍然假设每次访问发生10次对话不变。
假设有效算力比率按30%取定,应用搭载16片VGPU的英伟达DGX2服务器进行训练推理,该服务器算力性能为2PFLOPS。
4AI服务器市场有望迎来高速发展机遇
AI服务器市场规模预计将高速增长
AI服务器作为算力基础设备有望受益于算力需求持续增长
AI服务器作为算力基础设备,其需求有望受益于AI时代下对于算力不断提升的需求而快速增长。
根据TrendForce,截至年为止,预估搭载GPGPU(GeneralPurposeGPU)的AI服务器年出货量占整体服务器比重近1%,预估在ChatBot相关应用加持下,有望再度推动AI相关领域的发展,预估出货量年成长可达8%;~年复合成长率将达10.8%。
AI服务器是异构服务器,可以根据应用范围采用不同的组合方式,如CPU+GPU、CPU+TPU、CPU+其他加速卡等。IDC预计,中国AI服务器年的市场规模为57亿美元,同比增长61.6%,到年市场规模将增长到亿美元,CAGR为17.5%。
用户快速增长+模型持续迭代+应用场景的不断扩张或将使AI服务器需求超预期
ChatGPT用户数快速增加,上线仅5天,用户数便突破百万,上线两月后,ChatGPT月活用户数突破1亿,根据Similarweb统计,OPENAI网站用户访问量快速增长,我们预计未来用户数仍将快速提升,带来交互对话的产生,提升推理所需算力基础设施需求。
年OpenAl正式发布GPT(生成式预训练语言模型),可以生成文章、代码、机器翻译等,GPT是ChatGPT的前身,最终形成的ChatGPT是优化版本的对话语言模型。预计GPT-4模型的参数量仍将进一步增长,根据天翼智库,给GPT-3喂料的长度每次不能超过大约个字,现在GPT-4的“消化能力”提升了10倍以上。
带来AI应用生态的繁荣,未来有望涌现更多应用场景。
用户快速增长+模型持续迭代+应用场景的不断扩张或将使AI服务器需求超预期
据gpt3demo.