(报告出品方:中信证券)
报告缘起
人工智能(AI)指利用技术学习人、模拟人,乃至超越人类智能的综合学科,过去十年来,伴随技术理论、算力、应用场景等核心要素的不断进步完善,持续成为科技产业的创新焦点,以及资本市场的投资热点。年以来,大量AI相关的学术论文转化为实际落地的专利,技术上的创新快速推动了人工智能的商业化,并成为了资本市场追逐的热点。在人工智能的相关专利方面,年提交的专利数量是年的30倍以上,复合年增率为76.9%。中国的专利申请数已经占了世界半,并获得约6%的授权。
人工智能产业发展史:“三起两落”,从运算智能,逐步走向感知智能、认知智能。人工智能技术可以显著提升人类效率,在图像识别、语音识别等领域快速完成识别和复杂运算。此外,面对开放性问题,人工智能技术亦可通过穷举计算,找到人类预料之外的规律和关联。自年“人工智能”概念理论首次被提出,AI产业技术发展主要经历如下发展阶段:
1)20世纪50年代~20世纪70年代:受制于算力性能、数据量等,更多停留在理论层面。年达特茅斯会议推动了全球第一次人工智能浪潮的出现,当时乐观的气氛弥漫着整个学界,在算法方面出现了很多世界级的发明,其中包括一种叫做增强学习的雏形,增强学习就是谷歌AlphaGo算法核心思想内容。而70年代初,AI遭遇了瓶颈:人们发现逻辑证明器、感知器、增强学习等只能做很简单、用途狭隘的任务,稍微超出范围就无法应对。当时的计算机有限的内存和处理速度不足以解决任何实际的AI问题。这些计算复杂度以指数程度增加,成为了不可能完成的计算任务。
2)20世纪80年代~20世纪90年代:专家系统是人工智能的第一次商业化尝试,高昂的硬件成本、有限的适用场景限制了市场的进一步向前发展。在80年代,专家系统AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。专家系统的能力来自于它们存储的专业知识,知识库系统和知识工程成为了80年代AI研究的主要方向。但是专家系统的实用性仅仅局限于某些特定情景,不久后人们对专家系统的狂热追捧转向巨大的失望。另一方面,年到年现代PC的出现,其费用远远低于专家系统所使用的Symbolics和Lisp等机器。相比于现代PC,专家系统被认为古老陈旧而非常难以维护。于是,政府经费开始下降,寒冬又一次来临。
3)年至今:逐步形成完整的产业链分工、协作体系。人工智能第三起的标志性事件发生在年3月,谷歌DeepMind研发的AlphaGo在围棋人机大战中击败韩国职业九段棋手李世石。随后,大众开始熟知人工智能,各个领域的热情都被调动起来。这次事件确立了以DNN神经网络算法为基础的统计分类深度学习模型,这类模型相比于过往更加泛化,通过不同的特征值提取可以适用于不同的应用场景中。同时,年-年移动互联网的普及也为深度学习算法带来了前所未有的数据养料。得益于数据量的上涨、运算力的提升和机器学习新算法的出现,人工智能开始大调整。人工智能的研究领域也在不断扩大,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。深度学习的发展,让人工智能进入新的发展高潮。
人工智能第三次浪潮带给我们一批能给商业化落地的场景,DNN算法的出色表现让语音识别与图像识别在安防、教育领域贡献了第一批成功的商业案例。而近年来基于神经网络算法之上的Transformer等算法的开发让NLP(自然语言处理)的商业化也提上了日程,有望在未来3-5年看到成熟的商业化场景。
伴随全球AI产业主要配套环节(芯片、软件框架、应用算法、数据积累)的逐步清晰、完善,以及部分简单应用场景(图像识别、语音合成、多轮会话、推荐系统等)的持续落地等,我们判断全球AI产业有望在经历前期徘徊之后,进入快速发展期,但作为一个极为复杂的学科和产业板块,一系列的技术、产业问题仍困扰着投资者。在本篇专题报告中,我们将尝试从理论技术、产业应用等维度,就当下AI产业发展的核心问题展开分析讨论,并在此基础上构建我们对全球AI产业的中期投资框架:1.当前AI产业面临的主要技术约束在哪里?如何实现AI模型通用性、逻辑可解释性之间的平衡?AI技术演进的速度、路径等如何影响下游的应用场景?2.基于现有技术发展水平、可能演进路径等,AI产业稳态的产业链组织形态、各产业环节(芯片、软件框架、平台算法、应用场景等)价值分配结构如何?3.中期维度,从市场空间、竞争格局等维度,AI哪些产业环节更具有吸引力,各环节的核心竞争力是什么,如何结合中长期时间线,形成完整的AI产业投资框架蓝图?
产业现状:逐步形成完整产业分工、协作体系,落地场景亦不断扩展
经历过去5~6年的发展,全球AI产业正逐步形成分工协作、完整的产业链结构,并开始在部分领域形成典型应用场景。基于广泛的产业共识,我们将AI产业链简化为如下环节:芯片、算力设施、AI框架、算法模型、应用场景等。在本部分内容中,我们将对上述环节的发展现状展开分析探讨。
AI芯片:从GPU到FPGA、ASIC等,性能不断提升
芯片是AI产业的制高点。本轮人工智能产业繁荣,缘于大幅提升的AI算力,使得深度学习和多层神经网络算法成为可能。人工智能在各个行业迅速渗透,数据随之海量增长,这导致算法模型极其复杂,处理对象异构,计算性能要求高。因此人工智能深度学习需要异常强大的并行处理能力,与CPU相比,AI芯片拥有更多逻辑运算单元(ALU)用于数据处理,适合对密集型数据进行并行处理,主要类型包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。从使用场景来看,相关硬件包括:云侧推理芯片、云侧测试芯片、终端处理芯片、IP核心等。在云端的“训练”或“学习”环节,英伟达GPU具备较强竞争优势,谷歌TPU亦在积极拓展市场和应用。在终端的“推理”应用领域FPGA和ASIC可能具备优势。美国在GPU和FPGA领域具有较强优势,拥有英伟达、赛灵思、AMD等优势企业,谷歌、亚马逊亦在积极开发AI芯片。
芯片类型:从GPU起步,正逐步扩展至FPGA、ASIC等领域。目前AI芯片主要用于语音识别、自然语言处理、图像处理等大量使用AI算法的领域,通过芯片加速提高算法效率。AI芯片的主要任务是矩阵或向量的乘法、加法,然后配合一些除法、指数等算法。AI算法在图像识别等领域,常用的是CNN卷积网络,一个成熟的AI算法,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。年以来,GPU在卷积神经网络方面的良好表现,以及大量的图像识别计算机视觉模型的部署,让其成为了AI推理芯片的主要解决方案。随着人工智能模型的复杂度加剧,FPGA、ASIC等灵活性较高、单位功耗较低的芯片种类也加入到了竞争之中。
部署场景:从数据中心向边缘扩展。在高性能计算市场,借助AI芯片的并行运算能力实现对复杂问题的求解是目前的主流方案。据Tractica数据显示,年全球AIHPC市场规模约13.6亿美元,预计到年市场规模达.9亿美元,7年CAGR为35.1%。AIHPC市场规模占比由年的13.2%提高至年的35.5%。同时Tractica数据显示,年全球AI芯片市场规模为64亿美元,预计到年市场规模达亿美元,市场空间增长近10倍。
参与厂商:继欧美芯片厂商之后,国产AI芯片厂商亦快速崛起。近两年内,国内涌现了大量自研的芯片类公司,以自研GPU的摩尔线程、自研自动驾驶芯片的寒武纪等为代表。摩尔线程于年3月发布了MUSA统一系统架构及第一代芯片“苏堤”,摩尔线程的新架构支持英伟达的cuda架构。根据IDC数据,在年上半年中国人工智能芯片中,GPU一直是市场首选,占有90%以上的市场份额,但随其他芯片的稳步发展,预计到年GPU占比将逐步降低至80%。
算力设施:借助云计算、自建等方式,算力规模、单位成本等指标不断改善
过去算力发展有效缓解了人工智能的发展瓶颈。人工智能作为一个年代久远的概念,过去的发展一直受限于算力不足,其算力需求的主要来源于两个方面:1)人工智能最大挑战之一是识别度与准确度不高,而要提高准确度就需要提高模型的规模和精确度,这就需要更强的算力支撑。2)随着人工智能的应用场景逐渐落地,图像、语音、机器视觉和游戏等领域的数据呈现爆发性增长,也对算力提出了更高的要求,使得计算技术进入新一轮高速创新期。而过去十几年算力的发展有效缓解了人工智能的发展瓶颈,未来智能计算将呈现出需求更大、性能要求更高、需求随时随地且多样化的特点。
由于接近物理极限,算力增长的摩尔定律逐步失效,算力行业正处于多要素综合创新阶段。过去算力供应提升主要通过工艺制程微缩,即在同一芯片内增加晶体管堆叠的数量来提高计算性能。但随着工艺制程不断逼近物理极限,成本不断提高,使得摩尔定律逐渐失效,算力产业进入后摩尔时代,算力供应需要通过多要素综合创新提高。当前算力供给有四个层面:单芯片算力、整机算力、数据中心算力和网络化算力,分别通过不同技术进行持续演进升级,以满足智能时代多样化算力的供给需求。此外,通过软硬件系统的深度融合与算法优化提升计算系统整体性能,也是算力产业演进的重要方向。
算力规模:根据中国信通院年发布的《中国算力发展指数白皮书》,年全球算力总规模依旧保持增长态势,总规模达EFlops,同比增长39%,其中基础算力规模EFlops、智能算力规模EFlops、超算算力规模9EFlops,智能算力占比有所提高。我国算力发展节奏与全球相似,年我国算力总规模达到EFlops,占全球算力规模的39%,实现55%的高位增长,并实现连续三年增速保持40%以上。
算力结构:我国与全球发展情况相似,智能算力增长迅速,占比从年的3%提升至年的41%。而基础算力占比由年的95%下降至年的57%,在下游需求驱动下,以智能计算中心为代表的人工智能算力基础设施发展迅猛。
截至年底,我国在用数据中心机架总规模达到约余万架(标准机架),近5年年均增速超过30%,随着数字经济的发展,数据中心需求量还将持续上升。商汤Ai计算中心是国内厂商自建算力中心的代表之一,这是由商汤科技打造的一个开放、大规模、低碳、节能的先进计算基础设施,该项目于年7月开工建设。作为SenseCore商汤AI大装置计算基础设施的重要组成部分,AIDC一期工程的设计算力为每秒Petaflops,是亚洲最大的超算中心之一。
数据存储:非关系型数据库以及用于储存、治理非结构数据的数据湖迎来需求爆发。近年来全球数据量呈现爆发式增长,据IDC统计,年全球产生的数据量为41ZB,过去十年的CAGR接近50%,预计到年全球数据量或高达ZB,-年仍将维持近30%的复合增速,其中超过80%的数据都将是处理难度较大的文本、图像、音视频等非结构化数据。数据量(尤其是非结构化数据)的激增使得关系型数据库的弱点愈加凸显,面对几何指数增长的数据,传统为结构型数据设计的关系型数据库纵向叠加的数据延展模式难以满足。非关系型数据库以及用于储存、治理非结构数据的数据湖,因其灵活性以及易延展性逐渐占据市场中越来越多的份额。根据IDC,年全球Nosql数据库的市场规模为56亿美元,预计年将增长至亿美元,-年复合增速为27.6%。同时,根据IDC,年全球数据湖市场规模为62亿美元,年市场规模增速为34.4%。
企业数据向云端迁移为高确定性趋势。根据IDC数据,存储在公有云中数据占比将在年追平传统数据中心,且占比仍将不断提升;而根据Alphawise的调研数据,到年,欧美企业IT部署中43%将为云,较目前的23%提升近一倍。而在应用层面,根据IDC数据,预计到年,全球云原生应用数将达到5亿个,相较年0.7亿的水平增加逾6倍,-年复合增速为62.3%。云原生下的应用开发将成为未来开发的主流环境,这对数据库本身的灵活性和延展性提出了更多要求。在企业数据库部署模式上,数据库向云端迁移将成未来的主要趋势。
AI框架:相对趋于成熟,少数巨头主导
Tensorflow(产业界)、PyTorch(学术界)逐步实现主导。谷歌推出的Tensorflow为主流与其他开源模块如Keras(Tensorflow2集成了Keras模块)、Facebook开源的PyTorch等一起构成了目前AI学习的主流框架。GoogleBrain自年成立起开展了面向科学研究和谷歌产品开发的大规模深度学习应用研究,其早期工作即是TensorFlow的前身DistBelief。DistBelief在谷歌和Alphabet旗下其他公司的产品开发中被改进和广泛使用。年11月,在DistBelief的基础上,谷歌大脑完成了对“第二代机器学习系统”TensorFlow的开发并对代码开源。相比于前作,TensorFlow在性能上有显著改进、构架灵活性和可移植性也得到增强。Tensorflow与Pytorch虽然本身是开源模块,但因为深度学习框架庞大的模型与复杂度导致其修改与更新基本完全是由谷歌完成,从而谷歌与Facebook也通过对Tensorflow与PyTorch的更新方向直接主导了产业界对人工智能的开发模式。
Microsoft在年以10亿美元注资OpenAI,获得GPT-3语言模型的独家许可。GPT-3是目前在自然语言生成中最为成功的应用,不仅可以用于写“论文”,也可以应用于“自动生成代码”,自今年7月发布后,也被业界视为最强大的人工智能语言模型。而Facebook早在年创立了AI研究院,FAIR本身并没有像AlphaGo和GPT-3那样著名的模型和应用,但是它的团队已经在Facebook本身感兴趣的领域发表了学术论文,包括计算机视觉、自然语言处理和对话型AI等。年,谷歌有篇论文被NeurIPS(目前人工智能算法的最高期刊)接收并发表,Microsoft有篇,DeepMind有81篇,Facebook有78篇,IBM有36篇,而亚马逊只有35篇。(报告来源:未来智库)
算法模型:神经网络算法为主要理论基础
深度学习正在向深度神经网络过渡。机器学习是通过多层非线性的特征学习和分层特征提取,对图像、声音等数据进行预测的计算机算法。深度学习为一种进阶的机器学习,又称深度神经网络(DNN:DeepNeuralNetworks)。针对不同场景(信息)进行的训练和推断,建立不同的神经网络与训练方式,而训练即是通过海量数据推演,优化每个神经元的权重与传递方向的过程。而卷积神经网络,能考虑单一像素与周边环境变量,并简化数据提取数量,进一步提高神经网络算法的效率。
神经网络算法成为大数据处理核心。AI通过海量标签数据进行深度学习,优化神经网络与模型,并导入推理决策的应用环节。90年代是机器学习、神经网络算法快速崛起的时期,算法在算力支持下得到商用。90年代以后,AI技术的实际应用领域包括了数据挖掘、工业机器人、物流、语音识别、银行业软件、医疗诊断和搜索引擎等。相关算法的框架成为科技巨头的布局重点。
在过去五年,我们观察到以CNN与DNN为主的神经网络算法是近年来发展最快的机器学习算法,因其在计算机视觉、自然语言处理等领域中的优异表现,大幅加快了人工智能应用的落地速度,是计算机视觉、决策智能迅速迈向成熟的关键因素。从侧视图可以看出,在语音识别任务上,标准的DNN方法相较于传统的KNN、SVM与随机森林等方法都有着明显的优势。
训练成本上看,神经网络算法训练人工智能的成本明显降低。ImageNet是一个包含超过1万张图像的数据集,用于训练人工智能算法。根据斯坦福DAWNBench团队的测试,年训练一个现代的图像识别系统仅需约7.5美元,比年的美元下降了99%以上,这主要受益于算法设计的优化、算力成本的下降,以及大规模人工智能训练基础设施的进步。训练系统的速度越快,评估并用新数据更新系统的速度就越快,这将进一步加快ImageNet系统的训练速度,提高开发和部署人工智能系统的生产力。
训练时间分布上看,神经网络算法训练所需时间全面降低。通过分析每个时期的训练时间分布,发现在过去几年中,训练时间大大缩短,且训练时间的分布更加集中,这主要受益于加速器芯片的广泛使用。
在卷积神经网络的推动下,计算机视觉准确率测试成绩明显提升,正处于产业化阶段。计算机视觉准确率在过去的十年中取得了巨大的进步,这主要归功于机器学习技术的应用。Top-1准确度测试人工智能系统为图像分配正确标签的能力越强,那么其预测结果(在所有可能的标签中)与目标标签越相同。在有额外的训练数据(例如来自社交媒体的照片)的情况下,年1月在Top-1准确度测试上每10次尝试中会出现1次错误,而年12月每10次尝试中会出现4次错误。而另一项精确率测试Top-5会让计算机回答目标标签是否在分类器的前五个预测中,其准确率从年的85%提高到年的99%,超过了代表人类水平的成绩94.9%。
在神经网络算法发展的过程中,Transformer模型在过去五年里成为了主流,整合了过去各种零散的小模型。Transformer模型是谷歌在年推出的NLP经典模型(Bert就是用的Transformer)。
AI大模型化是过去两年内兴起的新潮流,自监督学习+预训练模型微调适配方案逐渐成为主流,AI模型走向大数据支撑下的泛化成为可能。传统的小模型用特定领域有标注的数据训练,通用性差,换到另外一个应用场景中往往不适用,需要重新训练。而AI大模型通常是在大规模无标注数据上进行训练,将大模型进行微调就可以满足多种应用任务的需要。以OpenAI、谷歌、微软、Facebook、NVIDIA等机构为代表,布局大规模智能模型已成为全球引领性趋势,并形成了GPT-3、SwitchTransformer等大参数量的基础模型。年底英伟达与微软联合开发的Megatron-LM拥有83亿条参数,而Facebook开发的Megatron拥有亿条参数。这些参数大多来自于reddit、wikipedia、新闻网站等,对大量数据存储及分析所需的数据湖等工具将会是下一步研发的焦点之一。
应用场景:逐步在安防、互联网、零售等领域实现落地
目前在应用端最成熟的技术是语音识别、图像识别等,围绕这些领域,国内、美国都有大量的企业上市,并形成一定的产业集群。在语音识别领域,比较成熟的上市企业包括科大讯飞与此前被微软以亿美元收购的Nuance。
智慧医疗:AI+医疗多应用于医疗辅助场景。在医疗健康领域的AI产品涉及智能问诊、病史采集、语音电子病历、医疗语音录入、医学影像诊断、智能随访、医疗云平台等多类应用场景。从医院就医流程来看,诊前产品多为语音助理产品,如导诊、病史采集等,诊中产品多为语音电子病例、影像辅助诊断,诊后产品以随访跟踪类为主。综合整个就诊流程中的不同产品,当前AI+医疗的主要应用领域仍以辅助场景为主,取代医生的体力及重复性劳动。AI+医疗的海外龙头企业是Nuance,公司50%的业务来自智能医疗解决方案,而病历等临床医疗文献转写方案是医疗业务的主要收入来源。
智慧城市:大城市病和新型城镇化给城市治理带来新挑战,刺激AI+城市治理的需求。大中型城市随着人口和机动车数量的增加,城市拥堵等问题比较突出。随着新型城镇化的推进,智慧城市将会成为中国城市的主要发展模式。而智慧城市涉及的AI+安防、AI+交通治理将会成为G端的主要落地方案。年杭州首次进行城市数据大脑改造,高峰拥堵指数下降至1.7以下。目前以阿里为代表的城市数据大脑已经进行了超过15亿元的投资,主要集中在智能安防、智能交通等领域。我国智慧城市产业规模持续扩大,前瞻产业研究院预计年可达25万亿元,年至年的年均复合增长率为55.27%。
城市交通是智慧城市落地的重点场景。从城市问题与落地的技术瓶颈来看,交通领域具有优先的落地价值。以城市大脑为中枢,连接摄像头、车辆标签、交通流量等数据,通过云端的分析和整合,从而实现对城市的精准分析、整体研判、协同指挥,缓解拥堵、停车困难、路线规划、事故处理、违章告发等首要交通问题。
AI+安防:基于图像识别等推动产业能力边界、商业模式极大延伸。传统安防设备将音视频材料简单记录后,需要大批量人工进行逐一甄别或实时监控。引入AI后,算法可以自动将人像及事故场景与预设标签比较,识别出特定人物及事故,充分盘活原有音视频及图像数据。AI+安防可用于市政治安管理,提升智能发现的事件数目,降低事件发生处理平均时长,对警、消、救等各类车辆进行联合指挥调度。也可以用于车站、机场等需要验证信息的特殊场景,减少人工成本及审核时间,提高效率。
智慧物流年市场规模高达亿元,智能仓储迎来千亿市场。物流行业成本居高不下及数字化转型的背景下,仓储物流及产品制造环节面临着自动化、数字化、智能化转型的迫切需求,以提升制造和流通效率。根据中国物流与采购联合会的数据,年中国智慧物流市场高达亿元,-年的年均复合增长率为21.61%。物联网、大数据、云计算、人工智能等新一代信息技术既促进了智慧物流行业的发展,又对智慧物流行业提出了更高的服务要求,智慧物流市场规模有望持续扩大。据GGII测算,年中国智能仓储市场规模近亿元,而前瞻研究院预计这一数字将在年达到亿以上。
新零售:人工智能将带来人力成本的缩减与运营效率的提升。AmazonGo为亚马逊提出的无人商店概念,无人商店于年1月22日在美国西雅图正式对外营运。AmazonGo结合了云计算和机器学习,应用拿了就走技术(JustWalkOutTechnology)和智能识别技术(AmazonRekognition)。店内的相机、感应监测器以及背后的机器算法会辨识消费者拿走的商品品项,并且在顾客走出店时将自动结账,是零售商业领域的全新变革。
云化的人工智能模块组件是各大互联网巨头目前在人工智能商业化的主要发力方向,将人工智能技术集成在公有云服务中进行出售。GoogleCloudPlatform的AI技术一直走在行业的最前沿,并致力于将先进的AI技术融入云计算服务中心。近年来,谷歌收购多家AI公司,并发布AI专用芯片TPU、云服务CloudAutoML等产品完善布局。目前谷歌的AI能力已经覆盖认知服务、机器学习、机器人、数据分析协作等领域。区别于部分云厂商在AI领域相对分散的产品,谷歌在AI产品的运营上更加完整和体系化,将垂直应用整合为AI基础组件,将Tensorflow与TPU运算整合为基础设施,形成了一个完整的AI平台服务。
百度是中国AI能力最强的公有云厂商,百度AI的核心战略是开放赋能。百度搭建以DuerOS、Apollo为代表的AI平台,开放生态,形成数据与场景的正向迭代。基于百度互联网搜索的数据基础,自然语言处理、知识图谱和用户画像技术逐步成熟。在平台以及生态层,百度云是很大的计算平台,开放给所有的合作伙伴,变成基础的支撑平台,上面有百度大脑的各种能力。同时还有一些垂直的解决方案,比如基于自然语言的人机交互的新一代操作系统,以及与智能驾驶相关的Apollo。整车厂商可以调用其中他们需要的能力,汽车电子厂商也可以调用他们需要的相应能力,共建整个平台和生态。
产业变化:AI大模型逐步成为主流,产业发展有望全面提速
最近几年来,AI产业的技术演进路线主要呈现如下特征:底层模块性能的不断提升,注重模型的泛化能力,从而帮助AI算法的通用性优化,并反哺数据收集。AI技术的持续发展依靠底层算法的突破,这同时需要以算力为核心的基础能力建设以及有大数据支撑进行知识和经验学习的环境。大模型在产业内的快速流行,大模型+小模型的运作模式,以及芯片、算力基础设施等底层环节能力的不断改善,以及由此带来的应用场景类别、场景深度的持续提升,并最终带来产业基础能力、应用场景之间的不断相互促进,并在正向循环逻辑下,驱动全球AI产业发展不断提速。
算法模型:大模型嵌套小模型成为主流
大模型带来较强的通用问题求解能力。当前大部分人工智能正处于“手工作坊式”,面对各类行业的下游应用,AI逐渐展现出碎片化、多样化的特点,模型通用性不高。为提高通用求解能力,大模型提供了一种可行方案,即“预训练大模型+下游任务微调”。该方案指从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,提高模型泛化能力。
大模型有望进一步突破现有模型结构的精度局限,结合嵌套小模型训练,进一步提升特定场景下的模型效率。过去十年中,模型精度提升主要依赖网络在结构上的变革,但随着神经网络结构设计技术逐渐成熟并趋于收敛,精度提升达到瓶颈,而大模型的应用有望突破这一瓶颈。以谷歌的视觉迁移模型BigTransfer,BiT为例,使用ILSVRC-(万张图片,个类别)和JFT-M(3亿张图片,个类别)两个数据集来训练ResNet50,精度分别是77%和79%,大模型的使用使得处于瓶颈的精度进一步提高。另外使用JFT-M训练ResNetx4,精度可以上升到87.5%,相比ILSVRC-+ResNet50结构提升了10.5%。
大模型+小模型:泛化大模型人工智能的推广并结合特定场景下的数据优化将成为中期人工智能产业商业化的关键。原先针对特定场景重新提取数据训练的模式,已经被实践证明难以盈利,重新训练模型的成本过高,而获得的模型泛用性低下,难以重复利用。而在芯片算力性能不断提高的大背景下,大模型嵌套小模型的尝试提供给了厂商另一个思路,通过分析海量数据获得泛用模型,再通过嵌套特定小模型的方式为不同场景进行优化,节省了大量成本。阿里云、华为云、腾讯云等公有云厂商都在积极开发自研的大模型平台,提升模型的通用型。
芯片厂商:软硬结合,推动Transformer等算法的硬件实现封装
以英伟达为代表的AI芯片巨头,在新一代芯片中针对产业中常用的AI模型,特别设计了新引擎以大幅提升计算能力。英伟达的Hopper架构引入了Transformer引擎,大幅加速了AI训练。Transformer引擎采用软件和自定义NVIDIAHopperTensorCore技术,该技术旨在加速训练基于常见AI模型构建模块(即Transformer)构建的模型。这些TensorCore能够应用FP8和FP16混合精度,以大幅加速Transformer模型的AI计算。采用FP8的TensorCore运算在吞吐量方面是16位运算的两倍。Transformer引擎利用定制的、经NVIDIA调优的启发式算法来解决上述挑战,该算法可在FP8与FP16计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。根据英伟达提供的数据,Hopper架构在训练Transformer模型时,效率可以达到安培模型的9倍。(报告来源:未来智库)
算力设施:云厂商参与度持续提升
在大模型技术趋势下,云厂商正在逐步成为算力市场中的核心玩家,在人工智能技术框架通过大模型往泛用化发展后,云厂商也能够借助PaaS能力把底层IaaS能力与PaaS结合,为市场提供通用性解决方案。我们看到随着大模型的出现,人工智能需要处理与分析的数据量日渐上升,同时这部分数据从过去的专业性数据集转化为通用型大数据。云计算巨头可以通过本身强大的PaaS能力与底层IaaS基础相结合,为人工智能厂商提供一站式的数据处理,这也帮助云计算巨头成为本轮人工智能浪潮的主要受益者之一。
目前AWS、Azure等国际主流云厂商与阿里云、腾讯云、华为云等国内头部云厂商都已开始在数据储存、数据处理等PaaS能力上重点发力。存储能力方面,NoSQL类型数据库与在数据种类日益繁杂的未来会涌现更多机会,如GoogleCloud就已经在对象类、传统的关系型数据库以及NoSQL类型数据库分散布局。而在数据处理方面,DataLake与DataWarehouse的重要性愈发凸显,云计算巨头通过完善这部分产品线,构建了一个完整的数据循环模式,并结合其底层的IaaS基础能力。完整的产品线与闭合的数据循环模式将是未来云计算巨头在AI中间层竞争的最大优势。
应用场景:从CV到NLP、推荐系统等,应用场景、技术深度等不断改善
目前商业化的典型应用场景包括语音识别与计算机视觉,但与此同时我们也注意到NLP、推荐系统等场景在技术的驱动下正在不断拓展。全球科技巨头近年来积极布局NLP以及推荐系统等应用场景化尝试,并寄希望于此开辟全新的商业化路径,这也意味着我们未来能在人工智能赛道上看到更多的商业化布局。
图像识别
图像识别的核心技术是计算机视觉。计算机视觉(ComputerVision,CV)是用机器替代人眼,对目标进行识别、跟踪和测量等,并处理为人眼观察或易于机器检测的图像的技术。技术上需要大量的图像数据对计算机进行训练,如人脸、动物图片、证件图片等,依靠AI芯片和深度学习算法进行归类判断,最终对输入图像进行识别。图像识别技术已经用于动态人脸识别、在线/离线活体检测、超大人像库实时检索、证件识别、行人检测、轨迹分析等领域,具体到2G和2G端可用于地产、安防、交通、无人驾驶、零售、商业等具体场景。
语音识别
依靠深度学习和芯片突破,语音识别的准确度不断提升。语音识别将人发出的语音词汇内容,转换为文字或指令,主要是分析句子、句法以及结构,以便将人类语言转换为计算机语言。以深度神经网络算法取代传统模型后,语音识别的单词错误率每年下降约18%,以谷歌、微软、亚马逊为代表的巨头已经开发出具备人类级别的语音识别系统。
自然语言处理
NLP是研究人机之间以人类语言进行交流的方法的过程,近两年来NLP相关的研究与应用场景尝试明显增多。由于底层算力的提高,以往算力无法支持的算法得以实现,尤其是深度学习方面,正在向深度神经网络过渡。计算机视觉(CV)层通过机器学习取得巨大突破,而目前这一方法正逐渐向自然语言处理(NLP:NaturalLanguageProcessing)延伸。可处理数据类型也从图像延伸至文本,使得计算机有处理人类自然语言的能力,并因此催生出搜索引擎优化、推荐算法等实际应用场景。NLP包括多方面步骤,基本由认知、理解、生成等部分。基于数据及知识图谱,计算机通过阅读(知识)自动获取信息,通过NLP可以将输入的语言变为有具体含义的符号,再根据使用者意图进行处理,重新编为人类语言输出。与语音识别