(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)
过去美国的硅谷借着晶体管、半导体站到世界科技的中心,不过,现在由人工智能(AI)发动的新一代半导体芯片大战,中国企业特别是创业公司,已经是不容忽视的角色了。
当AI成为众人追寻的新边疆后,各式各样的商机跟着显现,其中一个就是半导体,昨日在台积电举办的30周年大会上,科技大佬们的话题始终离不开人工智能,不过要让AI应用执行的又快又好,传统的CPU恐怕难以满足,而这恰恰给了新创公司一个大好的机会:要从根本上改变计算机的运作方式,就得开发更适合深度学习等算法的新芯片架构。
图丨在昨日举行的30周年庆论坛中,台积电邀集了苹果、英伟达、高通、ARM、博通、ADI和ASML等主要合作伙伴,一起畅谈半导体产业的下个10年
现在不仅硅谷已经重新兴起了一股新的“硅公司”诞生潮,将场景拉到中国,更是有过之而无不及。“在AI芯片的战场中,中国创业公司堪称是热闹非凡!”研调机构CBInsights相当生动的描绘这一个正在蓬勃发展的局面,芯片创业公司在今年的募资金额有望达到16亿美元,比起年的13亿美元、年的8.2亿美元增加不少。但在这之前,芯片创业公司被视为“有毒”,风投们生怕一碰就受伤,会有此巨大的转变就是他们从AI芯片看到了庞大的商机。
中国一直以来积极推动半导体自主化,现在看来,“中国芯”这个目标极有可能率先在AI领域实现。而有一家新创公司,让全球知名的IC设计公司联发科、Xilinx、以及三星愿意掏钱投资,甚至放话要挑战NVIDIA的TensorRT,这就是深鉴科技(DeePhiTech)。
今天下午,深鉴科技在北京召开新品发布会,首次展示了深鉴的一系列全新产品,包括基于深鉴DPU平台的一站式智能IPC解决方案、视频结构化方案,面向DPU平台的深度学习开发套件DNNDK等。
图丨深鉴科技新品发布会
同时,深鉴科技也正式公布完成A+轮融资。此次融资总额约万美元,由蚂蚁金服与三星风投领投、招商局创投与华创资本跟投。本轮融资一部分将继续用于安防和大数据领域的产品开发和市场销售,落地更多安防监控的终端产品和服务。
据深鉴科技CEO姚颂向DT君表示,蚂蚁金服的战略资源注入,会帮助深鉴进一步开拓包括金融在内的更多应用场景;与三星之间,则侧重于存储等方面的合作,为AI芯片打造以深度学习处理器为核心的智能化解决方案和高效的整体系统,以便多领域拓宽和产品落地,加速深鉴科技迈进商业化阶段。
图丨深鉴科技CEO姚颂
本轮融资跟投方之一、华创资本合伙人熊伟铭先生向DT君表示:“深鉴科技在稀疏计算领域的研究是世界领先的,他们在FPGA领域的口碑也得到了国际大厂的认可,而且从产品演进角度考虑更加容易走向ASIC应用,所以我们非常看好深鉴在人工智能领域的发展。”
凭借深度压缩算法在竞争中成功突围
在深度学习领域,过去一直都是由GPGPU架构领跑市场的发展,但如今FPGA和基于TPU架构的加速方案也不断冒出头,这些产品不约而同的具备可程序化的能力以及极佳的计算效能。然而,对AI产业而言,计算硬件最终效率都会因为彼此学习而走向一致,那么决定整体方案优劣的关键因素何在?答案就是软件环境了。
深鉴作为近两年最受瞩目的AI创业公司,发布了不少硬件计算架构,也打进了不少应用环节中,然而深鉴之所以被格外重视,并非仅靠这些硬件方案而已,其重点在于基于完全自主的深度压缩算法。
这个算法有多重要?要知道目前AI分成云端和终端,当然还有部分边缘计算,这些数据的收集,模型的建立、存储,到把模型传送到应用终端上,其间需要多少存储空间,以及消耗多少带宽,相较于计算硬件本身的固定支出,这些变动成本累积起来只会更庞大,且模型容量因为存在太多不必要的信息,传输过程会额外消耗不少时间,即便只是做个终端的简单AI模型更新,都会让消费者感到漫长无比。
所以深鉴的核心概念就是,通过压缩法把神经模型中的冗余部分去除,帮模型大幅瘦身,这样一来可以减轻对带宽的传输负担,二来降低模型存储的空间需求,对于现有的网络环境,以及云端服务设备,都可大幅减轻相关的营运与维持成本。
另外,深鉴也配合专利算法开发相关深度学习方案硬件,包含视觉辨识平台、语音识别平台,以及针对CNN计算的Aristotle平台,通过片上存储的技术,来存放压缩过后的模型,减少对内存的读取,不仅可大幅降低功耗,同时也能强化效能表现。
揭露最新进展
深鉴在北京时间10月24日下午举办的发表会上,公布了其在深度学习领域的最新进展,发表了多款包含图像识别以及语音识别的新方案。
图丨深鉴三大核心竞争力
图丨凭借深度压缩能力,深鉴可以把深度学习应用推广到更边缘的计算终端里
图丨深度压缩的特性
图丨DNNDK是国内首款针对深度学习开发环境的SDK
图丨人脸检测识别模块,可以让打造人脸识别相机更简单
图丨DP--F16则是针对性能需求较高的大批量人脸识别计算方案
图丨DP--O16则是作为较”通用”的视频结构化分析计算方案
图丨全新的CNN处理Aristotle平台
图丨语音识别加速方案,目前已经在AWSworkplace上线
为了应对深度学习所针对的各种越来越复杂的数据类型和量级,各家厂商的深度学习计算硬件在本身计算能力的强化之余,重点几乎都摆在系统本身的带宽改善上,比如说使用的内存从DDR3升级到DDR4,而且从双通道增加到更多通道,亦或者是在计算芯片上集成了HBM内存。
当然,这种寻常硬件发展思维下的做法本无可厚非,然而,这么一来不但成本增加,二来功耗也变得更难看,且更重要的是,很多时候瓶颈不是在系统计算核心的部分,而是来自于数据传输的过程,也就是说,这些硬件厂的作法并没有对症下药,反而在某种程度上加重了病情。
例如,提供FPGA边缘计算服务的企业常会面临几个挑战,不论是在学习的过程,或者是学习后的模型建立,很多时候都卡在带宽上,这会造成两个结果,一个就是在学习的过程中,系统来不及把数据喂给计算硬件,导致计算硬件空转。第二个是学习完建立的模型非常庞大,不仅提高了存储的成本,也增加系统传输的负担,模型很难被下放到一般储存空间有限的智能终端硬件,限制了应用可能性。
也正因为此,“未来深度学习的应用成败关键,就在于有没有好的压缩算法可以降低带宽的负担。”深鉴科技CEO姚颂一语道破。
压缩算法带来效能提升,比换硬件架构更划算
图丨在不同网络下的性能比较
如果可以把模型直接压缩到几十分之一,权重数量减少到三分之一,那就意味着你可以减轻带宽负载到数十分之一,并同时把性能提高到3倍。目前市场上的AI计算硬件,鲜少有企业敢宣称自家相邻两代的计算硬件性能在同等芯片/计算密度下,可以有3倍性能提升。但是,深鉴单纯借由压缩算法的导入,就可大幅改善现有计算硬件的效率,这对于业界而言,带来的影响是革命性的,因此深鉴甚至被誉为是中国版英伟达。
图丨物体识别的效率并不因为压缩的过程而有明显减损,但可省下九成的模型存储空间
英伟达开创了深度学习时代,而深鉴则是革新了深度学习的模型建立逻辑,狠狠踩破了传统计算硬件的发展思维。
这个算法倒底强在哪里?
这个算法是由深鉴科技的联合创始人韩松博士所发明,借由稀疏化来加速深度学习的过程,并且大幅为学习后的模型瘦身。其算法结构用上了剪枝(Pruning),量化(Quantization),权重共享(WeightsSharing)以及霍夫曼编码(HuffmanEncoding)等深度学习专用压缩技术。
图丨深鉴的压缩算法拥有不同的粒度设定,可针对不同规模的学习模型自适应调整出最佳设定
类神经网络就好像人类的大脑一样,每个神经元能连结其他神经元的数量有限——也就是说,当类神经网络在“思考”的时候,其实是包含了很多没有任何意义的冗杂信息,以及对结果判断没有影响的权重,而最简单的作法,就是为这些权重的绝对值设立一个阈值,只要小于这个被预先定义的范围,我们就直接把相关数值舍弃,只保留绝对值较大权重对应的连接。
图丨通过DECENT神经网络压缩工具可在不损失算法精度的前提下,将网络模型的计算量和规模压缩几分之一到几十分之一
凭借这种压缩逻辑,最终产生的模型规模可获得大大的缩减,不仅改善带宽占用,同时也能强化后端平台使用此模型的AI应用执行效能。当然,韩松所发明的这套算法拥有专利,虽然业界要避开专利发展类似算法不是不可能,但难度非常高,且前面还有深鉴这堵高墙存在。
DNNDK直接对标英伟达的TensorRT
图丨深鉴的DNNDK借由更有效率且更弹性化的开发环境,解决开发者在产品开发上的问题
深鉴之所以被称为中国版英伟达的另一个原因,就是在深度学习的开发SDK方面,直接和英伟达才刚发布不久的TensorRT打擂台。
TensorRT作为探索GPU计算潜力的必备软件工具,不仅设计上简单易用,且能够将深度学习中的推理算法更好的发挥出来,作为英伟达布局深度学习的第二个阶段,那就是把GPGPU从单纯学习,增加推理计算应用,其重要性不言自明。
那么DNNDK又是怎么回事?这套SDK是深鉴针对自行发展的AI异构计算平台DPU(Deep-learningProcessorUnit)所推出,提供全自动的压缩与编译工具链等流程的支持,涵盖了神经网络推理(Inference)阶段从模型压缩、异构编程、编译到部署运行的全流程支持,帮助深度学习算法工程师和软件开发工程师轻松利用DPU的深度学习计算能力,实现AI计算负载的加速。
图丨DNNDK与自家DPU平台紧密结合,带给业界更高效,且一致性高的开发环境
举例来说,依靠DNNDK提供的轻量级C/C++APIs,开发一个ResNet50图像分类应用,大概只需要两百行左右的代码量,其中与DPU编程相关的代码只有五十行左右,大大减轻了程序开发者的工作负担。当然,最重要的压缩功能,DNNDK已经做到全自动化的地步,完全不需要人力介入。
目前,DNNDK已经支持了主流的Caffe框架神经网络模型,另外对TensorFlow和MXNet框架的支持很快也会在后续的改版补上。
吸引业内巨头三星、联发科等大咖投资
正因为深鉴的定位极为特殊,刚好又站在AI计算生态兴起的风口上,从创立之初就极受