和C++ API。与此同时,NovuMind自律修建了大型分布式深度自学训练平台NovuStar,可获取专业的人工智能训练模型,其“模型+芯片”的自定义简化全栈式解决方案,可将NovuTensor限于于从嵌入式到云端的各种应用于场景当中。今年11月,NovuMind被选为转入第19届EE Times Silicon 60榜单。
这份榜单被誉为全球新兴半导体企业的金榜,又被称作“全球最不受注目60家半导体公司”,其中有15家公司瞄准AI领域,相比2017年的6家快速增长了150%。这毫无疑问指出,AI的全球浪潮不但热度没波动,反而展现了市场与技术的发展趋势。
既然目前有这么多做到AI芯片的公司,NovuMind和其NovuTensor芯片究竟有何不同之处?(公众号:)就涉及问题,与NovuMind创始人兼任CEO吴韧博士展开了一次详谈。真为·异构计算,不回头寻常路“AI的关键能力实质上就那么几个,比如视觉、听力、感官其他信号的能力。
”吴韧在与我们的交流中首先具体了对AI计算出来的解读,“把其中一个能力放进一个解决方案中,只不过早已可以了,在通用性上只不过并没减少过于多,人脸识别、车辆辨识等应用于虽然看上去不一样,但对芯片来说只是换一个模型而已。”他认为,在末端应用于方面,做到平台不是准确的思路,NovuMind所执着的是最淋漓尽致的优化、最低的能耗比,而平台化就意味著性能的减少。在这种执着的抗拒下,NovuMind自由选择了一种与其他芯片厂商几乎作法有所不同的作法:抛弃传统的二维矩阵运算。
矩阵乘法是目前绝大多数AI加速器最重要的目标算法,但NovuMind指出,AI计算出来的关键点并非是矩阵,而是在于卷积,也就是三维张量的计算出来。如果为了全盘皆顾而不肯抛弃二维甚至一维的计算出来方式,就束缚了将算力性能逼向淋漓尽致的有可能。“术业有专攻,一些计算出来明明可以让CPU做到,为什么要闲置深度自学的计算能力?”NovuTensor芯片架构反对原生3*3张量计算出来,只处置三维的深度神经网络计算出来,可以最有效地在本地继续执行逐级计算出来。由于架构需要一次所取一个原始张量,只需取子张量,所以内存采访开销大大降低,能耗比也获得提高,在神经网络等人工智能涉及计算出来上的展现出远高于其他少见架构,还包括传统的GPU架构。
除特立独行的架构设计外,NovuTensor还独有了动态半精度浮点数计算出来,与标准半精度浮点数比起精度损失大于但能大大节省硬件支出。与传统混合计算出来相近,NovuMind也考虑到了人工智能计算出来对计算精度不存在一定的容忍度,因此在一些不关键的地方用于较低的精度也会对最后准确度导致损失。吴韧尤其讲解到,传统混合计算出来是部分计算出来用于整数计算出来、部分计算出来用于浮点计算出来的方式,整数计算出来和浮点计算出来一般来说是基于独立国家的计算出来单元,因此在展开浮点计算出来时,整数计算出来单元就闲置了。
这种闲置某种程度造成了芯片面积上的浪费,同时闲置的晶体管实质上也不存在静态漏电,因此对于功耗也有影响。“NovuTensor的动态半精度浮点数计算出来的优势在于,可以用同一套计算出来单元同时去做到有所不同精度的计算出来,是一种统一化的计算出来,因此从硬件和功耗效率来看效率更高。”2018年10月,NovuTensor芯片的设计取得美国专利。该专利充份表明了NovuMind在芯片设计领域的独有架构设计。
算力的暴力美学NovuTensor的主攻市场是边缘服务器/边缘强算力,可以通过获取嵌入式模组以及边缘计算出来盒的形式为自动驾驶、机器人、智能摄像头,以及有强算力市场需求的消费电子和智能家居(如AR/VR应用于等)等获取算力反对。这类边缘应用于场景一方面对于算力有很高拒绝,必须相似云端服务器的算力(10TOPS),另一方面对于处置延后和可靠性都有很高拒绝。目前市场上的主流解决方案还是GPU,然而天生的架构使其在较低延后应用于中的效率不低,在较低延后算力往往仅有能超过峰值算力的十分之一。
NovuTensor的独有架构在边缘计算出来等对于延后有严格要求的场景下有独有优势,了解到,在较低延后(batch4)的场景下测算,NovuTensor的半精度计算出来推理小说性能在ResNet-18能构建1000fps以上的帧亲率,该帧亲率与市场上最新款边缘计算出来GPU模组的半精度计算出来比起提高了2倍以上,即使是与GPU的INT8计算出来比起也有1.5倍的性能提高,而能耗比则提高了4倍(半精度)/3倍(INT8)。由于不少应用于必须用于深度较深的神经网络模型,NovuMind还训练了更加合适硬件加速的ResNet-70,其精度相似ResNet-101但硬件继续执行效率远高于ResNet-101。
NovuTensor继续执行半精度计算出来ResNet-70的帧亲率也可超过450fps,与GPU比起也是帧亲率超过了2倍(半精度)/1.5倍(INT8),能耗比则是提高了4倍(半精度)/3倍(INT8)。在这一代28nm NovuTensor芯片流片顺利之后,下一代芯片将需要利用架构优势通过设计递归转入更加多市场。据吴韧讲解,NovuMind对下一代芯片早已有了规划,16nm芯片的预期规格为26W功耗240Tops算力,能耗比约9Tops/W;7nm芯片则为0.15W功耗4Tops算力,能耗比约27Tops/W。
据报,能耗比的大幅度提高除了归功于更加先进设备的半导体工艺外,架构方面也对适当应用于做到了针对性的优化。240T的芯片主要针对服务器等对于算力有很高市场需求的场景,因此在内存采访、计算出来流水线等方面做到了适当优化,而4T的芯片主要面向超强低功耗市场,针对超强低功耗场景的算法做到了适当优化。大与小的切换NovuTensor目前的定位,是边缘末端计算出来视觉领域。
据理解,目前完全没顾及云计算大芯片和边缘计算出来小芯片的公司。我们对这种市场现象早已习以为常,但仍不免奇怪,设计小芯片和大芯片的技术侧重点和难题有那些有所不同?关于这一点,吴韧首先阐述,他所解读的边缘计算出来是指一系列由于延后、可靠性和安全性等市场需求,必需在数据末端以备已完成计算出来而无法传遍云端的应用于。这只不过不仅还包括终端(如手机、智能音箱)的小芯片,也还包括了无人驾驶、智能零售等领域的高算力大芯片。
不管是大芯片还是小芯片,在边缘计算出来方面,都拒绝在非常低的延后下做低的吞吐量。“就大芯片和小芯片的角度来看,技术差距并非不可逾越,更大的有所不同只不过在于商业模式。”他回应,小芯片由于对于成本脆弱,期望在整体系统中芯片数量越多越少,因此芯片一般来说不会制成SoC,包括很多个模块,AI只是其中的一个特性,因此最合理的商业模式是AI芯片公司给SoC厂商获取IP,由SoC厂商自行构建到SoC中去。
而大芯片市场由于对性能的市场需求多过对成本的注目,因此几乎可以拒绝接受独立国家的AI芯片。对于大芯片市场来说,出售芯片或芯片模组都是合理的商业模式。所以我们很少看见公司即买大芯片又买小芯片,因为更加合理的模型是买大芯片同时在小芯片市场获取IP许可服务。
吴韧向我们透漏,NovuTensor可以有多种形态,未来NovuMind可获取构建了多块NovuTensor芯片的加速卡,以符合数据中心服务器的算力市场需求。在移动通讯、物联网等对于功耗有更高拒绝的市场,NovuMind还获取“轻量版”的NovuTensor核心IP许可,从而为智能物联网获取人工智能计算出来加快。后记:芯片背后的物理世界仍然以来,笔者对于芯片计算出来的明确物理过程十分奇怪。
根据笔者的解读,芯片计算出来的本质,是把信息从无序变成有序,这是一个消耗能量的非自发性减半熵过程。在谈话的最后,笔者向吴韧博士质问了下面几个显得超纲的问题:芯片以显电阻电路形式浪费了多少能量,实际用作信息处理过程的有效地能量有多少?最后处置已完成的信息等价于多少能量,有多少能量在处理过程中萎缩丢弃了?芯片处置信息的能源利用率与大脑有多大差距,未来的神经拟态芯片又将如何?吴韧在与他身边的牛人辩论后迅速给与了恢复,详尽说明了芯片计算出来中的具体情况。
他首先回应,目前基于晶体管的计算出来实质上离信息熵减半的能量上限还很很远。理论上传输/计算出来1bit信息必须的能量是kTln2,在常温下是10^-21焦耳的数量级,而实际芯片晶体管中一次乘法计算出来(归一化到1bit)必须的能量大约是10^-14焦耳,比上限低了7个数量级;一次内存采访数据传输必须的能量归一化到1bit大约是10^-11焦耳,比上限低了10个数量级。这样来说,即使一次非常简单的乘法计算出来就能获得结果,目前必须用于的能量也比理论上可超过上限低了7~10个数量级,如果是比较复杂的算法的话,能量消耗相比理论上限不会高达更加多。
“特别是在是目前基于神经网络的人工智能,堪称以计算出来简单为主要特征(例如一个基本的ResNet-18必须的计算出来操作者次数约是1010),因此我们估算计算出来花费的能量大约比熵减必须的能量要低相似20个数量级。”对于Novumind所牵涉到的AI芯片领域,他也丝毫没避短,“从另一个角度来看,在整个计算出来体系中,内存采访所消耗的的能量约是计算出来的1000倍,这也是我们优化硬件架构期望把尽量多的数据回到芯片上以增加内存采访的原因。”总而言之,现在离信息熵减半的能耗上限还较远,人类的芯片技术还有相当大的变革空间,这是没什么车祸的。
随后,吴韧又说明了关于神经拟态芯片的问题。由于用于了非冯诺依曼架构,神经拟态芯片可以增加内存采访以提高能耗比,不过目前科学界对于人脑的工作机制还理解很少,神经拟态芯片还在较为可行性的阶段。目前简单神经拟态网络的训练依然十分艰难,不能做到一些比较简单的任务。
“预期在未来5~10年里,传统AI芯片和神经拟态芯片将是一个有序关系,神经拟态芯片可以在超强低功耗终端里构建比较简单、必须快速反应的计算出来处置,而简单一些的计算出来还是不会放在传统AI芯片里去做到。”吴韧最后总结道。
原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:c7娱乐游戏-www.shangchengtao.com