原标题:前NASA项目的超算大拿要做FPGA性能的颠覆者
撰文 | 四月
他们自诩为“搭积木的人”——“FPGA是乐高积木,用最少的积木搭建出整个高楼大厦——这就是我们的能力。”
在大多数芯片从业者看来,因为批量开发难度大和成本过高,FPGA一直作为“技术验证者”的配角存在。但雪湖团队试图打破这一观念,他们希望凭借多年的开发经验积累和自研开发工具将FPGA芯片推向人工智能舞台的中央。
“我们不是一家卖Know-how、卖算法的公司,甚至可以说我们不是一家AI芯片公司。我们把自己定义成一家异构计算公司”——这是张强为雪湖写下的注脚。
6月底的一个夜晚,北京颐和园被灯光装点得美轮美奂。这座千年园林里正在上演一场充满科技感的发布会,美图手机宣布FPGA加速神经网络计算项目正式落地,同时预示着张强团队和美图影像实验室MTlab的合作项目正式投入运营。这是公司创立10个月以来的首个落地项目,它将为美图的最新款手机带来30倍的运算速度提升。
在此之前,美图一直在积极寻觅云计算中心的加速方案。“对于大部分以图片和视频为主的应用公司而言,云计算的核心诉求包括两个,一是希望项目部署越快落地越好;二是不局限用芯片方案,但要求性价比最高。”雪湖科技创始人兼CEO张强说道。
在这两个核心诉求之外,就美图云平台而言,基本门槛是数据中心能够响应每天高达2.1亿张的照片处理需求,并且保证毫秒级低延时完成处理任务。
在美图考察的项目中,许多团队都无法满足快速部署的第一要求,“最少平均要一年时间”,这在竞争激烈、迭代快速的手机行业显然无法接受。此外,面对如此大规模的计算需求,采用高规格的GPU方案是常规思路,但与之对应的高昂费用又缺少性价比。
这并非一件易事,但对于急需向市场和资本证明实力的雪湖团队而言——却是一次不成功便成仁的机遇。
雪湖科技聚焦于提供以FPGA为主的异构计算解决方案,技术优势体现在的异构计算开发移植、算法重构与优化、架构优化等方面。基于雪湖自研的FPGA开发框架Ptero Tool,能够让AI算法类项目的开发效率提升3倍,芯片资源利用率提升至98%,对比GPU的云端服务器实现30倍的性价比提升。
“投资人很少听说过这类项目,指标又那么夸张,所以都认为不可能做得到”,雪湖团队早期在向投资人介绍项目时碰了一鼻子灰,“我们索性就不跟投资人聊,就埋头埋头干,先把东西做出来。”2017年初,业界普遍认为ASIC架构才是AI芯片的主流,大多数FPAG项目在前期评估阶段就被否认商业价值。
“这还是传统观念,我们会用20多年积累的异构技术体系打破这个观念。”张强表示,异构计算的特殊之处在于,它是非冯诺依曼架构,但传统软件行业都是建立在冯氏架构之上。所以切换到异构计算之后很多人觉得不适应,FPGA基本上颠覆了大部分人对于芯片的认知。
基于ZYNQ 7020的CNN加速模块
经过4个月的奋战,张强团队按照美图设定的设计需求与芯片规格完成了算法移植。“Demo演示的时候,他们(美图)都感到很意外,”张强回忆起当时的场景,在一颗10美金的ZYNQ 7020芯片上运行复杂的CNN算法即使是现在也没人敢尝试。
这次“小考”不仅证明了雪湖团队的技术可靠性,同时为其争取到了重要的“启动燃料”——次日,美图就向雪湖发送了投资协议。今年1月,雪湖科技正式完成天使轮融资。
除了云计算中心加速和私有云搭建方案,雪湖目前还在大力投入自动驾驶芯片市场。“FPGA芯片在车载领域应用将会是一个主流,我们发现2018年开始从ADAS到L3/L4自动驾驶都开始选择FPGA作为主要的运算加速平台。”张强透露,团队正在与国内一家自动驾驶团队合作开发基于端侧的L3自动驾驶感知层方案,预计明年初将落地。
FPGA信徒
FPGA(FieldProgrammable Gate Array),又称可编程式门阵列,1985年由赛灵思(xilinx)创始人之一Ross Freeman发明。“可重构的计算”是FPGA相比其他架构芯片最为鲜明的特性。但同时对于开发者而言也提出了较高的软硬件开发门槛,经过34年的发展,FPGA的应用仍偏向小众。
赛灵思CEO Vitctor Peng曾表示,截止目前,赛灵思培养的全球开发者约1400人。 “国内大概在千人规模左右,而且集中在中兴、华为等通信公司以及部分科研院所”,雪湖科技联合创始人、COO王韵谈道,“真正用FPGA来做加速方案的寥寥无几”。
作为FPGA在国内的千人开发者之一,张强绝对算得上是一名虔诚的异构计算“信徒”。他前后经历两次创业,上海交大电子系毕业后便投身于异构计算的加速应用中,但由于市场环境等原因无疾而终,三年后张强再次重返异构计算的赛场,依旧无比坚定。
早年,张强曾以核心开发人员的身份参与了多个全球性的FPGA科研项目。“我们当时处在高性能计算/超算领域,和美国 NASA、美国国家癌症中心以及国内的科研院所都进行过合作”,张强谈道。
在这之中,最值得一提的便是“激光打蚊子”项目,该项目曾在2010年TED演讲中进行现场展示,并被《时代》杂志列为“年度十大发明”,和苹果iPad并列。
2009年,张强有幸参与了比尔盖斯基金旗下非洲的疟疾防御计划——以激光的方式击打疟疾的主要传播源蚊子。张强所在团队主要承担激光打蚊子的算力部分,对视觉算法进行加速。
当时的微软CTO Nathan Myhrvold评估以后,所有基于CPU、GPU的项目都没法达到指标。“项目要求500帧的摄像头,每帧同时追踪4096只蚊子,时延非常低。”张强所在团队在西雅图花了三个月时间终于FPGA方案攻克该难题。
张强团队还参与了全球首个基于FPGA的基因比对计算项目。他回忆,当时美国国家癌症研究院(NCI)的计算量多大30亿条碱基对的比对。
受NCI委托,张强所在团队将Smith-Waterman算法移植到Vertex2-6000 FPGA芯片上,以1/300最初的超算方案成本完成计算任务,并将最初需要6个月才能完成的运算时间缩短到了5天。时至今日,Smith-Waterman算法已经成为FPGA 异构计算平台计算性能的主流方案。
此外,张强还与NASA顶级研究员Olaf Storaasli博士一同参与了基于FPGA异构计算的有限元分析,通过该平台,NASA获取了超过常规计算平台60-100的运算速度提升。
90年代末21世纪初,高性能计算还是一个阳春白雪的行业,项目看起来都十分前沿和酷炫,但很难创造商业价值。张强回忆,“要从科研机构、政府机构手上项目并从中赚钱,一直到回款,整个过程非常艰难。”
另一方面,民用市场已经成为英特尔奔腾多核处理器的天下,计算能力是完全溢出的,满世界的声音都是——“没有必要买i7,买个i3、i5就够用了”。“在这种背景下,在民用市场上根本是找不到计算的需求。”张强谈道,“所以尽管案例都很有开创性,但项目仍然没法支撑下去。”
随后,张强便投身热闹的C端市场。在2014年,和朋友等人一起创办乐蜗VR,推出基于虚拟现实技术的头盔及软件应用。该公司在2016年年中被华人文化旗下的微鲸收购。在微鲸,张强遇到了同为半导体行业背景,此前在日本富士通担任亚太区市场总经理的王韵。
回顾过去十余年的同构计算发展路线,工艺与应用规模高速发展,核心架构却没有发生太大变化。与此同时,CPU发展所主要依赖的半导体工艺红利却在消失。“摩尔定律失效后CPU的发展路线将会平缓,算力将会出现缺口,需要GPU、FPGA、ASIC等异构芯片去填补。”基于同一个判断,张强和王韵开始了异构计算的创业征途,并找了曾经在超算领域一同打拼的伙伴。
雪湖科技核心团队,从左往右依次是创始人兼CEO 张强、COO 王韵、系统专家 赵小吾、算法专家 杨付收
张强认为,基于数十年的研发经验,雪湖团队对FPGA的理解更为深刻。“我们是非常早期一批就关注到FPGA应用的人,我们了解将算法本身固化到硬件电路将会对其执行效率带来的巨大潜力。并且我们通过早期的大量案例证明了这个观点。”
对于以ASIC为主的另一条AI芯片路线,张强认为ASIC芯片面临的巨大痛点在于摊销的成本太大。比如,7nm的研发高达投入3亿美金,至少要百万片的销量才能摊销掉高昂的成本。
基于王韵此前在富士通的工作经验和资源,雪湖团队首先从云端计算应用需求强烈的手机客户切入。 2017年年中的一次机会,雪湖团队向美图CTO张伟介绍了其基于FPGA的AI算法加速技术。张伟颇感兴趣,次日便从厦门飞到上海与雪湖团队当面交流。
为应对美图10亿级的在线用户的实时需求,美图近年来重点投入研发力量在神经网络计算加速领域,特别设立美图影像实验室MT Lab,在算法层面取得一定突破。但如何将算法以较低成本移植到芯片上是当时面临的一大难题。
在了解到美图的具体需求后,雪湖团队开始全力投入推进CNN加速接解决方案。与此同时,雪湖科技的公司设立和团队组建等工作也开始有条不紊地展开。今年6月,美图的FPGA加速神经网络计算项目正式落地。
雪湖科技FPGA服务器
该方案正在逐步替代美图云计算中心的昂贵且大功耗的GPU服务器。张强介绍,“英伟达的数据中心GPU平均在1万美金左右,算力约为35T;我们即将要升级的服务器1U算力能达到400T,成本只要3000美金。”
目前,雪湖团队规模约为20人左右,定位于为上下游赋能,上游对接FPGA芯片厂商,同时连接下游的应用厂商。年初,雪湖获得美图天使轮数百万投资,正在推进Pre-A轮融资阶段。
“颠覆”传统芯片参数
“算力只是一个间接指标,”张强说道。
在算力堪比“石油”燃料的AI时代,一款芯片的算力指标显然已经成为最核心的参考因素。算力,即单位时间内芯片所能提供浮点计算能力的峰值。理论上看,当芯片设计完,算力就已经固定,不会根据应用场景发生变化。
但在张强团队看来,一颗芯片在不同应用场景下提供的算力有所不同,比如计算密集型,I/O密集型的不同需求下数值差异很大。 “现在大部分AI芯片公司都在偷换概念,对外宣传的都是算力峰值”,王韵谈道,就像是眼睛一闭油门踩到底能跑出的最快速度,但是缺少实际参考价值。通常来说,由于实际部署下的各种原因,芯片远不能达到其计算能力的最高理论值。
对于雪湖团队而言,他们更看重芯片的资源利用率。对于一颗FPGA而言,在核心计算单元运行算法时,如果从启动一直到运算结束的每个使用周期都在不停的工作即芯片的理论值,相当于100%的工作状态,也就是说把该芯片所有的功力都发挥出来了。
“我们能将这个理论率提升到98%,换句话说,100个计算周期里只有两个周期在休息。”张强说道 “这颠覆了芯片行业里的一个标志性参数。除了雪湖,没有任何一家公司可以做到。”王韵形象地将描述为“完美地榨干芯片性能。”
“98%资源利用率”所能带来的实际价值是——“通常需要赛灵思最高端、售价超过1万美金的芯片才能实现复杂的算法。雪湖可以采用10到20元美金的中低端芯片实现同样算法。”张强表示,1万美金与20美金的核心指标差异就在其内部可利用的资源数目。
长久以来,开发难度大、开发周期长,开发者稀缺、培养周期长是横亘在FPGA发展和应用推广道路上的难题。“FPGA工程师的培养成本很高,要培养一名真正具备独立做FPGA开发的工程师通常需要五年的时间。”张强谈道。
为此,雪湖团队研发了一套私有的开发环境和框架PteroTool,以实现更简洁的芯片工具链条,抽象度更高的应用层。
“这是基于我们十几年的积累,里边包括了大量高效稳定、占用资源很少的库。”张强介绍,基于Ptero系统抽象层,能够将系统抽象出来,类似于芯片操作系统,以实现算法快速移植,可以从一颗芯片快速移植到另一颗FPGA芯片。“这套工具体系很容易上手。按照我们的经验,经过三个月培训,一个刚毕业的大学生就上手成为FPGA算法开发工程师。”
为了对开发工作进行更加细致地分工,雪湖对开发过程进行了系统化地分解。在雪湖的技术架构下,工程师不再需要同时掌握FPGA开发、写算法和代码等全链条工作,“每人掌握一个环节,通过多人合作,以实现更高效地开发。”
预 判
“我们目前集中私有云、公有云、车载三大块市场。模块市场优先级被调低了,因为目前AI在C端市场仍然缺少应用推动。”张强谈道。
在云计算中心市场,雪湖主要通过私有云GPU替代、FPGA公有云加速两条路径推动。对于图像与语音数据调用频繁的AI公司而言,相较于公有云数据可能面临的安全性问题,搭建一套高性价比的私有云方案正在成为核心诉求。
随着5G落地步伐的加速,张强认为,云上的计算需求和市场会会变得更加庞大。受到4G的传输速率和网络承受力限制,目前很多计算主要在手机端/在端测完成。但是5G来临之后,传输速率提升十倍以上,手机本地的计算能力会弱化,存储会变大;通信能力会变强。
在雪湖团队与OPPO、美图等主流手机厂商交流过程中,比较一致的观点认为,5G时代云端的数据中心计算需求,特别是人工智能运算需求将呈现井喷趋势。相应地,将AI芯片塞到手机的潮流可能弱化。
此外,正处于窗口期的汽车智能化也是雪湖现阶段押下重注的市场。“我们的优势在于技术方案能够更快地落地,以帮助车厂或者自动驾驶团队抢夺时间窗口”,张强认为,相比ASIC的AI芯片公司开发和流片通常需要一到两年时间,快速落地是雪湖当下最显著的优势。
此外,一个更为隐形的优势还在于,FPGA具备现成的车规级芯片可供选择,而无需等待遥遥无期的AI芯片通过车规级芯片认证。
目前,雪湖团队正在帮助一家自动驾驶公司实现前端的视觉数据识别与分析,以取代昂贵和高功耗的GPU服务器方案。张强表示,该自动驾驶公司近期再次提速研发节奏,“年初方案一旦能够落地,将成为开创性的自动驾驶解决方案。”