挑戰(zhàn)云端AI訓(xùn)練領(lǐng)域,中國芯「邃思」背后的故事 | 專訪燧原科技張亞林
2020年,人工智能應(yīng)用范圍繼續(xù)擴大,而算力作為承載人工智能應(yīng)用的驅(qū)動力,推動了整個人工智能產(chǎn)業(yè)的演進。AI 芯片為云、邊、端多方協(xié)同提供了必要的算力支持,自然成為國內(nèi)外工業(yè)界和學(xué)術(shù)界共同角逐的熱點。
AI 云端訓(xùn)練芯片設(shè)計難度大、行業(yè)壟斷程度高,能獨立完成設(shè)計、流片,并實現(xiàn)量產(chǎn)和落地商業(yè)化的國產(chǎn)芯片企業(yè)屈指可數(shù)。燧原科技就是其中一家。
10月28日,燧原科技專為人工智能應(yīng)用開發(fā)的云端訓(xùn)練加速芯片“邃思”(DTU, Deep Thinking Unit),獲評由中國電子信息產(chǎn)業(yè)發(fā)展研究院評選的“中國芯”年度重大創(chuàng)新突破產(chǎn)品獎。這一獎項面向“有重大技術(shù)創(chuàng)新、填補國內(nèi)技術(shù)或市場空白,對完善自主供應(yīng)鏈具有較大貢獻且產(chǎn)生較顯著經(jīng)濟社會效益的單款芯片產(chǎn)品”,邃思芯片是僅有的四款獲獎產(chǎn)品之一。
邃思芯片趕上了行業(yè)商業(yè)化價值爆發(fā)的關(guān)鍵時期。據(jù)市場研究機構(gòu)Tractica預(yù)測,全球 AI 芯片市場規(guī)模將由 2018 年的 51 億美元增長到 2025 年的 726 億美元,CAGR 將達 46.14%。據(jù) IDC 預(yù)計,到 2025 年,中國將擁有全球數(shù)據(jù)量的 27.8%。隨著數(shù)據(jù)量的爆發(fā)式增長,人工智能應(yīng)用場景越來越豐富,對于算力的巨大需求讓中國 IC產(chǎn)業(yè)面臨嚴(yán)峻的挑戰(zhàn),但也蘊含了極大的機遇。
今年,國務(wù)院也發(fā)布《新時期促進集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》,從財稅、投融資、研究、人才、知識產(chǎn)權(quán)、市場應(yīng)用和國際合作等組合措施,重點支持集成電路企業(yè)及其相關(guān)產(chǎn)業(yè)鏈的發(fā)展。
中國芯片市場需求旺盛,但國產(chǎn)品牌要撬動巨頭的壟斷局面并不容易。艾瑞咨詢發(fā)布的2019年《AI芯片行業(yè)研究報告》指出,目前AI芯片行業(yè)接近Gartner技術(shù)曲線泡沫頂端,只有通過市場檢驗和篩選的優(yōu)質(zhì)團隊才能夠繼續(xù)獲得產(chǎn)業(yè)、政策和資本的青睞與支持。
在這樣的背景下,燧原科技是如何快速完成自主設(shè)計、流片、量產(chǎn)?又是如何在行業(yè)高度壟斷的環(huán)境下推進商業(yè)化?帶著這些問題,我們采訪了燧原科技創(chuàng)始人兼COO張亞林。
以下為36氪與張亞林的訪談內(nèi)容整理。
18個月里一次性流片成功,設(shè)計與量產(chǎn)均自主完成
獲得了“中國芯”年度重大創(chuàng)新突破產(chǎn)品獎的邃思芯片,從架構(gòu)設(shè)計、產(chǎn)品設(shè)計到軟硬件開發(fā)、流片,甚至到量產(chǎn)的所有環(huán)節(jié),全部是由燧原科技團隊獨立完成的。
作為一家以高端人工智能訓(xùn)練產(chǎn)品切入數(shù)據(jù)中心市場的初創(chuàng)公司,燧原科技僅經(jīng)歷 18 個月的高強度開發(fā),就于 2019 年 12 月發(fā)布了“邃思”人工智能訓(xùn)練芯片和基于“邃思”芯片的人工智能訓(xùn)練加速卡“云燧 T10”。
Q:AI訓(xùn)練芯片“邃思”能在18個月里一次性流片成功,背后主要的原因是什么?
張亞林認(rèn)為主要原因有三個?!暗谝?,我們設(shè)定了‘高舉高打’的目標(biāo)和踏實聚焦的執(zhí)行計劃;第二,我們組建了非常優(yōu)秀的研發(fā)團隊,并得到了業(yè)內(nèi)眾多戰(zhàn)略伙伴的大力支持;第三,我們有一套系統(tǒng)化的項目管理制度,保證項目的每一個里程碑都可以順利達到?!?/p>
張亞林認(rèn)為,正是“做大芯片,拼硬科技”的初心,在創(chuàng)業(yè)之初吸引了志同道合的伙伴,迅速組建了團隊。在開發(fā)第一個芯片時,全公司只有150人左右。“從產(chǎn)品定義、架構(gòu)設(shè)計,到芯片的研發(fā)、流片再到后續(xù)的產(chǎn)品測試驗證、量產(chǎn)等等,這150人組成了一個全鏈路的團隊?!睆垇喠终f。
燧原科技的團隊成員基本集中在上海張江和北京中關(guān)村——兩個中國歷史最悠久的集成電路研發(fā)中心。所有員工的平均工作年限達到 10 年,很多工程師甚至有超過15年的研發(fā)經(jīng)驗?!八麄冎械慕^大多數(shù)人來自于業(yè)內(nèi)知名的半導(dǎo)體公司和軟件、互聯(lián)網(wǎng)企業(yè)?!睆垇喠终f。
Q:在整個研發(fā)過程之中,最困難的是哪個環(huán)節(jié)?
“我認(rèn)為最難的部分有兩個——一頭一尾?!睆垇喠终f。
他回憶,2018 年 4 月,燧原科技啟動邃思芯片項目時,全公司只有 3 個人,“連電腦、開發(fā)環(huán)境都要從頭準(zhǔn)備”。從產(chǎn)品定義、團隊招募,到與產(chǎn)業(yè)鏈上下游伙伴合作,直至 2019 年 5 月成功流片。
“尾”指的是量產(chǎn)環(huán)節(jié)。用張亞林的話來說,“從前期設(shè)計到成功完成流片,其實也只是走了整條路的一半?!?/p>
實際上,從芯片回到實驗室里點亮,再到量產(chǎn),還需要將近一年的時間。在這一年的時間里面,有很多困難要攻克,比如芯片的良率、散熱、穩(wěn)定性、可靠性、以及成本的控制,性能的優(yōu)化等等,這些問題涉及到很多的核心技術(shù)。
“通常,如果你沒有參與過大規(guī)模量產(chǎn)大芯片,你是不會掌握這種核心技術(shù)的?!睆垇喠终f?!拔覀儽容^幸運的是,建立了一支完整建制的產(chǎn)品設(shè)計和量產(chǎn)團隊。很多團隊成員擁有大芯片大規(guī)模量產(chǎn)的經(jīng)驗,所以我們才能順利完成整個流程。”
Q:目前芯片的產(chǎn)能情況如何?如何控制成本?
據(jù)張亞林介紹,在打通了量產(chǎn)流程后,燧原科技在芯片產(chǎn)能上發(fā)揮穩(wěn)定。
“大芯片的良率和散熱穩(wěn)定性是很有挑戰(zhàn)的。我們在量產(chǎn)過程中跟GlobalFoundry和日月光進行了非常緊密的合作,目前我們的良率已經(jīng)完全符合了GlobalFoundry關(guān)于良率的指引?!睆垇喠终f。
同時,燧原科技通過用驗證方法學(xué)和驗證覆蓋率來確保芯片設(shè)計質(zhì)量和制造質(zhì)量,并通過軟硬件聯(lián)合性能以實現(xiàn)端到端的性能調(diào)優(yōu),保證了產(chǎn)品質(zhì)量。
“今年我們做了提前備貨,同時優(yōu)化供應(yīng)鏈,所以在整個供應(yīng)鏈上供貨充分。又因為我們的量產(chǎn)環(huán)節(jié)沒有外包,因此成本的優(yōu)化和控制權(quán)全部掌握在自己團隊的手里。”張亞林說。
既有高算力,又有靈活性,“高性價比”的國產(chǎn)芯片
2020年,AI芯片市場理性回歸,投資人開始更多地關(guān)注算力和功效之外的問題,比如產(chǎn)品進入了哪些場景、合作了哪些客戶、有沒有軟硬一體化的方案等等。“AI落地難”已成行業(yè)共識。
特別是在云端 AI 芯片領(lǐng)域,因為海外市場起步早,且所需要協(xié)同的CPU/GPU等硬件成本投入規(guī)模高,該領(lǐng)域幾乎已被英偉達一家壟斷。
Q:相比GPGPU方案,邃思芯片有什么競爭優(yōu)勢?國產(chǎn)品牌挑戰(zhàn)傳統(tǒng)巨頭,關(guān)鍵難點在于什么?
“邃思芯片專為 AI 深度學(xué)習(xí)應(yīng)用設(shè)計,支持計算機視覺、語音識別、自然語言處理,機器學(xué)習(xí)知識圖譜等 AI 模型訓(xùn)練所需要的性能,存儲帶寬以及互聯(lián)。在保持高度的靈活性、可編程擴展的同時,在算力、能效比、性價比等維度上具有競爭優(yōu)勢?!睆垇喠终f。
GPGPU全稱 General Purpose Computingon Graphics Processing Unit,即能夠進行通用計算的圖形處理器(GPU)。目前在全球范圍內(nèi),實現(xiàn) GPGPU 大規(guī)模落地商用的唯有英偉達,國內(nèi)在這一領(lǐng)域的缺口還很明顯。但目前GPGPU正在向分離的計算產(chǎn)品和圖形產(chǎn)品進化,分別優(yōu)化架構(gòu),而不再合并。比如英偉達的Telsa系列和RTX系列以及AMD的CDNA和RNDA,都是計算和圖形分離的典型例子。計算的產(chǎn)品和架構(gòu)主要用來做純粹的 AI 和科學(xué)計算,而圖形的產(chǎn)品和架構(gòu)則主要是做游戲相關(guān)的加速。
考慮到遷移成本和風(fēng)險,國產(chǎn)芯片必須在性能上比肩國際巨頭,并同時具備可編程擴展的靈活性,并擁有用戶友好的軟件系統(tǒng),才能吸引用慣了巨頭產(chǎn)品的客戶選擇自己的解決方案。
張亞林認(rèn)為,要挑戰(zhàn)巨頭,需要關(guān)注三點:第一是產(chǎn)品定位。第二是產(chǎn)品生態(tài),第三是持續(xù)與國際巨頭差異化競爭。
關(guān)于產(chǎn)品定位,張亞林解釋說,“我們會盡可能地幫客戶降低訓(xùn)練產(chǎn)品遷移的成本,同時,做好技術(shù)支持工作,讓我們的產(chǎn)品成為客戶的第二選擇,幫助他們的降本增效?!?/p>
第二,在產(chǎn)品生態(tài)方面,張亞林認(rèn)為,燧原想要做的是了解客戶的真正需求,在場景上進行更多更深入地分析,采取多點突破,結(jié)合開源,從而構(gòu)筑自己新的客戶生態(tài)。
最后,從長遠來講,“燧原目前還是一家初創(chuàng)公司,我們需要在整個產(chǎn)品的架構(gòu)設(shè)計、生態(tài)打法、客戶關(guān)系上,通過幾代產(chǎn)品的迭代,慢慢在我們擅長的領(lǐng)域里面,真正與國際大廠形成差異化,為客戶提供更多的價值?!睆垇喠终f。
Q:燧原GCU芯片架構(gòu)的獨特之處體現(xiàn)在哪里?
值得一提的是,邃思DTU的創(chuàng)新之處,在于它基于自研核心IP和創(chuàng)新系統(tǒng)方案,具有完全自主知識產(chǎn)權(quán)的燧原GCU芯片架構(gòu)。這是燧原科技區(qū)別于其他芯片公司的優(yōu)勢之一。
張亞林介紹說,燧原的GCU結(jié)構(gòu)專為計算搭建,沒有帶入任何的圖形化部分,但是包羅了所有AI計算的模式和精度?!斑@使得我們的整個芯片的計算架構(gòu)非常的單純,是我們能夠進行高效和高性價比運算的原因?!?/p>
在運算過程中,燧原 GCU架構(gòu)引入了云端 AI 計算引擎(GCU-CARE),數(shù)據(jù)架構(gòu)(GCU-DARE),智能互聯(lián)(GCU-LARE)和先進封裝(GCU-PARE)4個部分。
其中,云端AI計算引擎具有全域支持多數(shù)據(jù)格式、超高算力、可靈活編程等特點;數(shù)據(jù)架構(gòu)具有可編程共享緩存調(diào)度,異步數(shù)據(jù)加載,提高運算并行度的特性;智能互聯(lián)芯片4通道200GB/s高速互聯(lián),服務(wù)器內(nèi)800GB/s高速互聯(lián);先進封裝采用全覆蓋仿真設(shè)計方法學(xué),先進高并行設(shè)計流程。
“燧原 GCU 架構(gòu)的這 4個部分,共同構(gòu)成了一個完整的芯片架構(gòu),也使芯片能夠在AI訓(xùn)練和推斷里發(fā)揮更大的計算效能?!睆垇喠终f。
從芯片設(shè)計的實驗室走出,在商業(yè)化的峽谷中落地
雖然國產(chǎn)云端AI芯片的商業(yè)化落地并非易事,但從中長期維度上,擴張半導(dǎo)體行業(yè)成長的邊界因子依然存在??紤]到國內(nèi)市場的充足需求,這是一塊很大的蛋糕。
關(guān)于投資人最關(guān)注的商業(yè)化問題,燧原科技有一個三年為期的計劃。張亞林認(rèn)為,燧原的商業(yè)化已經(jīng)完成了從 0 到 1,接下來是從 1 到 N 的進程。
Q:目前邃思芯片與云燧T10訓(xùn)練加速卡的商用進展情況如何?落地難度大嗎?
張亞林認(rèn)為,目前燧原科技的商業(yè)化進程“已經(jīng)完成了從0到1”,因為搭載邃思芯片的“云燧T10”組成的分布式集群已順利落地,邃思芯片已經(jīng)在頭部客戶的數(shù)據(jù)中心里正式開始業(yè)務(wù)運作?!敖酉聛恚覀儠卣箍蛻羧后w,搭建客戶生態(tài)?!睆垇喠终f。
現(xiàn)在,公司的商業(yè)化正在“從1到N的過程”,張亞林告訴36氪,接下來,燧原科技會選擇戰(zhàn)略客戶和應(yīng)用高地,“在每一個戰(zhàn)略客戶、應(yīng)用高地上進行生態(tài)的打磨?!?/p>
相比國際巨頭,燧原科技這支中國團隊也具有“主場優(yōu)勢”。張亞林認(rèn)為,燧原本土化的團隊可以給中國客戶及時的支持,展現(xiàn)出更多的靈活性?!拔蚁嘈盼磥砦覀兊纳虡I(yè)落地速度會大大加快?!?/p>
Q:接下來燧原科技的中期目標(biāo)和長期目標(biāo)分別是什么?
張亞林介紹說,燧原科技的中期目標(biāo),是“利用三年的時間,完成整個云端的AI訓(xùn)練和推斷產(chǎn)品部署,完善生態(tài),讓燧原科技在中國的云端 AI 芯片領(lǐng)域成為頭部企業(yè)。”
“未來,我們希望能夠長期聚焦發(fā)展數(shù)據(jù)中心業(yè)務(wù)?!睆垇喠终f?!安粌H限于 AI,我們希望能夠給中國的數(shù)據(jù)中心帶來高科技的產(chǎn)品和更廣泛的系統(tǒng)生態(tài)。”