QQ在線客服

挑戰(zhàn)云端AI訓(xùn)練領(lǐng)域,中國(guó)芯「邃思」背后的故事 | 專訪燧原科技張亞林

2020-10-29 22:42 來源: 站長(zhǎng)資源平臺(tái) 瀏覽(650)人   

2020年,人工智能應(yīng)用范圍繼續(xù)擴(kuò)大,而算力作為承載人工智能應(yīng)用的驅(qū)動(dòng)力,推動(dòng)了整個(gè)人工智能產(chǎn)業(yè)的演進(jìn)。AI 芯片為云、邊、端多方協(xié)同提供了必要的算力支持,自然成為國(guó)內(nèi)外工業(yè)界和學(xué)術(shù)界共同角逐的熱點(diǎn)。

AI 云端訓(xùn)練芯片設(shè)計(jì)難度大、行業(yè)壟斷程度高,能獨(dú)立完成設(shè)計(jì)、流片,并實(shí)現(xiàn)量產(chǎn)和落地商業(yè)化的國(guó)產(chǎn)芯片企業(yè)屈指可數(shù)。燧原科技就是其中一家。

10月28日,燧原科技專為人工智能應(yīng)用開發(fā)的云端訓(xùn)練加速芯片“邃思”(DTU, Deep Thinking Unit),獲評(píng)由中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院評(píng)選的“中國(guó)芯”年度重大創(chuàng)新突破產(chǎn)品獎(jiǎng)。這一獎(jiǎng)項(xiàng)面向“有重大技術(shù)創(chuàng)新、填補(bǔ)國(guó)內(nèi)技術(shù)或市場(chǎng)空白,對(duì)完善自主供應(yīng)鏈具有較大貢獻(xiàn)且產(chǎn)生較顯著經(jīng)濟(jì)社會(huì)效益的單款芯片產(chǎn)品”,邃思芯片是僅有的四款獲獎(jiǎng)產(chǎn)品之一。

邃思芯片趕上了行業(yè)商業(yè)化價(jià)值爆發(fā)的關(guān)鍵時(shí)期。據(jù)市場(chǎng)研究機(jī)構(gòu)Tractica預(yù)測(cè),全球 AI 芯片市場(chǎng)規(guī)模將由 2018 年的 51 億美元增長(zhǎng)到 2025 年的 726 億美元,CAGR 將達(dá) 46.14%。據(jù) IDC 預(yù)計(jì),到 2025 年,中國(guó)將擁有全球數(shù)據(jù)量的 27.8%。隨著數(shù)據(jù)量的爆發(fā)式增長(zhǎng),人工智能應(yīng)用場(chǎng)景越來越豐富,對(duì)于算力的巨大需求讓中國(guó) IC產(chǎn)業(yè)面臨嚴(yán)峻的挑戰(zhàn),但也蘊(yùn)含了極大的機(jī)遇。

今年,國(guó)務(wù)院也發(fā)布《新時(shí)期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》,從財(cái)稅、投融資、研究、人才、知識(shí)產(chǎn)權(quán)、市場(chǎng)應(yīng)用和國(guó)際合作等組合措施,重點(diǎn)支持集成電路企業(yè)及其相關(guān)產(chǎn)業(yè)鏈的發(fā)展。

中國(guó)芯片市場(chǎng)需求旺盛,但國(guó)產(chǎn)品牌要撬動(dòng)巨頭的壟斷局面并不容易。艾瑞咨詢發(fā)布的2019年《AI芯片行業(yè)研究報(bào)告》指出,目前AI芯片行業(yè)接近Gartner技術(shù)曲線泡沫頂端,只有通過市場(chǎng)檢驗(yàn)和篩選的優(yōu)質(zhì)團(tuán)隊(duì)才能夠繼續(xù)獲得產(chǎn)業(yè)、政策和資本的青睞與支持。

在這樣的背景下,燧原科技是如何快速完成自主設(shè)計(jì)、流片、量產(chǎn)?又是如何在行業(yè)高度壟斷的環(huán)境下推進(jìn)商業(yè)化?帶著這些問題,我們采訪了燧原科技創(chuàng)始人兼COO張亞林。

以下為36氪與張亞林的訪談內(nèi)容整理。

18個(gè)月里一次性流片成功,設(shè)計(jì)與量產(chǎn)均自主完成

獲得了“中國(guó)芯”年度重大創(chuàng)新突破產(chǎn)品獎(jiǎng)的邃思芯片,從架構(gòu)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)到軟硬件開發(fā)、流片,甚至到量產(chǎn)的所有環(huán)節(jié),全部是由燧原科技團(tuán)隊(duì)獨(dú)立完成的。

作為一家以高端人工智能訓(xùn)練產(chǎn)品切入數(shù)據(jù)中心市場(chǎng)的初創(chuàng)公司,燧原科技僅經(jīng)歷 18 個(gè)月的高強(qiáng)度開發(fā),就于 2019 年 12 月發(fā)布了“邃思”人工智能訓(xùn)練芯片和基于“邃思”芯片的人工智能訓(xùn)練加速卡“云燧 T10”。

Q:AI訓(xùn)練芯片“邃思”能在18個(gè)月里一次性流片成功,背后主要的原因是什么?

張亞林認(rèn)為主要原因有三個(gè)?!暗谝?,我們?cè)O(shè)定了‘高舉高打’的目標(biāo)和踏實(shí)聚焦的執(zhí)行計(jì)劃;第二,我們組建了非常優(yōu)秀的研發(fā)團(tuán)隊(duì),并得到了業(yè)內(nèi)眾多戰(zhàn)略伙伴的大力支持;第三,我們有一套系統(tǒng)化的項(xiàng)目管理制度,保證項(xiàng)目的每一個(gè)里程碑都可以順利達(dá)到?!?/p>

張亞林認(rèn)為,正是“做大芯片,拼硬科技”的初心,在創(chuàng)業(yè)之初吸引了志同道合的伙伴,迅速組建了團(tuán)隊(duì)。在開發(fā)第一個(gè)芯片時(shí),全公司只有150人左右?!皬漠a(chǎn)品定義、架構(gòu)設(shè)計(jì),到芯片的研發(fā)、流片再到后續(xù)的產(chǎn)品測(cè)試驗(yàn)證、量產(chǎn)等等,這150人組成了一個(gè)全鏈路的團(tuán)隊(duì)?!睆垇喠终f。

燧原科技的團(tuán)隊(duì)成員基本集中在上海張江和北京中關(guān)村——兩個(gè)中國(guó)歷史最悠久的集成電路研發(fā)中心。所有員工的平均工作年限達(dá)到 10 年,很多工程師甚至有超過15年的研發(fā)經(jīng)驗(yàn)?!八麄冎械慕^大多數(shù)人來自于業(yè)內(nèi)知名的半導(dǎo)體公司和軟件、互聯(lián)網(wǎng)企業(yè)?!睆垇喠终f。

Q:在整個(gè)研發(fā)過程之中,最困難的是哪個(gè)環(huán)節(jié)?

“我認(rèn)為最難的部分有兩個(gè)——一頭一尾?!睆垇喠终f。

他回憶,2018 年 4 月,燧原科技啟動(dòng)邃思芯片項(xiàng)目時(shí),全公司只有 3 個(gè)人,“連電腦、開發(fā)環(huán)境都要從頭準(zhǔn)備”。從產(chǎn)品定義、團(tuán)隊(duì)招募,到與產(chǎn)業(yè)鏈上下游伙伴合作,直至 2019 年 5 月成功流片。

“尾”指的是量產(chǎn)環(huán)節(jié)。用張亞林的話來說,“從前期設(shè)計(jì)到成功完成流片,其實(shí)也只是走了整條路的一半?!?/p>

實(shí)際上,從芯片回到實(shí)驗(yàn)室里點(diǎn)亮,再到量產(chǎn),還需要將近一年的時(shí)間。在這一年的時(shí)間里面,有很多困難要攻克,比如芯片的良率、散熱、穩(wěn)定性、可靠性、以及成本的控制,性能的優(yōu)化等等,這些問題涉及到很多的核心技術(shù)。

“通常,如果你沒有參與過大規(guī)模量產(chǎn)大芯片,你是不會(huì)掌握這種核心技術(shù)的?!睆垇喠终f?!拔覀儽容^幸運(yùn)的是,建立了一支完整建制的產(chǎn)品設(shè)計(jì)和量產(chǎn)團(tuán)隊(duì)。很多團(tuán)隊(duì)成員擁有大芯片大規(guī)模量產(chǎn)的經(jīng)驗(yàn),所以我們才能順利完成整個(gè)流程?!?/p>

Q:目前芯片的產(chǎn)能情況如何?如何控制成本?

據(jù)張亞林介紹,在打通了量產(chǎn)流程后,燧原科技在芯片產(chǎn)能上發(fā)揮穩(wěn)定。

“大芯片的良率和散熱穩(wěn)定性是很有挑戰(zhàn)的。我們?cè)诹慨a(chǎn)過程中跟GlobalFoundry和日月光進(jìn)行了非常緊密的合作,目前我們的良率已經(jīng)完全符合了GlobalFoundry關(guān)于良率的指引。”張亞林說。

同時(shí),燧原科技通過用驗(yàn)證方法學(xué)和驗(yàn)證覆蓋率來確保芯片設(shè)計(jì)質(zhì)量和制造質(zhì)量,并通過軟硬件聯(lián)合性能以實(shí)現(xiàn)端到端的性能調(diào)優(yōu),保證了產(chǎn)品質(zhì)量。

“今年我們做了提前備貨,同時(shí)優(yōu)化供應(yīng)鏈,所以在整個(gè)供應(yīng)鏈上供貨充分。又因?yàn)槲覀兊牧慨a(chǎn)環(huán)節(jié)沒有外包,因此成本的優(yōu)化和控制權(quán)全部掌握在自己團(tuán)隊(duì)的手里。”張亞林說。

既有高算力,又有靈活性,“高性價(jià)比”的國(guó)產(chǎn)芯片

2020年,AI芯片市場(chǎng)理性回歸,投資人開始更多地關(guān)注算力和功效之外的問題,比如產(chǎn)品進(jìn)入了哪些場(chǎng)景、合作了哪些客戶、有沒有軟硬一體化的方案等等?!癆I落地難”已成行業(yè)共識(shí)。

特別是在云端 AI 芯片領(lǐng)域,因?yàn)楹M馐袌?chǎng)起步早,且所需要協(xié)同的CPU/GPU等硬件成本投入規(guī)模高,該領(lǐng)域幾乎已被英偉達(dá)一家壟斷。

Q:相比GPGPU方案,邃思芯片有什么競(jìng)爭(zhēng)優(yōu)勢(shì)?國(guó)產(chǎn)品牌挑戰(zhàn)傳統(tǒng)巨頭,關(guān)鍵難點(diǎn)在于什么?

“邃思芯片專為 AI 深度學(xué)習(xí)應(yīng)用設(shè)計(jì),支持計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、自然語(yǔ)言處理,機(jī)器學(xué)習(xí)知識(shí)圖譜等 AI 模型訓(xùn)練所需要的性能,存儲(chǔ)帶寬以及互聯(lián)。在保持高度的靈活性、可編程擴(kuò)展的同時(shí),在算力、能效比、性價(jià)比等維度上具有競(jìng)爭(zhēng)優(yōu)勢(shì)?!睆垇喠终f。

GPGPU全稱 General Purpose Computingon Graphics Processing Unit,即能夠進(jìn)行通用計(jì)算的圖形處理器(GPU)。目前在全球范圍內(nèi),實(shí)現(xiàn) GPGPU 大規(guī)模落地商用的唯有英偉達(dá),國(guó)內(nèi)在這一領(lǐng)域的缺口還很明顯。但目前GPGPU正在向分離的計(jì)算產(chǎn)品和圖形產(chǎn)品進(jìn)化,分別優(yōu)化架構(gòu),而不再合并。比如英偉達(dá)的Telsa系列和RTX系列以及AMD的CDNA和RNDA,都是計(jì)算和圖形分離的典型例子。計(jì)算的產(chǎn)品和架構(gòu)主要用來做純粹的 AI 和科學(xué)計(jì)算,而圖形的產(chǎn)品和架構(gòu)則主要是做游戲相關(guān)的加速。

考慮到遷移成本和風(fēng)險(xiǎn),國(guó)產(chǎn)芯片必須在性能上比肩國(guó)際巨頭,并同時(shí)具備可編程擴(kuò)展的靈活性,并擁有用戶友好的軟件系統(tǒng),才能吸引用慣了巨頭產(chǎn)品的客戶選擇自己的解決方案。

張亞林認(rèn)為,要挑戰(zhàn)巨頭,需要關(guān)注三點(diǎn):第一是產(chǎn)品定位。第二是產(chǎn)品生態(tài),第三是持續(xù)與國(guó)際巨頭差異化競(jìng)爭(zhēng)。

關(guān)于產(chǎn)品定位,張亞林解釋說,“我們會(huì)盡可能地幫客戶降低訓(xùn)練產(chǎn)品遷移的成本,同時(shí),做好技術(shù)支持工作,讓我們的產(chǎn)品成為客戶的第二選擇,幫助他們的降本增效?!?/p>

第二,在產(chǎn)品生態(tài)方面,張亞林認(rèn)為,燧原想要做的是了解客戶的真正需求,在場(chǎng)景上進(jìn)行更多更深入地分析,采取多點(diǎn)突破,結(jié)合開源,從而構(gòu)筑自己新的客戶生態(tài)。

最后,從長(zhǎng)遠(yuǎn)來講,“燧原目前還是一家初創(chuàng)公司,我們需要在整個(gè)產(chǎn)品的架構(gòu)設(shè)計(jì)、生態(tài)打法、客戶關(guān)系上,通過幾代產(chǎn)品的迭代,慢慢在我們擅長(zhǎng)的領(lǐng)域里面,真正與國(guó)際大廠形成差異化,為客戶提供更多的價(jià)值?!睆垇喠终f。

Q:燧原GCU芯片架構(gòu)的獨(dú)特之處體現(xiàn)在哪里?

值得一提的是,邃思DTU的創(chuàng)新之處,在于它基于自研核心IP和創(chuàng)新系統(tǒng)方案,具有完全自主知識(shí)產(chǎn)權(quán)的燧原GCU芯片架構(gòu)。這是燧原科技區(qū)別于其他芯片公司的優(yōu)勢(shì)之一。

張亞林介紹說,燧原的GCU結(jié)構(gòu)專為計(jì)算搭建,沒有帶入任何的圖形化部分,但是包羅了所有AI計(jì)算的模式和精度?!斑@使得我們的整個(gè)芯片的計(jì)算架構(gòu)非常的單純,是我們能夠進(jìn)行高效和高性價(jià)比運(yùn)算的原因?!?/p>

在運(yùn)算過程中,燧原 GCU架構(gòu)引入了云端 AI 計(jì)算引擎(GCU-CARE),數(shù)據(jù)架構(gòu)(GCU-DARE),智能互聯(lián)(GCU-LARE)和先進(jìn)封裝(GCU-PARE)4個(gè)部分。

其中,云端AI計(jì)算引擎具有全域支持多數(shù)據(jù)格式、超高算力、可靈活編程等特點(diǎn);數(shù)據(jù)架構(gòu)具有可編程共享緩存調(diào)度,異步數(shù)據(jù)加載,提高運(yùn)算并行度的特性;智能互聯(lián)芯片4通道200GB/s高速互聯(lián),服務(wù)器內(nèi)800GB/s高速互聯(lián);先進(jìn)封裝采用全覆蓋仿真設(shè)計(jì)方法學(xué),先進(jìn)高并行設(shè)計(jì)流程。

“燧原 GCU 架構(gòu)的這 4個(gè)部分,共同構(gòu)成了一個(gè)完整的芯片架構(gòu),也使芯片能夠在AI訓(xùn)練和推斷里發(fā)揮更大的計(jì)算效能。”張亞林說。

從芯片設(shè)計(jì)的實(shí)驗(yàn)室走出,在商業(yè)化的峽谷中落地

雖然國(guó)產(chǎn)云端AI芯片的商業(yè)化落地并非易事,但從中長(zhǎng)期維度上,擴(kuò)張半導(dǎo)體行業(yè)成長(zhǎng)的邊界因子依然存在??紤]到國(guó)內(nèi)市場(chǎng)的充足需求,這是一塊很大的蛋糕。

關(guān)于投資人最關(guān)注的商業(yè)化問題,燧原科技有一個(gè)三年為期的計(jì)劃。張亞林認(rèn)為,燧原的商業(yè)化已經(jīng)完成了從 0 到 1,接下來是從 1 到 N 的進(jìn)程。

Q:目前邃思芯片與云燧T10訓(xùn)練加速卡的商用進(jìn)展情況如何?落地難度大嗎?

張亞林認(rèn)為,目前燧原科技的商業(yè)化進(jìn)程“已經(jīng)完成了從0到1”,因?yàn)榇钶d邃思芯片的“云燧T10”組成的分布式集群已順利落地,邃思芯片已經(jīng)在頭部客戶的數(shù)據(jù)中心里正式開始業(yè)務(wù)運(yùn)作?!敖酉聛恚覀儠?huì)拓展客戶群體,搭建客戶生態(tài)。”張亞林說。

現(xiàn)在,公司的商業(yè)化正在“從1到N的過程”,張亞林告訴36氪,接下來,燧原科技會(huì)選擇戰(zhàn)略客戶和應(yīng)用高地,“在每一個(gè)戰(zhàn)略客戶、應(yīng)用高地上進(jìn)行生態(tài)的打磨。”

相比國(guó)際巨頭,燧原科技這支中國(guó)團(tuán)隊(duì)也具有“主場(chǎng)優(yōu)勢(shì)”。張亞林認(rèn)為,燧原本土化的團(tuán)隊(duì)可以給中國(guó)客戶及時(shí)的支持,展現(xiàn)出更多的靈活性?!拔蚁嘈盼磥砦覀兊纳虡I(yè)落地速度會(huì)大大加快?!?/p>

Q:接下來燧原科技的中期目標(biāo)和長(zhǎng)期目標(biāo)分別是什么?

張亞林介紹說,燧原科技的中期目標(biāo),是“利用三年的時(shí)間,完成整個(gè)云端的AI訓(xùn)練和推斷產(chǎn)品部署,完善生態(tài),讓燧原科技在中國(guó)的云端 AI 芯片領(lǐng)域成為頭部企業(yè)?!?/p>

“未來,我們希望能夠長(zhǎng)期聚焦發(fā)展數(shù)據(jù)中心業(yè)務(wù)。”張亞林說。“不僅限于 AI,我們希望能夠給中國(guó)的數(shù)據(jù)中心帶來高科技的產(chǎn)品和更廣泛的系統(tǒng)生態(tài)?!?/p>

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時(shí)溝通與處理。 本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。