寒武纪的前世今生与未来

2019-03-27 14:35:21 来源:硬核财经

上世纪50年代,成就了“20世纪最伟大发明”的“晶体管之父”的肖克利博士,有著名的八大门徒。这八位青年科学家后来离肖克利而去,集体成立了仙童半导体公司,肖克利怒不可遏地骂他们是“八叛逆”(The Traitorous Eight)。(关于“八叛逆”可参见:仙童(Fairchild)让你感慨IC业的历史

在仙童期间,以诺伊斯为首的“八叛徒”在晶体管的基础上设计出了基于硅的IC(集成电路),他本人与德州仪器的基尔比并称“集成电路之父”。

后来由于仙童公司的经营问题,“八叛徒”分道扬镳,这八位均在未来成为了赫赫有名的硅谷大佬,其中有两位诺伊斯和摩尔于1968年创办了在今天大名鼎鼎的IT巨头——英特尔

乔布斯(左)与诺伊斯(右)

1978年英特尔发布了新款16位微处理器8086,也同时开创了一个新时代:X86架构诞生了。X86指的是微处理器执行的计算机语言指令集,定义了芯片的基本使用规则。而真正将X86架构发扬光大的是英特尔另外两位合作伙伴——IBM和微软。

1981年IBM生产出了世界上第一台PC,它的处理器和操作系统分别选择了当时并非一流的英特尔和微软。出人意料的是,各个并非一流的组件组合成强大的产品,风头盖过产业先驱苹果公司。

世界上第一台PC

在盖茨的建议下,IBM开放架构允许其他计算机制造商仿制和改进,使得IBMPC成为世界标准,这就是IBM兼容机的由来。让IBM始料不及的是,PC厂商百花齐放,而操作系统和CPU却是微软和英特尔一枝独秀。

借着IBM PC的影响力,英特尔与微软开始坐大,成为IBM兼容机厂商的供货商,并逐渐在眉来眼去中形成了事实上的Wintel联盟。

90年代英特尔推出了具有划时代意义的奔腾芯片系列,而微软则“珠联璧合”地推出了Windows95。从那时起,大部分PC都采用了英特尔的X86处理器,而微软的Windows是主流的操作系统。

曾有PC厂商老总无奈地说,“卖一台PC能赚100元,其中英特尔拿去了70元,微软拿去了40元。”而这种无奈,正是世纪之初国家下定决心要造中国人自己的CPU的直接动力。

溃败

1999年,在专家加强对国内芯片企业支持力度的提议下,当时的国家经贸委政策司与信息产业部组成联合小组,并起草了相关芯片企业优惠政策条款,这些条款最终在2000年6月形成了《鼓励软件产业和集成电路产业发展的若干政策》(18号文)。

受到使命感召,大批有海外留学经验、在顶级芯片公司工作多年的半导体人才,在这一时期回到中国。90年代末,先后任职于摩托罗拉、日立(美国)的李德磊,回国成立一家百拓立克(BBT)公司,主要靠李德磊介绍外包业务。

1997年,离开摩托罗拉的李德磊加入日立,担任微处理器设计总监,BBT承接的外包业务也从摩托罗拉转向后者,主要做基于日立芯片的相关业务。

1999年,李德磊通过内部消息得知,日立美国要停止外包给BBT的一切项目。此时李德磊想到了一个人——联想集团前总工程师倪光南,并询问后者的建议。李德磊在80年代进入中科院计算所读研时,倪李二人便已相熟。

联想集团前总工程师倪光南

倪光南提出了自己的看法,“虽然当时日立的项目没做完,但我发现通过这个项目,BBT在编译器设计、芯片设计以及操作系统设计方面的人才积累已经很完善,基本具备自主研发CPU的技术能力。”而拥有一支做CPU的完整技术队伍,是倪光南梦寐以求的。

李德磊同意了倪光南的建议。2000年3月8日,北京中芯微系统技术有限公司(“方舟科技”前身)在京注册成立。倪光南帮助李德磊找钱、找政府、找资源,用自己的信誉和国产芯片巨大的前景,打动了一位热心的深圳民营企业家,后者立即拍板投资2000多万元。

那时,倪光南又找回了在联想时的研发热情。作为倪光南助手的梁宁在日后回忆道:“倪光南院士给我讲方舟CPU+Linux操作系统,做成瘦客户机NC,‘云+端’解决方案,替代Wintel架构的时候,我当时兴奋得紧紧攥住拳头……”

有了CPU和SOC(系统级芯片)的技术,政府给的钱也到位了,2001年4月,第一片中国人自己设计的嵌入式芯片“方舟1号”问世。国家几个部委召开了盛大新闻发布会,主办单位阵容豪华,多个部委代表出席。这在中国工程院历史是破天荒的第一次。

李德磊手持方舟芯片

货真价实的芯片造出来了,然而真正的考验才刚刚开始……

梁宁在《一段关于国产芯片和操作系统的往事》中谈及,做CPU最难的不是开发,而是要在Wintel之外建立一个全新的游戏规则。方舟不是写不出英特尔那样的设计,而是他们打不起官司。

英特尔成立那天起,专利保护就是其核心竞争力之一,当2000年中国决定自主研发CPU时,英特尔几乎把X86体系相关的专利全注册了。对方舟团队来说,不是X86体系的技术难度高,而是在这条路上的每一步,都会遇到英特尔的专利。

所以,倪光南做的技术路线选择是,走RISC结构,做嵌入式,绕开X86体系。

CPU是做出来了,但是根本没有一家下游企业可以使用。当时生产主板的中国厂商拿着方舟的CPU做不了产品原型开发,一直都是基于英特尔或它的设计工厂(design house)的公板进行再开发。也就是说,方舟芯片没有它的目标客户。

显然,我们与英特尔的差距不是一块CPU,而是一个基于CPU的开发生态系统。

无奈之下,方舟在做完CPU后,又建立硬件团队,自己做出了公板,做出了NC的产品原型,终于可以交付市场……当时为了支持NC,北京市政府直接订购了几万台NC机。北京市副市长刘志华专门把各个行业的头召集起来,“逼着”他们支持推广NC。

NC主要靠政府推,李德磊认为只要做好政府就行了,不需要什么市场推广。在连续拒绝了前两家客户后,2002年经政府牵线搭桥,脱胎于联想集团的神州数码成为方舟真正意义上的第一家客户。

2002年11月4月,双方召开了盛大的新闻发布会,神州数码于当天宣布正式推出基于方舟1号的网络计算机。有媒体以“迎接PC时代后的NC风潮”为标题报道了这场发布会。

2002年《e点天下》杂志

2002年12月,方舟2号系统级芯片高调上市。联想、京东方、泰丰、长城等知名厂商纷纷跟进。到2003年,在政府采购中胜出的网络计算机均采用了方舟系列芯片

但是NC的缺点显然易见,Linux系统的操作复杂性姑且不论,更关键是没有任何配套软件可用。Windows早期依托IBM PC成为最普遍的操作系统,所有的配套软件都围绕Windows进行开发,而这些软件均不能被Linux兼容。

为了解决这一问题,当时北京市先后发起了“扬帆计划”“启航计划”,针对Linux桌面的13大类50多个问题,在全国进行招标,包括浏览器、OFFICE、播放器等,召集中国的所有Office高手一起破解微软的文档格式,以期能读能存。

但是效果不好,用户体验极差,纷纷要求换回Wintel比如当时重点推广NC的学校,一有领导来视察,这些校长就嚷嚷“NC不能用啊,让我们换PC吧”。启航计划的破产,也宣告了内嵌方舟芯片的NC彻底失败。

随着NC被逐步证明并不适用,从2003年底开始,NC从政府采购中淡出。方舟CPU的销售也开始受到影响,财务状况持续恶化。2004年被曝出挪用1538万科研基金,方舟科技接受调查,CPU停止开发。两年后汉芯骗局败露,国产芯片事业跌入谷底。

时至今日,在PC端,Windows+X86 CPU的格局依然无法打破。目前商业化做的最好的海光、兆芯,其主打产品还是X86 CPU,而且性能远不如英特尔AMD的产品。而与方舟走同一条路的龙芯,研发历程长达18年,至今仍未实现商业化。

希望

2002年,年仅19岁的陈云霁从中科大少年班毕业,意气风发。

就在一年前,中国自主研发的第一块CPU方舟1号面世,中科院计算所的龙芯课题组也正式成立,同样毕业于中科大的胡伟武博士是该项目的首席科学家。而成为胡伟武的学生,是陈云霁当时最大的志向。

这年夏天,陈云霁终于如愿以偿,凭借优异的成绩,来到中科院计算所硕博连读,他的导师正是胡伟武博士。

当时由于龙芯研发人手短缺,胡伟武将19岁的陈云霁安排进了龙芯研发团队,成为团队中最年轻的成员。而陈云霁也如福星一般,就在他加入团队的这个夏天,我国首款通用CPU龙芯1号代号X1A50流片成功。

“龙芯之父”胡伟武

与方舟不同的是,龙芯团队并没有做CPU方面的经验,没有海外留学经历,胡伟武更将自己戏称为“土鳖派”。此外,胡伟武启用了大量学生,处于一种边学习边开发的状态,陈云霁硕博连读期间的最大收获就是全程参与了龙芯的研发工作。

因为技术不成熟、学生比例较大的缘故,龙芯项目的进程相对缓慢,从龙芯1号到3号历时7年时间,直到2010年龙芯中科公司成立,才开始产业探索。项目进程缓慢,对于陈云霁有一个好处就是在芯片开发领域打下坚实的基础。

就这样,陈云霁在龙芯团队一待就是12年,24岁取得中科院计算所博士学位,29岁晋升为研究员。目前国内最新的计算机体系结构教材,就是胡伟武和陈云霁在2011年合作编写的。

这位14岁就进入中科大的天才科学家,还有一位比他小两岁的弟弟——陈天石,自认为不输于哥哥的陈天石,2001年16岁的他追随哥哥的脚步来到中科大少年班。后来,正是这位少年改变了中国芯受制于人的窘境。

陈云霁(左)与陈天石(右)

实际上,陈天石在中科大最早的专业并不是计算机。本在数学专业的他,却因成绩太差担心以后“没饭吃”,只能考虑换专业。百般纠结之后,陈天石通过抓阄的方式在物理和计算机专业中选择了计算机。

由于之前学的是数学专业,因此陈天石没有写代码的经验,但庆幸的是,当时计算机系的导师对学生十分宽容,并没有嫌弃他成绩差。本科毕业后,颇具天赋的陈天石顺利进入中科大计算机系读研究生,并一直读到博士毕业。

在那期间,陈天石的导师是现在担任南科大系主任的姚新老师。姚新老师不仅发现了陈天石的“慧根”,还顺利地“忽悠”他学习人工智能AI),此后更是成为他的主攻方向。

因为爱人在北京的关系,陈天石读博的最后一年,经常跟导师找借口说去北京计算所做基础研究。一来二去,陈天石渐渐熟知了哥哥所负责的龙芯项目,并且得到了胡伟武的赏识。

在陈天石博士毕业之时,导师告诉他可以考虑留校工作,同时胡伟武也邀请陈天石加入龙芯工作。虽然他在此前完全没有处理器架构相关的基础知识,但是盛情难却,陈天石最终还是答应了。

实际上这是一个非常需要勇气的决定,当时的AI远没有现在火热,甚至有很多人因找不到工作选择转行,而计算所大都选择做芯片,陈天石在计算所感觉无用武之地。

终于,厌倦了画版图的陈天石,产生了一个非常“不靠谱”的想法:既然自己从事人工智能的研究,而且计算所又有芯片研发的基础,是不是可以将AI芯片结合在一起呢?

兴奋不已的陈天石将这个“不靠谱”的想法告诉了哥哥陈云霁,没想到二人一拍即合。就这样,陈天石、陈云霁决定联手做人工智能芯片设计的交叉研究。尽管芯片设计落后发达国家几十年,人工智能同样落后几十年,但是AI+芯片,陈氏兄弟称得上是先驱者。

虽然做AI芯片的想法看似非常“不靠谱”,但是陈氏兄弟也认真地寻找可以支持自己想法的理论依据。当时,陈氏兄弟甚至以自动驾驶作为例子去说服计算所的领导。2010年得到计算所李院士支持的陈氏兄弟决定继续AI芯片的研发工作。

2012年,陈云霁、陈天石带着几个计算所的师弟,包括后来在寒武纪任高管的刘少礼、郭崎、刘道福、杜子东等,以及首次提出“AI加速器”概念的Olivier Temam教授,启动了神经网络处理器AI芯片)项目,这也是寒武纪的技术来源。

项目命名非常直白,就是汉语拼音DianNao(电脑),据说是在Olivier教授的建议下定的这个名字,与其取一个平淡的英文名字,还不如反其道而行用中文的拼音来命名,这样对外国人来说是“外语”,他们反而会觉得十分“洋气”。

2014年3月,陈氏兄弟团队公开提出国际首个深度学习处理器学术架构DianNao,该学术论文获处理器架构领域顶级国际学术会议ASPLOS最佳论文奖,这是亚洲学术研究成果首获处理器架构领域顶尖会议最佳论文。

同年12月,团队在DianNao的基础上公开提出国际首个多核深度学习处理器学术架构DaDianNao,该学术论文获处理器架构领域顶级国际学术会议MICRO最佳论文奖。这也是MICRO自1963年创办以来,第一次由美国以外的研究者摘得该奖项。

后来,团队又相继开发出了PuDianNao(普电脑,通用机器学习处理器)、ShiDianNao(视电脑,图像识别处理器)等。2016年发布国际首个智能处理器指令集Cambricon ISA,最初命名为DianNaoYu(电脑语)。

首个智能处理器指令集Cambricon ISA

2015年,陈云霁入选年度《麻省理工科技评论》35岁以下的全球最佳35名创新人士,又在第二年荣获中国青年科技奖和中科院青年科学家奖。

截至目前,陈氏兄弟团队在计算机体系结构方面的系列技术成果已经获得国际四大顶级会议的认可,包括ASPLOS上有两篇,ISCA上有两篇,MICRO与HPCA上各有一篇。

破局

在论文获得国际学术界的认可之后,陈氏兄弟团队的研究工作开始得到更多关注。2015年,团队获得了中科院先导专项数千万元的资助,在这笔资金的支持下,仅20人的研发团队研发出世界首款深度学习专用处理器原型芯片

但是实验室的成就不是陈氏兄弟的终极目标,他们要让科研成果走出实验室,给人们的生活带来改变。但是,要成立公司就必须拉到投资,这对长期从事科研的陈氏兄弟是个不小的挑战。虽然对项目感兴趣的投资人较多,但真正看得懂也愿意投资的人很少。

2015年12月,陈云霁以“深度学习处理器芯片”为名申报的项目入围苏州工业园区第九届科技领军,获领军人才称号。缘于苏州工业园区的推荐,陈云霁得以结识元禾原点的投资人乐金鑫,并给后者留下了深刻印象。

元禾原点合伙人 乐金鑫(左)

两个时间安排很紧凑的人约到一块儿谈事情,从上午10点开始聊,聊到午饭来不及吃,聊到最终各自都取消了另外的行程安排。双方聊得情投意合,投资寒武纪的决策也就进行得很迅速。

终于在2016年3月,北京中科寒武纪科技有限公司在中关村注册成立,行事谨慎的陈天石担任公司CEO,而陈云霁选择继续在计算所搞科研,为寒武纪的首席科学家。

之所以将公司命名为“寒武纪”,根据陈天石介绍,“‘寒武纪’这个地质纪年是生物多样性大爆发的时代,这项科研成果之所以取这个名字,就是希望人工智能也能像生命一样出现大爆发。

而“寒武纪”也的确名副其实,公司在成立当年就发布了世界首款终端人工智能专用处理器(寒武纪1A),面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,并入选世界互联网大会评选的十五项“世界互联网领先科技成果”。

寒武纪1A处理器支持视觉、语音、自然语言处理等多种智能任务,一经推出便被华为看中,集成到华为海思的麒麟970芯片中。麒麟970被公认为全球首款内置独立NPU(神经网络单元)的智能手机AI计算平台,而NPU指的就是寒武纪1A处理器

华为麒麟970芯片发布会

“寒武纪1A就是在计算机里用虚拟的神经元和虚拟的突触把他们联结在一起,构成多层次的人工神经元网络。在语音识别和视频识别领域里,它的识别精度已经超越了人类。”陈天石介绍,“每秒可以处理160亿个神经元和超过2万亿个突触,功耗却只有原来的1/10。”

2017年10月,首款采用麒麟970的华为手机Mate 10正式发布,这是全球手机行业首次引入人工智能概念。后来的事实证明,搭载寒武纪1A的华为麒麟970以每分钟识别2005张照片击败了苹果A11芯片每分钟的889张照片。

用陈天石的话来说,“这一成功合作已成为全球手机和智能芯片发展史中的标志性事件,吹响了手机进入智慧时代的号角,为中国高科技公司的商业合作树立了典范。”

麒麟970名声大噪,寒武纪也因此一炮而红,拿到了上亿元的订单。同时,寒武纪获得了国投创业、阿里巴巴、联想创投、国科投资等共计1亿美元的A轮融资,成立仅一年时间,寒武纪估值已达10亿美元,成为全球智能芯片领域诞生的第一个独角兽公司。

2017年11月6日,寒武纪迎来自己的荣耀时刻,公司成立以来的首场发布会在北京泰富酒店隆重召开。对于寒武纪短短一年就成为一家独角兽公司,站在台上的陈天石毫不掩饰自己内心的喜悦,哥哥陈云霁则在台下注视着口若悬河的陈天石。

发布会台上的陈天石

在发布会上,寒武纪发布了第二代终端处理器:寒武纪1H16和寒武纪1H8,以及面向开发者的人工智能软件平台Cambricon NeuWare。与上一代1A相比,寒武纪1H16具备更高性能、更低能耗,能效比达到了1A的2.3倍,而寒武纪1H8对比1H16又有更低的功耗和成本。

2018年5月,寒武纪再接再厉,发布了第三代终端处理器寒武纪1M,在台积电7nm工艺下8位运算的效能比达每瓦5万亿次运算,是1A性能的10倍,可广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域当中。

而更加引人注目的是,寒武纪还发布了第一代云端AI芯片MLU100(MLU即机器学习处理器),以及搭载MLU100的云端智能处理卡。

寒武纪MLU100芯片可独立完成各种复杂的云端智能任务,理论峰值速度达每秒128万亿次定点运算,达到世界先进水平。更可以与寒武纪1A/1H/1M系列终端处理器完美适配。

之所以要做云端芯片,陈天石的解释是,“过去大部分芯片厂商都是主攻端(如ARM)或者主攻云(如Intel)。两者兼顾的很少,因为端云的任务生态都区别比较大。但是智能时代,我们认为这个局面会被全面打破,因为端和云的AI任务是一体的,编程和使用的生态也是一致的。”

“MLU100芯片是寒武纪发展历程上全新的里程碑,标志着寒武纪已成为中国第一家(也是世界上少数几家)同时拥有终端和云端智能处理器产品的商业公司。”

陈天石手持MLU100芯片,身旁是他的导师陈国良院士

而据陈天石透露,寒武纪MLU100芯片已进入大规模量产阶段,中国最大的三家服务器提供商——浪潮、联想、曙光都将对外发售搭载寒武纪MLU100芯片AI服务器产品,多家顶尖互联网公司都在紧锣密鼓地进行产品导入。

到2020年底,力争占据中国高性能智能芯片市场的30%份额,力争将寒武纪终端智能处理器集成进入超过10亿台设备。如果这两个目标都能实现,寒武纪将初步支撑起中国主导的智能产业生态。

就在云端芯片发布后的一个月,寒武纪完成了数亿美元的B轮融资,领投的机构为清一色的国家队,投后公司整体估值达25亿美元,领跑全球人工智能芯片的创业公司。

A轮、B轮均由“国家队”领投

2018年10月11日,华为宣布全面采用自研架构,外界一度解读为华为已经放弃与寒武纪在芯片 IP 层面的合作。

但是10月底搭载麒麟980的华为Mate 20系列手机发布后,寒武纪官方发文《寒武纪1H加持华为麒麟980 带来更强端侧AI算力》,文中表示,继寒武纪1A智能终端处理器助力麒麟970成为全球首款人工智能手机芯片后,寒武纪1H双核处理器继续为麒麟980带来更强大、更卓越、更稳定的移动端AI计算力。用实际行动打消了外界的疑虑。

根据华为官方公布,2018年发布的两款手机,mate20系列的出货量超过了750万台,较早发布的P20系列更是超过1700万台,其中寒武纪1A/1H系列芯片功不可没。

未来

从方舟1号到寒武纪,我之所以要用“破局”这样的字眼,因为相比于第一代“芯片人”的切肤之痛,寒武纪确实打开了芯片事业的新领域,芯片人工智能都不占先的情况下,创造性地将二者结合,并在短时间内掌握世界领先的技术,就凭这一点,寒武纪也配得上“破局”二字。

回顾那段岁月,第一代“芯片人”梁宁用到了激情、失落、怀疑、愧疚等一系列极端的字眼来表达当时复杂的情绪。NC机的溃败让后来者不敢踏入这一领域,汉芯骗局让几乎所有的国产芯片背上“诈骗”的骂名,就连中科院的龙芯也没少被口诛笔伐。

之所以会有这段芯酸往事,应当归结于生态的缺失,早期的芯片开发只能在Wintel制定的游戏规则下进行,要用Windows,就必须X86。而想绕过X86就意味着要重新构建一个生态,这对于已经落后美国几十年的中国PC产业来说谈何容易。

直到今天,应用于PC的芯片依然没有可以替代X86的,即使在国内处于领先地位的龙芯,也找不到任何一台投放到市场的电脑嵌入了它的芯片,在PC领域已经鲜有突破口。

以在移动时代崛起的ARM为例,这家在90年代平平无奇的英国公司,21世纪乘着手机行业的东风攻城略地,目前全世界超过95%的智能手机和平板电脑都采用ARM架构,这就是时代的力量。

后来我们又迎来了智能时代,用户已经不满足于拍照片、看视频和玩游戏,产生了更多智能化的需求,比如图像识别、语音识别、机器翻译等。虽然CPUGPU也能实现这些功能,但是功耗却是难以克服的问题。

以2016年风靡全球的AlphaGo为例,使用了一千多块CPU及一百多块GPU,每盘棋局耗电成本3000美元。如果集成一块专门用于处理智能化问题的NPU,就能大大减少CPU的运算任务,而寒武纪要做的正是这件事。

这一次,我们终于不再苦苦追赶美国人的脚步。直到今天,陈天石都十分感激自己在十年前做的那个“不靠谱”的决定。

陈云霁曾说,“寒武纪的长期奋斗目标是,让人工智能芯片计算效率提高一万倍,功耗降低一万倍。”这意味着我们可以把AlphaGo放到手机里,让手机帮我们做各种各样的事情,甚至通过长期观察和深度学习后,最终可能出现人类想象不到的智能。


  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

@2003-2024 EETOP