光互连I/O已在来路上,神经拟态计算降低成本有望普遍应用,量子计算商业化道阻且长,IoT时代必不可少的保密计算,机器编程在降低创新门槛,颠覆未来技术格局的到底是什么?
近日举行的英特尔研究院开放日,不发新品,只谈前沿科技。乍一看觉得还很遥远,但其实有些已在来路上甚至已经进入应用中,可能是未来五年最重要的技术趋势了。
在总结之前,先说一下为什么判断是未来五年?这几大技术都是英特尔研究院立项时的规划,三至五年是交付的时间窗,约在五年左右达成。以英特尔在前沿技术上的敏锐和布局,这些技术一旦在不同的时间节点产业化之后,对现有的技术格局将可能是颠覆性的。
这是第一次听到英特尔提出集成光电这个概念。虽然在大的原理方面与市场上正在提的硅光方案类似,但英特尔的不同之处在于,利用其独有的技术和工艺优势,将原本分离的、尺寸较大的模块全部进行了集成。
随着数据量的爆发,面临性能瓶颈的不只是硬件设备的计算能力,同时还有设备之间或设备内部的数据传输能力,特别是对于数据中心这类进行大规模数据交换的应用。
集成光电根本上就是为了解决I/O的传输瓶颈。由于光互连(optical)在长距离、远程和地下传输中占主导,而电气互连(electrical)在短距离、主板互连(board to board)和封装互连(package to package)中有优势。英特尔的研究愿景就是改变这一现实,将光互连引入服务器中,将光学技术与硅技术集成起来,开发出了硅光子技术,让光互连具备硅的高产量、低成本等属性。
目前在硅光子领域,英特尔已经做出了原型演示,混合硅激光器(hybrid silicon laser)/集成激光器,是英特尔硅光子产品的基础,已经交付了超过400万个英特尔100G收发器产品,这款产品结合了硅电子和光学技术,能够在独立的硅芯片上实现近乎光速的数据传输。不过,虽然这项技术取得了长足的进步,但鉴于目前硅光子模块和运行功率的成本和物理体积,光互连I/O还不适合短距离传输,这是要跨越的下一个巨大障碍。
预计何时会迁移到光互连I/O呢?英特尔首席工程师、英特尔研究院PHY研究实验室主任的答案是“很快了”。展望通信和数据中心性能的未来,光互连和电气互连方法之间有一个明显的拐点,主要原因有两点:首先,我们正在快速接近电气性能的物理极限,如果不进行根本性创新,高能效电路设计将存在诸多限制;第二是I/O功耗墙,计算的带宽需求大约每三年翻一番,但电气性能扩展却跟不上带宽需求的增长速度,导致了I/O功耗墙,即I/O功耗会逐渐高于所有现有的插接电源,导致无法计算。
光互连涉及六大技术要素:光产生、光放大、光探测、光调制、CMOS接口电路和封装集成。英特尔近来的重大突破是将光学的四个组件,包括集成激光器、半导体光学放大器、全硅光电探测器和微型环调制器与CMOS硅紧密集成的单个技术平台上,从激光的发射到调制,到接受端检测、放大,全部通过小型模块实现。
集成光电是英特尔在硅光子技术领域的技术愿景,目前研究的重点是低成本、低功耗的光互连I/O。借助集成光电技术,能够将I/O数量从几百万个扩展到几十亿个,实现1000倍的提升。未来的光链路将让所有的I/O连接直接从服务器封装中发出,全面覆盖整个数据中心。这项技术一旦规模应用,将彻底改变数据中心网络架构,提高数据传输效率。
随着深度学习的出现,人工智能取得了惊人的进展,但与此同时,系统功耗不断增加。训练一个现代AI神经网络甚至需要使用数千台集群服务器,功耗高达数百万瓦,这正逐渐成为AI不断发展、以及广泛普及的瓶颈。那么,如何才能提升AI任务的能效、甚至提高1000倍呢?英特尔几年前开始了神经拟态计算的探索。
相比传统计算机架构,神经拟态架构模糊了内存和处理之间的界限。和大脑一样,它利用的是数据连接、数据编码和电路活动中所有形式的稀疏(sparsity)。也就是说,处理就发生在信息到达时,二者同步进行。计算是数百万个简单处理单元之间动态交互的发展结果,就像大脑中的神经元一样。这种新型计算机架构旨在将能效、实时数据处理速度、学习数据的效率等提升多个数量级。
英特尔在2017年发布了首款神经拟态研究芯片Loihi,采用英特尔主流的14纳米制程。相比其他神经拟态芯片,Loihi在灵活性、集成性和速度方面表现较好,并还具有片上学习功能。它没有深度学习硬件中普遍存在的浮点数和乘法累加器单元,也没有片外内存接口,内存来源于芯片神经元之间的连接。和大脑一样,所有计算都在芯片上进行,通过二进制脉冲信息和低精度信号。
英特尔在神经拟态计算的研究上走到了第五个年头,如今项目研究也步入下一阶段,探索实际应用。此前,Gartner在一份调查报告中预测,到2025年神经拟态计算有望取代GPU,成为下一代AI的主流计算形态。
对此,英特尔中国研究院院长宋继强认为,神经拟态计算和深度学习的关系应该是兼收并蓄,而不是取代,“对于深度学习已经非常擅长的,模拟人类视觉或者自然语言交互的任务,让深度学习的网络去模拟;对于其他不太适合用深度学习做的,如英特尔Loihi芯片做的嗅觉方面的研究,还有机器人操控、多模态甚至于跨模态之间的知识存储,可以用神经拟态计算去实现。”
为了进一步扩大该技术的适用范围,英特尔成立了英特尔神经拟态研究社区(INRC),通过与世界各地不同类型的学术界、政府实验室和企业研究人员进行交流合作,成为改进Loihi的架构、系统和软件的重要基础。INRC成员将使用英特尔的Loihi研究芯片作为研发活动的架构焦点,随着基础算法和SDK组件日趋成熟,英特尔希望INRC取得的成果未来能够推动神经拟态架构、软件和系统的改进,最终实现商业化。
2021年第1季度,英特尔将发布下一代“Lava”软件开发框架的开源版本,以此触及更庞大的软件开发人员社区。
受限于成本问题,英特尔高级首席工程师、英特尔研究院神经拟态计算实验室主任Mike Davies表示,短期内神经拟态计算要么用于边缘设备、传感器等小规模设备,要么用于对成本不敏感的应用,如卫星、专用机器人。随着时间的推移,预计内存技术的创新能够进一步降低成本,让神经拟态解决方案扩大适用范围,运用于各种需要实时处理数据但受限于体积、重量、功耗等因素的智能设备。
量子计算有两个普世价值:
一是在某些领域快速解线性方程。比如现在的深度神经网络底层就是解大量线性方程,因此大家预期量子计算可以加速深度神经网络的训练过程;
另外一个就是解决现在经典计算很难解决的问题,比如快速加解密;用量子态模拟和实验各种分子之间的相互关系加速生物制药研发进展;用量子态模拟不同元素组合的效果研发新材料;对物流系统进行优化求解,实现对超大规模物流或城市系统的管理等等。
英特尔高级首席工程师、英特尔研究院量子应用与架构总监Anne Matsuura对抽象高深的量子计算有个非常形象的比喻:将计算机中的“位”想象成一枚硬币,硬币有正反两面,只能处于一种状态中。但是,如果想象硬币开始旋转,越转越快,从某种意义上它可以同时出现正反两面,也就是处于两种状态的叠加中。量子位就与此类似,两枚旋转的硬币,也就是两个相互纠缠的量子位,可以同时混合出现四种状态。
以此类推,n个量子位就表示同时出现2的n次方种状态。也就是说,量子计算机的计算能力随着量子位数量的增加呈指数级增长趋势。从理论上讲,如果有50个纠缠的量子位,这样的量子计算系统所获得的状态数量将超过任何一台超级计算机。如果有300个纠缠的量子位,那能够同时表示的状态比宇宙中原子的数量还要多。
这听起来很强大,但事实上量子位非常脆弱,任何噪音或干扰都会导致信息丢失。实际需要数十万甚至数百万个高质量量子位,才能制造一台商用级量子计算机。也就是说,量子需要具备可扩展性,才能用于实际应用。
目前业界包括英特尔、IBM、谷歌都在研究超导量子位的路径,除此之外,英特尔还有一个独一无二的路径——硅自旋量子位。自旋量子位与英特尔的晶体管技术非常相似,这个路径非常适合使用现在的整套硅半导体工艺。英特尔已经在12寸的晶圆上制造出2个硅自旋量子位,然后控制它们进行纠缠。
英特尔方面认为,相比其他量子位路径,自旋量子位技术更能满足可扩展性需求,因为批量生产高质量量子位的重点并不只是数量,而是需要寿命足够长、相互之间连接性足够强的量子位,以便扩展至包含数百万量子位的商用级量子计算机,从而能够在实际的应用领域执行有效的量子程序或量子算法。
如果把量子计算商业化比作一场马拉松比赛,现在才刚刚跑完一英里。量子计算面临的挑战还包括量子位控制、全面纠错,以及可扩展的全栈量子计算机。由于量子计算是一种全新的计算类型,运行程序的方式完全不同,因此需要开发量子专用的软件、硬件和应用,进行全栈式创新。这方面,英特尔既需利用自身在芯片和电路制造工艺方面的专长,也在不断加强与业界的研究合作。
当前的加密解决方案主要用于保护在网络中发送以及存储的数据,但是,数据在使用过程中依然有遭遇攻击的风险,保密计算就旨在保护使用中的数据,这项研究对于万物互联的IoT时代尤为关键。
对于数据安全,业界以往的研究重点通常是结合硬件访问控制技术和加密技术,以提供保密性和完整性保护。不过,这些研究更多在于保护单台计算机上的数据。如果有多个系统和数据集,且分属于不同的所有者,该怎么办?如何支持多方在协作中安全地使用敏感数据?
英特尔研究院安全智能化项目组首席工程师Jason Martin提到了联邦学习(federated learning)。这也是在深度学习大幅推进的今天,业界普遍推崇的一种方式。
在零售、制造、医疗、金融服务等许多行业,最大的数据集往往被限制在了数据孤岛中。而之所以出现数据孤岛,一些是因为隐私问题或监管挑战,或是在某些情况下,数据太过庞大,无法传输,对使用机器学习工具从数据中获取重要洞察造成了巨大障碍。
在消除数据孤岛方面,联邦学习是一种很好的思路,业界目前已有众多的尝试。例如在医疗领域,英特尔研究院与宾夕法尼亚大学佩雷尔曼医学院的生物医学图像计算和分析中心就开展了这方面的合作,一篇关于医学成像领域的联邦学习的论文表明,采用联邦学习方法训练深度学习模型,其准确率可以达到采用传统非私有方法训练的相同模型的99%,机构采用联邦学习训练模型,比仅用自己的数据训练模型时的性能平均高出17%。
此外,英特尔研究院还透露了一种全新的加密系统——同态加密(homomorphic encryption),它允许应用在不暴露数据的情况下,直接对加密数据执行计算操作。
完全同态加密的工作原理是什么?传统加密要求云服务器访问密钥,才能解锁数据用于处理。同态加密允许云对密文或加密数据执行计算操作,然后将加密结果返回给数据所有者,从而简化并保护了这一过程。
不过一些挑战也在阻碍完全同态加密的采用,最主要就是算力方面的挑战。比如在传输和存储数据时,传统加密机制的开销相对来说可以忽略不计,但在完全同态加密中,同态密文的篇幅比纯数据大得多。有时候甚至大1,000-10,000倍,这将导致计算激增,要求处理能力随之增加。不仅如此,处理开销还会随着计算复杂性而增加,正因如此,同态加密尚未得到广泛使用。英特尔目前正在研究新的软硬件方法,并与生态系统和标准机构开展合作,以推动该技术的普及。
当我们在为找到异构计算平台作为算力解决方案而欢呼时,另一个问题随之而来:未来,谁能为这些异构系统编程?答案很可能是:没有人。举个例子,能为CPU进行调优的可能有20%的开发人员,能为GPU进行调优的可能也有20%,但同时能为这两种平台进行调优的人员,比例一定是大打折扣的,更不用说未来的异构平台可能是同时整合了CPU+GPU+FPGA+NPU+……
这也意味着,未来,当我们真的需要异构平台来提供计算支持的话,也需要某种机制让程序员甚至非程序员,不需要掌握太多技能就能够充分使用可用资源来发挥创造能力,这也是英特尔机器编程的基本驱动力之一。这一方面或许可以解决跨架构专业编程人员的稀缺,另一方面,也能提升效率,解决软件开发和维护的痛点。
那么问题来了,一旦机器编程真正实现了,专业的程序员会不会失业?英特尔首席科学家、英特尔研究院机器编程研究主任及创始人Justin Gottschlich表示并不会,反而会创造出新的就业机会。他提出这一观点的逻辑在于,当今存在的大多数机器编程系统都需要大量的数据,这些数据通常以代码形式存在,而代码都是由专业程序员编写的。机器编程尽管可以实现编程自动化,但是仍需要高技能的程序员,专业程序员写的代码越多,构建的机器编程系统才能越先进。
而更重要的是,如果允许用户向机器表达他/她的意图的系统一旦成功,也将降低行业准入门槛,这样一来,所有人都可以表达他们的想法,通过机器编程实现自己的创意。这也意味着,软件开发中枯燥的部分被自动化,而人得以有更大的自由、灵活度和时间精力去进行创造性的工作。
此外,机器编程的意义还在于改进软件调试(Debug),一方面是自动检测性能漏洞的机器编程系统,另一方面是尝试查找漏洞,让软件变得更加强大、可靠,让程序员的工作效率更高。
Justin Gottschlich认为,三个基本进步正在推动机器编程处于现在的拐点之上。
首先是算法,包括确定性算法和随机算法,为建立机器编程系统提供了大量机会;
第二是算力,过去十年在算力方面取得了长足的进步,特别是异构计算,像是解锁机器编程的第二把钥匙,成为关键转折点;
最后一个是数据,现在的数据量大且丰富,以GitHub为例,2020年夏天,其代码库超过了2亿,这些源文件,每一个都可能包含数百或数千行代码,且增长非常快。
英特尔研究院在提出这五个颠覆性研究项目时,同时也提出了1000x提升的目标,但其实有些技术一旦进入实际应用中,在现有基础上带来的提升绝不止一千倍,可能是几个千倍的升级。
如果要预测它们何时来临?可以引用科幻小说家William Gibson的一句话:“未来早已到来,只是分布不均。”这大概正是科技创新的诱人之处。既要仰望星空,也要脚踏实地。握紧手中的六便士,继续追逐皎洁月光。
图片及文章来源:与非网,作者:张慧娟;
【数商云www.shushangyun.com】致力于提供企业级的电商平台服务,长期为大中型企业打造数据化、商业化、智能化的网上商城系统解决方案,同时我们还提供B2B开发、B2B2C多用户商城系统、B2C电子商务系统、跨境进口电商平台、供应商管理系统、SRM供应商管理系统、SCM系统、渠道管理系统、新零售电商平台、直播电商系统等一系列系统定制开发服务。