通知公告
当前所在位置:首页 >> 通知公告

阿里巴巴软硬件一体化创新和工程实践

       硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。


在计算领域,随着人工智能的兴起,AI的广泛应用,计算能力也在成倍提升。然而随着硬件的高速发展,软件的发展也需急速提升性能。服务器作为基础设施的核心载体,是承载阿里巴巴业务重要基石之一,也是软硬件一体化的集成体和创新体。如何将新技术快速应用于业务中,让业务提前享受技术红利?如何充分挖掘硬件资源潜力,使业务实现极致性能与极致可靠性,这些都是软硬件一体化迫在眉睫要解决的问题。

2018年杭州云栖大会,在软硬件一体化专场,阿里巴巴研究员和多位资深技术专家分享了阿里巴巴在软硬件一体化领域的创新和工程实践。特别邀请美国佛罗里达大学教授、IEEE Fellow、智能计算机体系结构设计实验室主任李涛博士,分享《计算机体系结构设计挑战和机遇》。特别邀请上海交通大学副教授蒋力博士,分享《人工智能给硬件可靠性带来的挑战和机遇》。

 

人工智能给硬件可靠性带来的机遇与挑战

上海交通大学 副教授 蒋力

硬件的可靠性要求日益紧迫。因为硬件电子系统本身的复杂性,如芯片会集成到一些单板上,甚至可能成百的芯片,成千的电路,有很多单板集成到服务器系统上。与此同时,一些故障、一些缺陷也可能会被集成到系统里。很多问题是没有办法在产品使用之前发现,如果硬件引起宕机,可能带来多严重的问题,而人工智能是解决这些问题的一种好途径。


人工智能技术对硬件系统带来了很多机遇,但是当真正要用这个系统的时候,会发现有很多各种各样的挑战,包括一些数据特征的缺失、样本的不平衡。样本本身在时间序列、空间序列上的一些表达问题,以及维度过高的一些问题。上海交大经过半年努力做了一些尝试,取得了一些进展。将来会在如何把深度学习这种方法应用到异常检测,提高系统可靠性这方面做更深入的探索和尝试。

 

通过软硬件一体化,充分享受技术红利,提升业务竞争力,我们会持续创新和实践,分享更多关于软硬件一体化的思考、创新成果和工程实践。


开源通用计算芯片平台(GPGPU) 上海交通大学 电子信息与电气工程学院

版权所有:2017年 先进计算机体系结构实验室 沪ICP备20180025

地址:上海市闵行区东川路800号上海交通大学电信群楼3号楼125室邮编:200240