算力网络关键技术和典型场景综述

(整期优先)网络出版时间:2023-06-20
/ 3

算力网络关键技术和典型场景综述

张强

江苏未来网络集团有限公司  江苏南京  210000

摘要:算力网络可根据客户需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源具有广阔发展前景。经过前期的积累,产业雏形已现。本文对达成共识的主要关键技术进行了阐述,并选取了具有典型代表的场景进行描述,同时提出了算力网络的未来发展建议。

关键词:算力网络;确定性网络;算网一体化调度

引言

算力网络是指利用算网融合技术、新型网络技术,将边缘算力节点、中心算力节点、形式多样的网络资源深度结合在一起,利用人工智能、大数据等技术,通过集中控制的方法构建计算、存储、网络一体化的新一代信息基础设施,按照客户的需求,提供灵活、可调度的按需一体化算网服务。采用这种方案构建的新型基础设施,被成为“算力网络”。

我国数字经济呈现爆发式增长趋势,数字经济在国民经济中的地位更加稳固、支撑作用更加明显。为推动数字经济持续快速发展,我国陆续出台了多项政策,加快构建以算力和网络为核心的新型基础设施体系。

1.算力网络需求

算力网络以算力为核心,以网络为支撑,需求聚焦在算力。推动算力网络发展的算力需求,总结为两类:多级算力协同的需求、异构算力协同的需求。

1.1.多级算力协同的需求

以云、边、端为主的泛在多样化算力载体的单点计算性能日趋强大,但其孤岛的形态决定了它功能单一、位置固定、计算能力有限,无法满足业务多样化的需求,限制新兴产业的发展,因此需要通过多级资源节点协同来满足业务多样性票求。以人工智能产业为例,AI 算法在各个行业的大规模应用需要大量的算力资源。在云计算时代,倾向于建立一个集中的算力资源池来解决这个问题。但是在些新兴场景中,集中式的方案并不能满足要求,而是需要根据业务特点、位置分布、网络情况选择合适的算力节点,甚至需要多节点的协同。

1.2.异构算力协同的需求

算力的异构体现在架构、地域、价格、服务商、性能等多个方面,用户或多或少存在对异构算力的需求。比如分布式游戏服务商,需要架构的异构算力满足游戏渲染、好友聊天等不同的子业务需求,需要地域的异构满足全国用户的就近服务,需要性能和价格的异构形成最优性价比的算力组合。比如普通企业用户,需要服务商的异构,避免被服务商绑定。算力网络理论上可实现异构算力的感知、管理和调度,为用户提供异构算力协同。

2.算力网络关键技术

2.1.算力统一标识

统一标识是实现在算力网络连接范围内异构芯片的统一标识。实现异构厂家和多数据中心算力资源接入算力网络内部以期能够共同打造算力流通、算力溯源以及确保数据在可信算力环境中可管可控提供切实有效的保障机制。

2.2.算力认证和鉴权

基于统一标识,实现算力可信接入、安全认证和鉴权,打造算力安全有效的计算环境,切实保障算力网络安全有效的生态环境。通过第三方认证中心进行算力认证并且发放签名证书并通过操作系统保存在可信区中。算力只有通过认证合法后,才能够作为可信算力被纳入算力管理,并且经过统一资源模型的构建成为算力资源。

2.3.算力度量

算力是在完成不同的计算任务过程中衡量单位时间内计算设备可处理数据量的指标,数据处理方式包括但不限于浮点计算、稠密矩阵计算、向量计算、并行计算等方式,数据处理过程受硬件、算法、数据提供方式等多方面因素影响,算力度量主要包含以下三个方面:异构硬件算力的度量、多样化算法算力的度量、用户算力需求的度量。

2.4.算力建模

通过对异构计算资源进行建模,可以建立统一模型描述语言,从而探索节点资源性能模型,实现异构节点的统一模型化功能描述;通过探索不同算法算力需求的功能描述结合节点资源性能模型,从而构建服务能力模型实现节点服务能力。

算力建模过程中,首先需要对异构的物理资源进行建模,将FPGA、GPU、CPU等异构的物理资源构建统一的资源描述模型;然后,从计算、存储、通信等方面对资源性能建模,构建资源性能的统一指标;最后,通过对资源性能指标与服务能力进行映射实现对服务能力的建模,对外提供统一的算力服务能力模型,是算力建模的最终目标。

2.5.算力注册

算力感知网络中遍布不同的算力,为了实现节点的管理以及业务的动态卸载,算力感知网络需要对全网的算力节点进行注册,由算力管理平台下发各算力节点的配置,包括算力信息的通告,和业务在计算节点之间的分配与调度策略。

2.6.算力监控

算力监控指对设备的算力性能进行监控,通过多种类型的算力信息采集和上报策略配置,支持最优算力节点的实时选择,并在故障时予以修复。

算力信息采集:由路由节点主动周期性地向算力节点发起探测(如通过 ICMP协议等多种方式),或者通过下发算力探针的形式按需采集节点状态,实时收集算力等信息。

故障检测:边界路由节点作为多个算力节点的管理设备,需要感知到每个算力节点的节点状态以及链路状态,一旦链路故障或节点故障可以及时的切换到新的链路以及新的节点,满足低时延等极致的用户体验。

2.7.确定性网络技术

确定性网络的技术关键在于实现确定性丢包率、时延、抖动、带宽和可靠性等。确定性带宽通过网络切片和边缘计算等技术实现;确定性抖动和丢包率通过优先级划分、抖动消减、缓冲吸收等机制实现;确定性时延主要通过时钟同步、频率同步、调度整形、资源预留等机制实现;确定性可靠性通过多路复用、包复制与消除、冗余备份等技术实现。

2.8.算网一体化调度

算网一体化调度中,需要考虑算力调度、网络调度,算网融合调度。

算力调度的关键点包括:

1)应用部署标准化:屏蔽云间差异性,提供一体化应用部署接口,简化部署流程。

2)统一编排和调度:算网控制器高效协同资源编排,实现全局异构资源基于多目标的最优化映射与调度。

3)算力动态分配:在用户请求算力时,根据用户位置、算力需求和当前可用算力情况,为用户动态分配算力实例;在算力实例空闲时,根据策略自动销毁实例以节约资源。在算力资源不足时,动态启动新的实例为用户提供服务。

网络调度的关键点包括:

1)网络路径智能规划:根据用户和算力资源所处的位置,以及用户对网络的要求,智能规划路径,确保网络质量。

2)网络策略高效复用:路由策略与用户解耦,根据算网控制器计算结果,实现多用户的路由策略高效复用。

3)算力便捷接入:用户和算力集群通过统一的算力接入器完成接入,无需对系统和网络进行任何修改。

算网融合调度的关键点包括:

同时考虑算力和网络需求与状态,满足双SLA约束,提高总体资源利用率的同时提升用户体验。

2.9.算力运营

算力运营包括建立算力的服务合约以及生成相应的计费管理策略,由统一的算力计费管理中心进行管理。针对网络计算融合的发展趋势,算力感知网络能够实现资源的最优调度,需要算网融合的新型计费方案,不仅是对网络资源的要求,也包含计算、存储等多种需求。同时可以基于服务等级协议(SLA)进行算网融合精细化计费,满足未来行业用户多样化的网络和计算资源的需求。

3.典型场景

3.1.工业互联网场景

传统工业制造的应用、数据限定在工厂内网中,随着工业互联网的发展,更多的业务需要内外网协同、公私算力协同、中心边缘算力协同的支撑。以机器视觉质检为例,机器视觉纪要在工业现场进行推理,也需分析采集的数据进行持续模型训练,实现自学习。受强实时性要求的限制,推理一般由部署在工厂内的边缘算力完成。模型训练对实时性要求不高,可部署在公有算力上节省成本。典型部署架构图如下:

3.2.云虚拟现实场景

虚拟现实(VR, virtual reality)对算力资源的要求高,传统本地VR需购置本地算力,成本较高,制约了VR的发展。云虚拟现实(Cloud VR)因其庞大的算力资源和灵活的计费策略,成为应对VR挑战的解决思路。然而,Cloud VR对网络的超低时延提出了更高要求。基于确定性网络打造的算力网络,可提供多算力协同时的实时数据互通、算力资源与本地VR显示终端之间的低时延网络传输保障。确定性算力网络可根据Cloud VR的算力需求、网络需求,进行算力资源和网络资源的预留和调度,保障算力侧的处理时延、网络侧的传输时延降到最低。

3.3.车联网场景

车联网进入“算力网络”时代之后,汽车将获得更好的支撑,应用和生态有了更多的想象空间。面对车联网剧增的算力,算力网络具有相对较多的优势。在靠近网络接入的路侧基础设施上进行边缘算力的部署,实时类的业务可交由边缘算力完成,例如摄像头、传感器等采集数据的实时分析,车辆状态信息的实时感知,路况信息的实时反馈,车辆的实时控制等。对时延要求不高的业务,可交由中心算力完成,例如道路拥堵信息、车辆统计信息、周边施工信息等。

通过确定性网络的保障、中心和边缘算力的分工协同,既对车联网提供了有效支撑,又充分利用了算力资源,避免算力资源浪费。

4.发展展望

算力网络处于初期探索阶段,概念的理解各不相同,技术方向存在差异,应用场景未充分挖掘,产业生态处于震荡期。为了加快算力网络的快速发展和成熟,建议如下:

一是加快制定标准和规范。从概念、架构、技术、角色等多个方面进行定义,形成行业共识,指引算力网络发展方向。

二是推进基础能力的建设。在已经形成共识的基础能力部分,适当超前的规划和实施,为算力网络的快速发展构建基础设施底座,如构建包含确定性网络能力的切片网络,推进切片网络与主流算力的互联。

三是积极探索典型应用场景。在构建的基础能力基础上,探索算力网络服务应用场景的可行性和方式方法,形成可借鉴、可复制的行业应用路径。

四是加强行业生态的构建。推进算力、网络运营商、设备商、科研机构、服务商、行业伙伴、客户等多方角色,围绕标准规范、关键技术、重点场景,发挥各自所长,共同构建产业生态,形成产业合力,加速算力网络的成熟。

5.结束语

算力网络蓬勃发展,大量参与者涌入其中,为其未来高速发展增添了活力。若干关键技术已经达成业界共识,各个角色的参与者积极推动技术的落地。一些典型的应用场景已经涌现,为算力网络成熟提供了需求驱动。但同时需要注意到,算力网络仍然初期初期探索阶段,标准规范未形成和统一,大量技术有待研究、细化、验证,应用场景有待挖掘和论证,产业生态还需加强构建。标准、技术、应用、生态的协同共进,将是算力网络发展的有效路径。

参考文献

[1]贾庆民,胡玉姣,张华宇,彭开来,陈平平,谢人超,黄韬.确定性算力网络研究[J].通信学报,2022,43(10):55-64.

[2]段晓东,姚惠娟,付月霞,陆璐,孙滔.面向算网一体化演进的算力网络技术[J].电信科学,2021,37(10):76-85.

[3]雷波,刘增义,王旭亮,杨明川,陈运清.基于云、网、边融合的边缘计算新方案:算力网络[J].电信科学,2019,35(09):44-51.

[4]汪硕,王佳森,蔡磊,黄韬,卢华,刘韵洁.面向工业制造的确定性网络技术发展研究[J].中国工程科学,2021,23(02):22-29.

[5]张帅,刘莹,曹畅.运营商算力网络商业模式探讨[J].信息通信技术,2022,16(02):8-13.

[6]黄韬,汪硕,黄玉栋,郑尧,刘江,刘韵洁.确定性网络研究综述[J].通信学报,2019,40(06):160-176.

[7]紫金山实验室.确定性算力网络白皮书[R].2022.

[8]国家发展改革委,中央网信办,工业和信息化部,等.全国一体化大数据中心协同创新体系算力枢纽实施方案[R].2021.

[9]中国移动.算力网络白皮书[R].2021.

[10]中国联通研究院.算力网络架构与体系白皮书[R].2020.