电科数字股份  2023-10-12 13:07 发表于上海


数字经济时代,多样性算力服务成为激发数字经济发展动能的重要驱动。随着AI、5G、物联网技术的成熟和推广,智慧政务、智慧能源、智慧金融、生物医药、工业仿真、无人驾驶、航空遥感等应用场景的高性能计算需求越来越多。

图片图片

华讯智鹰

算力智能调度系统

华讯智鹰算力智能调度系统是公司子公司华讯网络自研的HPC集群管理平台,通过整合集群调度软件、监控软件、数学计算库、MPI通信库等构建HPC集群核心软件系统,充分释放计算性能,实现智能集群管理与调度。

华讯智鹰算力智能调度系统从客户的需求和痛点入手,涵盖任务管理和调度、资源利用和效率、用户界面和易用性、可扩展性和灵活性、安全性和权限管理,以及性能监控和分析等功能,可以帮助客户更好地利用超级计算机资源,提高计算效率和科学研究的成果。

一目了然的集群总体状态界面

图片

工作台显示了HPC集群的整体状况,包括CPU、GPU、内存、作业总览、集群告警等关键信息,方便用户直观地了解集群的运行状况。


图片


灵活友好的作业提交方式

图片

华讯智鹰算力智能调度系统在规划阶段就将易用性当作产品的核心要求,因为传统的HPC集群往往需要用户通过命令行或者脚本的方式去提交作业,用户上手难度较大,体验差。华讯智鹰算力智能调度系统结合不同行业特点,引入模板管理的功能,一次创建多次使用,同时将作业参数以组件的方式进行拆分,方便用户灵活多变的设计模板,简化使用难度,让用户的精力更多地聚焦在业务上。

高效的作业管理和调度

图片

华讯智鹰算力智能调度系统选择SLURM调度器作为作业管理核心组件,为用户提供了一套高效的作业管理和调度系统,用户可以根据任务的优先级、资源需求、预计运行时间等因素,灵活合理地分配和调度集群计算资源,同时也可以方便地提交、监控和终止任务并通过调度平台的消息通知机制第一时间获取到作业执行的状态和结果,此外调度平台通过集成不同的MPI组件为用户提供并行计算的能力,用户可以根据集群资源的使用情况和负载的动态变化进行并行计算作业的编排,最大化的利用集群算力。



用户可以通过当前作业详情页面直观地了解当前作业的运行状况、占用资源等指标,对于运行时间长,占用资源大的作业,可以通过挂起/恢复或者终止的操作释放当前算力资源,待集群负载轻松的时候再进行这类作业的计算,保证用户提交作业时的排队等待时长,提升用户体验。


图片


华讯智鹰算力智能调度系统目前支持静态分配、负载均衡、优先级三种调度策略。用户通过适应性调度策略进行有效算力调度,提高算力设备的利用率,降低设备闲置率,更好地管理超算集群算力的使用情况。


图片


静态分配:用户可以根据自己的作业类型、集群算力节点的性能差异等因素,在提交作业时指定分配算力资源。


负载均衡:作业提交后,在负载均衡策略下可以很均衡的提交到集群满足条件的计算节点上,让每一台机器都参与运算,避免出现某些节点负载过重而其他节点资源严重闲置的情况,提高整个集群的使用率,目前集群常用排队轮询作为其负载均衡策略,此外负载均衡策略也可以与其他调度策略结合使用。


优先级:用户可以根据作业的重要性、紧急程度、资源需求等因素进行优先级设定,优先级策略可以帮助集群在有限的资源下合理安排任务的执行,以最大化资源利用率并满足任务的需求。在集群调度中,优先级策略通常用于任务调度顺序、资源分配、抢占策略、队列调度等。


开放的API

图片

华讯智鹰算力智能调度系统通过开放的API,可以与其他系统实现灵活集成,方便业务系统快速便捷地使用高性能算力资源。


图片

目前,在科技的赋能下,越来越多的企业服务场景将面临显著的高性能计算服务需求,算力服务将在社会经济、科技发展的带动下,进入了新的蓬勃发展期,国家“十四五规划”中也明确提出,要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和10E级超级计算中心。调度平台作为承接HPC集群与业务系统的中转站,其重要性日益凸显。


华讯网络作为可信赖的行业数字化服务商,提供HPC整体解决方案。华讯智鹰算力智能调度系统将结合行业需求和反馈,不断进行优化升级,更贴近用户需求,更能直击行业痛点,助力客户实现数字化转型。


图片

追加内容

本文作者可以追加内容哦 !