行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210572151.9 (22)申请日 2022.05.25 (65)同一申请的已公布的文献号 申请公布号 CN 114661482 A (43)申请公布日 2022.06.24 (73)专利权人 成都索贝数码科技股份有限公司 地址 610041 四川省成 都市高新区新园南 二路2号 (72)发明人 罗宏智 梅亮 许春香 罗天  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 周浩杰 (51)Int.Cl. G06F 9/50(2006.01)(56)对比文件 CN 113687913 A,2021.1 1.23 Peitao So ng等.Implementati on of the CPU/GPU hybrid paral lel method of characteristics neutro n transport calculati on using the heterogeneous cluster w ith dynamic w orkload assignment. 《Annals of Nuclear Energy》 .2020, 审查员 韩俊樱 (54)发明名称 一种GPU算力管理方法、 介质、 设备及系统 (57)摘要 本发明公开了一种GPU算力管 理方法、 介质、 设备及系统, 属于容器编排领域, 包括流程: 测量 流程: 设置测量流程用于测量所需GPU、 CPU和内 存资源, 并将测量结果传递给 Ray框架; 资源分配 和服务调度流程: 在巡检任务负载情况和节点资 源使用情况后, 按照测量结果进行资源分配和服 务调度, 来满足任务执行需要。 本发明可 以大大 提高资源利用率, 使 得几十种模 型在共存情况下 资源可以得到高效使用, 以节省算力资源, 并且 实现任务消费吞吐量最大化。 本发 明可以提高资 源利用率, 节省算力资源, 实现任务消费吞吐量 最大化。 权利要求书2页 说明书6页 附图1页 CN 114661482 B 2022.09.02 CN 114661482 B 1.一种GPU算力管理方法, 其特征在于, 使用K8S框架对纳 管的计算节点的GPU、 CPU和内 存资源池化后, 执 行如下流 程: 测量流程: 设置测量流程用于测量所需GPU、 CPU和内存资源, 在模型资源独占模式下, 自动测量模 型运行时的CPU、 GPU、 内存变化情况, 得到模 型处理效率随资源的不断增加而变 化的曲线; 模型 的效率在资源增加到一定量时就不再提升, 这时模型效率变化曲线会出现 一个拐点, 将这个拐点作为模型算力的测量结果参考依据; CPU、 GPU、 内存都会得到这样一 个拐点值, 都作为模 型算力的测量结果参考依据; 再结合资源独占模式下, 计算系统资源使 用率, 以得到系统负载情况, 来综合判断, 取得一个资源的平衡值作为模型算力的测量结 果, 即系统认 为是平衡模型效率和系统资源的最佳值, 包括GPU、 CPU、 内存资源, 并将测量结 果传递给Ray框架; 资源分配和服务调度流程: 在巡检任务负载情况和节点资源使用情况后, 按照测量流 程的测量结果进行资源分配和服 务调度, 来满足任务执 行需要; 所述按照测量结果进行资源分配和服 务调度, 包括子流 程: Ray框架检查需要部署的智能能力模型在所述测量流程中所获取的算力测量值之后, 设置弹性扩 缩流程用于扩 缩微服务; 所述弹性扩 缩流程, 包括子步骤: S1, 获取集群快照: 平台资源管理主服务获取每个集群节点的GPU和CPU资源使用情况、 模型信息, 并统计各个 类型任务的数量; S2, 缩服务: 销毁空 闲节点; S3, 扩服务: 启动新的模型来执 行排队中的任务; 在步骤S2中, 包括子步骤: S21, 按照上次模型被使用的时间进行排序, 对使用的模型进行排序; S22, 查看这些模型 是否被销毁; S23, 当模型执行完任务后, 释放它所占用的资源, 模型状态由忙碌沦为空闲状态; 根据 模型是否是空闲状态, 即没有做任务, 且模型 空闲时间是否超过预期值, 来确定需要被终止 的模型; 对于相同类型的任务, 保留满足当前任务的模型 数量, 剩余的模型都销毁掉; 在步骤S3中, 包括子步骤: S31, 将要终止的模型销毁掉; S32, 对照排队中的任务类型获取 能够启动的对应类型的模型, 查看节点GPU显存或CPU 资源剩余量, 检查节点的GPU资源或CPU资源是否大于算力测量期 间对该模型的测量值, 来 判断在该节点是否能够部署该模型; S33, 模型的分配: 每个集群节点限制了最大实例数和最小实例数; 判断模型的任务负 载情况是否超过 预期值, 超过 预期值则执 行扩操作, 否则不执 行扩操作。 2.根据权利要求1所述的GPU算力管理方法, 其特征在于, 所述按照测量结果进行资源 分配和服 务调度, 包括子流 程: Ray框架检查需要部署的智能能力模型的算力测量值, 将智能能力模型的算力测量值 与任务代理进程的资源进 行比较, 如果任务代理进程的资源能够部署该智能能力模 型, Ray 框架就将该任务分配给有资源的任务代理进程 来完成智能服 务部署。 3.根据权利要求1所述的GPU算力管理方法, 其特征在于, 按照测量结果进行服务调度权 利 要 求 书 1/2 页 2 CN 114661482 B 2时, 包括子步骤: 如果智能能力模型是GPU模型, 则根据GPU资源计算分数; 如果智能能力模 型是GPU模 型但GPU资源不够时, 则按照CPU模 型去计算分数; 如果智能能力模 型是CPU模 型, 则根据CPU资源去计算分数。 4.一种可读存储介质, 其特征在于, 存储有计算机程序, 该程序被处理器执行时实现如 权利要求1~3任一所述的方法。 5.一种计算机设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并能在处理器 上运行的计算机程序, 处 理器执行所述程序时实现如权利要求1~3任一所述的方法。 6.一种GPU算力管理系统, 其特 征在于, 包括如权利要求5所述的计算机设备。权 利 要 求 书 2/2 页 3 CN 114661482 B 3

.PDF文档 专利 一种GPU算力管理方法、介质、设备及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种GPU算力管理方法、介质、设备及系统 第 1 页 专利 一种GPU算力管理方法、介质、设备及系统 第 2 页 专利 一种GPU算力管理方法、介质、设备及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:25:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。