行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210770481.9 (22)申请日 2022.06.30 (71)申请人 北京九章云 极科技有限公司 地址 100083 北京市海淀区王庄路1号院2 号楼24层28—整层2801室 (72)发明人 王清臣 方磊  (74)专利代理 机构 北京银龙知识产权代理有限 公司 11243 专利代理师 刘倩兰 (51)Int.Cl. G06F 9/50(2006.01) G06T 1/20(2006.01) G06N 5/04(2006.01) (54)发明名称 一种GPU资源管理方法及系统 (57)摘要 本发明实施例提供一种GPU资源 管理方法及 系统。 所述方法包括响应于模型推理服务, 获取 模型推理信息; 根据所述模型推理信息, 确定GP U 资源调整方式; 根据所述GPU资源调整方式对所 述模型推理服务的GPU资源进行调整。 本发明实 施例通过模型推理信息自动调整GPU资源, 提高 了GPU资源的资源利用率, 降低了操作的复杂程 度。 权利要求书2页 说明书11页 附图2页 CN 115437781 A 2022.12.06 CN 115437781 A 1.一种GPU资源管理方法, 其特 征在于, 所述方法包括: 响应于模型推理服 务, 获取模型推理信息; 根据所述模型推理信息, 确定GPU资源调整方式; 根据所述GPU资源调整方式对所述模型推理服 务的GPU资源进行调整。 2.根据权利要求1所述的GPU资源管理方法, 其特征在于, 所述模型推理信息包括模型 推理类型, 所述模型推理类型包括在线推理和模型 跑批推理; 所述根据所述模型推理信息, 确定GPU资源调整方式的步骤 包括: 若所述模型推理类型为所述在线推理, 确定所述GPU资源调整方式为动态调整方式; 若所述模型推理类型为所述模型跑批推理, 确定所述GPU资源调整方式为静态调整方 式。 3.根据权利要求2所述的GPU资源管理方法, 其特征在于, 所述模型推理信息包括待处 理的数据量, 若所述GPU资源调整方式为动态调整方式, 所述方法还 包括: 在当前模型推理服务的待处理 的数据量在预设数量范围内时, 确定所述动态调 整方式 为实例横向伸缩; 在当前模型推理服务的待处理 的数据量未在预设数量范围内时, 确定所述动态调 整方 式为实例中的GPU资源伸缩。 4.根据权利 要求2所述的GPU资源管理方法, 其特征在于, 在所述GPU资源调整方式为静 态调整方式的情况下, 所述根据所述GPU资源调整 方式对所述模型推理服务的GPU资源进 行 调整的步骤 包括: 获取所述模型推理服 务待处理的数据量; 根据所述模型推理服务待处理的数据量确定执行所述模型推理服务需要的目标GPU资 源; 其中, 所述目标GPU资源包括物理GPU或者虚拟GPU资源; 所述虚拟GPU资源由多个相同 型号的子虚拟GPU资源合并生成; 在所述根据所述GPU资源调整方式对所述模型推理服务的GPU资源进行调整的步骤之 后, 还包括: 根据所述目标GPU资源执 行模型跑批推理服 务。 5.根据权利要求1 ‑4任一项所述的GPU资源管理方法, 其特征在于, 所述响应于模型推 理服务, 获取模型推理类型的步骤之前, 所述方法还 包括: 获取模型推理服 务的历史业 务信息以及GPU卡片注 册信息; 根据所述历史业 务信息以及所述GPU卡片注 册信息, 确定GPU虚拟处 理方式; 基于所述GPU虚拟处 理方式对注 册的GPU卡片进行处 理, 得到GPU资源 池; 其中, 所述GPU虚拟处理方式包括对注册的GPU卡片全部虚拟化处理或对注册的GPU卡 片部分虚拟化处 理。 6.一种GPU资源管理系统, 其特 征在于, 所述系统包括: 第一获取模块, 用于响应于模型推理服 务, 获取模型推理信息; 第一确定模块, 用于根据所述模型推理信息, 确定GPU资源调整方式; 调整模块, 用于根据所述GPU资源调整方式对所述模型推理服 务的GPU资源进行调整。 7.根据权利要求6所述的GPU资源管理系统, 其特征在于, 所述模型推理信息包括模型权 利 要 求 书 1/2 页 2 CN 115437781 A 2推理类型, 所述模型推理类型包括在线推理和模型 跑批推理; 所述第一确定模块包括: 第一确定子模块, 用于若所述模型推理类型为所述在线推理, 确定所述GPU资源调整方 式为动态调整方式; 第二确定子模块, 用于若所述模型推理类型为所述模型跑批推理, 确定所述GPU资源调 整方式为静态调整方式。 8.根据权利要求7所述的GPU资源管理系统, 其特征在于, 所述模型推理信息还包括待 处理的数据量, 若所述GPU资源调整方式为动态调整方式, 所述第一确定 子模块包括: 第一确定单元, 用于在当前模型推理服务的待处理的数据量在预设数量范围内时, 确 定所述动态调整方式为实例横向伸缩; 第二确定单元, 用于在当前模型推理服务的待处理的数据量未在预设数量范围内时, 确定所述动态调整方式为实例中的GPU资源伸缩。 9.根据权利 要求7所述的GPU资源管理系统, 其特征在于, 在所述GPU资源调整方式为静 态调整方式的情况 下, 所述调整模块包括: 第二获取子模块, 用于获取 所述模型推理服 务待处理的数据量; 第五确定子模块, 用于根据 所述模型推理服务待处理的数据量确定执行所述模型推理 服务需要的目标GPU资源; 其中, 所述目标GPU资源包括物理GPU或者虚拟GPU资源; 所述虚拟GPU资源由多个相同 型号的子虚拟GPU资源合并生成; 执行子模块, 用于在所述根据所述GPU资源调整方式对所述模型推理服务的GPU资源进 行调整之后, 根据所述目标GPU资源执 行模型跑批推理服 务。 10.根据权利要求6 ‑9任一项所述的GPU资源管理系统, 其特 征在于, 所述系统还 包括: 第二获取模块, 用于获取模型推理服 务的历史业 务信息以及GPU卡片注 册信息; 第二确定模块, 用于根据所述历史业务信息以及所述GPU卡片注册信息, 确定GPU虚拟 处理方式; 处理模块, 用于基于所述GPU虚拟处理方式对注册的GPU卡片进行处理, 得到GPU资源 池; 其中, 所述GPU虚拟处理方式包括对注册的GPU卡片全部虚拟化处理或对注册的GPU卡 片部分虚拟化处 理。权 利 要 求 书 2/2 页 3 CN 115437781 A 3

.PDF文档 专利 一种GPU资源管理方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种GPU资源管理方法及系统 第 1 页 专利 一种GPU资源管理方法及系统 第 2 页 专利 一种GPU资源管理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:25:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。