行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210770481.9 (22)申请日 2022.06.30 (71)申请人 北京九章云 极科技有限公司 地址 100083 北京市海淀区王庄路1号院2 号楼24层28—整层2801室 (72)发明人 王清臣 方磊 (74)专利代理 机构 北京银龙知识产权代理有限 公司 11243 专利代理师 刘倩兰 (51)Int.Cl. G06F 9/50(2006.01) G06T 1/20(2006.01) G06N 5/04(2006.01) (54)发明名称 一种GPU资源管理方法及系统 (57)摘要 本发明实施例提供一种GPU资源 管理方法及 系统。 所述方法包括响应于模型推理服务, 获取 模型推理信息; 根据所述模型推理信息, 确定GP U 资源调整方式; 根据所述GPU资源调整方式对所 述模型推理服务的GPU资源进行调整。 本发明实 施例通过模型推理信息自动调整GPU资源, 提高 了GPU资源的资源利用率, 降低了操作的复杂程 度。 权利要求书2页 说明书11页 附图2页 CN 115437781 A 2022.12.06 CN 115437781 A 1.一种GPU资源管理方法, 其特 征在于, 所述方法包括: 响应于模型推理服 务, 获取模型推理信息; 根据所述模型推理信息, 确定GPU资源调整方式; 根据所述GPU资源调整方式对所述模型推理服 务的GPU资源进行调整。 2.根据权利要求1所述的GPU资源管理方法, 其特征在于, 所述模型推理信息包括模型 推理类型, 所述模型推理类型包括在线推理和模型 跑批推理; 所述根据所述模型推理信息, 确定GPU资源调整方式的步骤 包括: 若所述模型推理类型为所述在线推理, 确定所述GPU资源调整方式为动态调整方式; 若所述模型推理类型为所述模型跑批推理, 确定所述GPU资源调整方式为静态调整方 式。 3.根据权利要求2所述的GPU资源管理方法, 其特征在于, 所述模型推理信息包括待处 理的数据量, 若所述GPU资源调整方式为动态调整方式, 所述方法还 包括: 在当前模型推理服务的待处理 的数据量在预设数量范围内时, 确定所述动态调 整方式 为实例横向伸缩; 在当前模型推理服务的待处理 的数据量未在预设数量范围内时, 确定所述动态调 整方 式为实例中的GPU资源伸缩。 4.根据权利 要求2所述的GPU资源管理方法, 其特征在于, 在所述GPU资源调整方式为静 态调整方式的情况下, 所述根据所述GPU资源调整 方式对所述模型推理服务的GPU资源进 行 调整的步骤 包括: 获取所述模型推理服 务待处理的数据量; 根据所述模型推理服务待处理的数据量确定执行所述模型推理服务需要的目标GPU资 源; 其中, 所述目标GPU资源包括物理GPU或者虚拟GPU资源; 所述虚拟GPU资源由多个相同 型号的子虚拟GPU资源合并生成; 在所述根据所述GPU资源调整方式对所述模型推理服务的GPU资源进行调整的步骤之 后, 还包括: 根据所述目标GPU资源执 行模型跑批推理服 务。 5.根据权利要求1 ‑4任一项所述的GPU资源管理方法, 其特征在于, 所述响应于模型推 理服务, 获取模型推理类型的步骤之前, 所述方法还 包括: 获取模型推理服 务的历史业 务信息以及GPU卡片注 册信息; 根据所述历史业 务信息以及所述GPU卡片注 册信息, 确定GPU虚拟处 理方式; 基于所述GPU虚拟处 理方式对注 册的GPU卡片进行处 理, 得到GPU资源 池; 其中, 所述GPU虚拟处理方式包括对注册的GPU卡片全部虚拟化处理或对注册的GPU卡 片部分虚拟化处 理。 6.一种GPU资源管理系统, 其特 征在于, 所述系统包括: 第一获取模块, 用于响应于模型推理服 务, 获取模型推理信息; 第一确定模块, 用于根据所述模型推理信息, 确定GPU资源调整方式; 调整模块, 用于根据所述GPU资源调整方式对所述模型推理服 务的GPU资源进行调整。 7.根据权利要求6所述的GPU资源管理系统, 其特征在于, 所述模型推理信息包括模型权 利 要 求 书 1/2 页 2 CN 115437781 A 2推理类型, 所述模型推理类型包括在线推理和模型 跑批推理; 所述第一确定模块包括: 第一确定子模块, 用于若所述模型推理类型为所述在线推理, 确定所述GPU资源调整方 式为动态调整方式; 第二确定子模块, 用于若所述模型推理类型为所述模型跑批推理, 确定所述GPU资源调 整方式为静态调整方式。 8.根据权利要求7所述的GPU资源管理系统, 其特征在于, 所述模型推理信息还包括待 处理的数据量, 若所述GPU资源调整方式为动态调整方式, 所述第一确定 子模块包括: 第一确定单元, 用于在当前模型推理服务的待处理的数据量在预设数量范围内时, 确 定所述动态调整方式为实例横向伸缩; 第二确定单元, 用于在当前模型推理服务的待处理的数据量未在预设数量范围内时, 确定所述动态调整方式为实例中的GPU资源伸缩。 9.根据权利 要求7所述的GPU资源管理系统, 其特征在于, 在所述GPU资源调整方式为静 态调整方式的情况 下, 所述调整模块包括: 第二获取子模块, 用于获取 所述模型推理服 务待处理的数据量; 第五确定子模块, 用于根据 所述模型推理服务待处理的数据量确定执行所述模型推理 服务需要的目标GPU资源; 其中, 所述目标GPU资源包括物理GPU或者虚拟GPU资源; 所述虚拟GPU资源由多个相同 型号的子虚拟GPU资源合并生成; 执行子模块, 用于在所述根据所述GPU资源调整方式对所述模型推理服务的GPU资源进 行调整之后, 根据所述目标GPU资源执 行模型跑批推理服 务。 10.根据权利要求6 ‑9任一项所述的GPU资源管理系统, 其特 征在于, 所述系统还 包括: 第二获取模块, 用于获取模型推理服 务的历史业 务信息以及GPU卡片注 册信息; 第二确定模块, 用于根据所述历史业务信息以及所述GPU卡片注册信息, 确定GPU虚拟 处理方式; 处理模块, 用于基于所述GPU虚拟处理方式对注册的GPU卡片进行处理, 得到GPU资源 池; 其中, 所述GPU虚拟处理方式包括对注册的GPU卡片全部虚拟化处理或对注册的GPU卡 片部分虚拟化处 理。权 利 要 求 书 2/2 页 3 CN 115437781 A 3
专利 一种GPU资源管理方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 13:25:38
上传分享
举报
下载
原文档
(394.2 KB)
分享
友情链接
DB33-T 2499-2022 气象地理分区 浙江省.pdf
T-CCUA 003—2019 金融信息科技服务外包风险管理能力成熟度评估规范.pdf
GB-T 37076-2018 信息安全技术 指纹识别系统技术要求.pdf
奇安信 2018勒索病毒白皮书政企篇.pdf
奇安信 2021网络安全应急响应分析报告.pdf
南方电网数据资产管理体系白皮书.pdf
云计算开源产业联盟 云计算安全责任共担白皮书 2020年 .pdf
GB 25972-2010 气体灭火系统及部件.pdf
GB-T 29246-2023 信息安全技术 信息安全管理体系 概述和词汇.pdf
HJ 25.2-2019 建设用地土壤污染风险管控和修复监测技术导则.pdf
GM-T 0001.2-2012 祖冲之序列密码算法:第2部分:基于祖冲之算法的机密性算法.pdf
GB-T 15852.2-2012 信息技术 安全技术 消息鉴别码 第2部分:采用专用杂凑函数的机制.pdf
GB-T 42632-2023 海洋生态环境水下有缆在线监测系统技术要求.pdf
GB-T 25744-2010 钢件渗碳淬火回火金相检验.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
GB 41700-2022 电子烟.pdf
GB-Z 18906-2002 开放式电子图书出版物结构.pdf
T-GDIIA 005—2021 信息技术应用创新项目运行维护服务标准.pdf
GB-T 19707-2005 冰刀鞋.pdf
2023年Chau服务企业AIGC需求的大坑和大饼-v1.0-2024.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(394.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。