(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221079745 5.5
(22)申请日 2022.07.08
(71)申请人 长沙理工大 学
地址 410114 湖南省长 沙市天心区万家丽
南路二段96 0号
(72)发明人 胡晋彬 贺蔓 刘颖 王进
(74)专利代理 机构 湖南盈奥知识产权代理事务
所(普通合伙) 43282
专利代理师 姚瑶
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 3/063(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种人工智能系统中流水行并行的GPU配置
方法及系统
(57)摘要
本发明公开了一种人工智能系统中流水行
并行的GPU配置方法及系统, 其针对共享GPU集
群, 并应用于神经网络分布式训练。 为了解决共
享GPU集群下流水行并行中GPU分配方案固定不
变而导致无法动态调节GPU配置的问题, 所述方
法在下一次的训练之前, 根据静态指标、 动态指
标得到若干新工作分区, 在动态指标中加入GPU
的可用带宽, 使得新工作分区能反应GPU的动态
可用资源; 再引入了元网络预测每个工作分区的
训练速度来筛选工作分区, 及引入强化学习来判
断是否更新当前的工作分区, 通过上述GPU配置
方法得到的工作分区能适应于GP U的动态可用资
源, 更合理的进行分布式训练, 有效提高GP U资源
利用率以及保证后续神经网络的训练效率。
权利要求书2页 说明书13页 附图4页
CN 115033388 A
2022.09.09
CN 115033388 A
1.一种人工智能系统中流水行并行的GPU配置方法, 其特征在于: 所述GPU配置方法是
基于共享GPU集群用于在神经网络的下一次训练之前更新或是维持当前的GPU与网络层的
配置关系, 所述GPU集群中存在共享GPU, 所述GPU配置方法包括以下步骤:
步骤1: 获取分布式训练系统中当前的静态指标和动态指标;
其中, 所述分布式训练系统采用流水行并行, 其为神经网络的每一个网络层配置GPU,
同一个GPU负责一个或多个网络层训练, 所述静态指标包括: 神经网络的网络层数、 GPU 数量
以及每个网络层的训练特征; 所述动态指标包括: 每个 GPU的可用带宽、 每个GPU负责的所在
网络层的前向传播时间和后向传播时间;
步骤2: 依据所述静态指标、 动态指标生成若干新工作分区;
其中, 工作分区表示GPU与网络层之间的配置关系;
步骤3: 将所述静态指标、 动态指标、 新工作分区作为输入, 利用工作分区训练速度 预测
模型得到每个新工作分区对应的训练速度预测值;
步骤4: 基于每个新工作分区的训练速度预测值以及每个新工作分区中配置关系发生
变化的GPU数量筛 选新工作分区;
步骤5: 将所述静态指标、 动态指标、 筛选后的新工作分区以及当前的工作分区作为输
入, 利用基于强化学习的筛选模型确定是否替换当前的工作分区, 即更新 或维持当前的GPU
与网络层的配置关系。
2.根据权利要求1所述的GPU配置方法, 其特征在于: 步骤3中所述工作分区训练速度预
测模型是基于元网络构建的, 所述元网络包括: 各组静态指标、 动态指标对应的嵌入层、 动
态指标对应的LSTM网络以及全连接层, 其中, 动态指标对应的嵌入层连接所述LSTM网络, 静
态指标对应的嵌入层、 所述 LSTM网络连接所述全连接层;
其中, 将动态指标输入对应的嵌入层, 得到的输出结果输入所述LSTM网络得到动态指
标的序列特 征;
将所述静态指标输入对应的嵌入层, 得到输出结果与 所述序列 特征以及新工作分区作
为全连接层的输入, 所述全连接层的输出为所述 新工作分区的训练速度预测值。
3.根据权利要求2所述的GPU配置方法, 其特征在于: 所述工作分区训练速度预测模型
以及所述筛 选模型均是通过离线训练构建的;
其中, 所述筛选模型中的奖励函数的目标是使所述筛选模型选择的工作分区对应的训
练速度大于与前一工作分区对应的训练速度。
4.根据权利要求1所述的GPU配置方法, 其特征在于: 步骤4中筛选新工作分区时, 需要
同时满足以下两个规则;
规则1: 筛选出的新工作分区仅有2个GPU 的配置出现变化, 所述配置为GPU与网络层的
配置关系;
规则2: 筛 选出的新工作分区的训练速度预测值高于当前工作分区对应的训练速度。
5.根据权利要求1所述的GPU配置方法, 其特征在于: 每个网络层的训练特征包括网络
层的输出激活大小、 权 重参数以及 梯度。
6.一种基于权利要求1所述GPU配置方法的神经网络分布式训练方法, 其特征在于: 包
括以下步骤:
步骤S1: 将待训练的神经网络以及数据集载入分布式训练系统中, 所述神经网络被划权 利 要 求 书 1/2 页
2
CN 115033388 A
2分为多个网络层;
步骤S2: 初始化工作分区并进行神经网络的首次训练;
其中, 为神经网络的每一个网络层配置GPU, 同一个GPU负责一个或多个网络层训练, 即
根据所述初始化工作分区确定 GPU与网络层的配置 关系, 所述GPU利用数据集进 行神经网络
训练, 所述分布式训练系统采用分布式通讯机制进行通讯连接;
步骤S3: 在神经网络的下一次训练之前, 按照步骤1 ‑步骤5的方式确定神经网络的下一
次训练对应的工作分区再进行训练; 其中, 若是得到了新工作分区, 则根据新工作分区更新
GPU与网络层的配置关系;
步骤S4: 判断是否满足神经网络的迭代训练终止条件, 若不满足, 返回步骤S3继续训
练; 否则, 完成神经网络的训练。
7.一种基于 权利要求1 ‑5任一项所述GPU配置方法的GPU分配装置, 其特 征在于: 包括:
动静态指标获取模块, 用于获取分布式训练系统中当前的静态指标和动态指标;
其中, 所述分布式训练系统采用流水行并行, 其为神经网络的每一个网络层配置GPU,
同一个GPU负责一个或多个网络层训练, 所述静态指标包括: 神经网络的网络层数、 GPU 数量
以及每个网络层的训练特征; 所述动态指标包括: 每个 GPU的可用带宽、 每个GPU负责的所在
网络层的前向传播时间和后向传播时间;
配置模块, 用于依据所述静态指标、 动态指标生成若干新工作分区;
其中, 工作分区表示GPU与网络层之间的配置关系;
训练速度预测值获取模块, 用于将所述静态指标、 动态指标、 新工作分区作为输入, 利
用工作分区训练速度预测模型 得到每个新工作分区对应的训练速度预测值;
筛选模块, 用于基于每个新工作分区的训练速度 预测值以及每个新工作分区中配置关
系发生变化的GPU数量筛 选新工作分区;
决策模块, 用于将所述静态指标、 动态指标、 筛选后的新工作分区以及当前的工作分区
作为输入, 利用基于强化学习的筛选模型确定是否替换当前 的工作分区, 即更新或维持当
前的GPU与网络层的配置关系。
8.一种基于权利要求1所述GPU配置方法或权利要求6所述训练方法的分布式训练系
统, 其特征在于: 所述分布式训练系统至少包括: 若干GPU服务器, 每个GPU服务器上设置了
GPU、 CPU、 内存、 网卡以及交换机;
其中, GPU用于实现神经网络训练; 所述内存用于存储数据; CPU、 网卡以及交换机用于
实现数据传输, 所述GPU服 务器之间采用分布式通讯。
9.一种电子设备, 其特 征在于: 包括:
一个或多个处 理器;
存储了一个或多个 计算机程序的存 储器;
其中, 所述处 理器调用所述计算机程序以实现:
权利要求1所述的GPU配置方法或权利要求6所述的神经网络分布式训练方法。
10.一种可读存储介质, 其特征在于: 存储了计算机程序, 所述计算机程序被处理器调
用以实现:
权利要求1所述的GPU配置方法或权利要求6所述的神经网络分布式训练方法。权 利 要 求 书 2/2 页
3
CN 115033388 A
3
专利 一种人工智能系统中流水行并行的GPU配置方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:25:57上传分享