专利 一种人工智能系统中流水行并行的GPU配置方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221079745 5.5 (22)申请日 2022.07.08 (71)申请人长沙理工大学地址 410114 湖南省长沙市天心区万家丽南路二段96 0号 (72)发明人胡晋彬　贺蔓　刘颖　王进　 (74)专利代理机构湖南盈奥知识产权代理事务所(普通合伙) 43282 专利代理师姚瑶 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/063(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种人工智能系统中流水行并行的GPU配置方法及系统 (57)摘要本发明公开了一种人工智能系统中流水行并行的GPU配置方法及系统，其针对共享GPU集群，并应用于神经网络分布式训练。为了解决共享GPU集群下流水行并行中GPU分配方案固定不变而导致无法动态调节GPU配置的问题，所述方法在下一次的训练之前，根据静态指标、动态指标得到若干新工作分区，在动态指标中加入GPU 的可用带宽，使得新工作分区能反应GPU的动态可用资源；再引入了元网络预测每个工作分区的训练速度来筛选工作分区，及引入强化学习来判断是否更新当前的工作分区，通过上述GPU配置方法得到的工作分区能适应于GP U的动态可用资源，更合理的进行分布式训练，有效提高GP U资源利用率以及保证后续神经网络的训练效率。权利要求书2页说明书13页附图4页 CN 115033388 A 2022.09.09 CN 115033388 A 1.一种人工智能系统中流水行并行的GPU配置方法，其特征在于：所述GPU配置方法是基于共享GPU集群用于在神经网络的下一次训练之前更新或是维持当前的GPU与网络层的配置关系，所述GPU集群中存在共享GPU，所述GPU配置方法包括以下步骤：步骤1：获取分布式训练系统中当前的静态指标和动态指标；其中，所述分布式训练系统采用流水行并行，其为神经网络的每一个网络层配置GPU，同一个GPU负责一个或多个网络层训练，所述静态指标包括：神经网络的网络层数、 GPU 数量以及每个网络层的训练特征；所述动态指标包括：每个 GPU的可用带宽、每个GPU负责的所在网络层的前向传播时间和后向传播时间；步骤2：依据所述静态指标、动态指标生成若干新工作分区；其中，工作分区表示GPU与网络层之间的配置关系；步骤3：将所述静态指标、动态指标、新工作分区作为输入，利用工作分区训练速度预测模型得到每个新工作分区对应的训练速度预测值；步骤4：基于每个新工作分区的训练速度预测值以及每个新工作分区中配置关系发生变化的GPU数量筛选新工作分区；步骤5：将所述静态指标、动态指标、筛选后的新工作分区以及当前的工作分区作为输入，利用基于强化学习的筛选模型确定是否替换当前的工作分区，即更新或维持当前的GPU 与网络层的配置关系。 2.根据权利要求1所述的GPU配置方法，其特征在于：步骤3中所述工作分区训练速度预测模型是基于元网络构建的，所述元网络包括：各组静态指标、动态指标对应的嵌入层、动态指标对应的LSTM网络以及全连接层，其中，动态指标对应的嵌入层连接所述LSTM网络，静态指标对应的嵌入层、所述 LSTM网络连接所述全连接层；其中，将动态指标输入对应的嵌入层，得到的输出结果输入所述LSTM网络得到动态指标的序列特征；将所述静态指标输入对应的嵌入层，得到输出结果与所述序列特征以及新工作分区作为全连接层的输入，所述全连接层的输出为所述新工作分区的训练速度预测值。 3.根据权利要求2所述的GPU配置方法，其特征在于：所述工作分区训练速度预测模型以及所述筛选模型均是通过离线训练构建的；其中，所述筛选模型中的奖励函数的目标是使所述筛选模型选择的工作分区对应的训练速度大于与前一工作分区对应的训练速度。 4.根据权利要求1所述的GPU配置方法，其特征在于：步骤4中筛选新工作分区时，需要同时满足以下两个规则；规则1：筛选出的新工作分区仅有2个GPU 的配置出现变化，所述配置为GPU与网络层的配置关系；规则2：筛选出的新工作分区的训练速度预测值高于当前工作分区对应的训练速度。 5.根据权利要求1所述的GPU配置方法，其特征在于：每个网络层的训练特征包括网络层的输出激活大小、权重参数以及梯度。 6.一种基于权利要求1所述GPU配置方法的神经网络分布式训练方法，其特征在于：包括以下步骤：步骤S1：将待训练的神经网络以及数据集载入分布式训练系统中，所述神经网络被划权　利　要　求　书 1/2 页 2 CN 115033388 A 2分为多个网络层；步骤S2：初始化工作分区并进行神经网络的首次训练；其中，为神经网络的每一个网络层配置GPU，同一个GPU负责一个或多个网络层训练，即根据所述初始化工作分区确定 GPU与网络层的配置关系，所述GPU利用数据集进行神经网络训练，所述分布式训练系统采用分布式通讯机制进行通讯连接；步骤S3：在神经网络的下一次训练之前，按照步骤1 ‑步骤5的方式确定神经网络的下一次训练对应的工作分区再进行训练；其中，若是得到了新工作分区，则根据新工作分区更新 GPU与网络层的配置关系；步骤S4：判断是否满足神经网络的迭代训练终止条件，若不满足，返回步骤S3继续训练；否则，完成神经网络的训练。 7.一种基于权利要求1 ‑5任一项所述GPU配置方法的GPU分配装置，其特征在于：包括：动静态指标获取模块，用于获取分布式训练系统中当前的静态指标和动态指标；其中，所述分布式训练系统采用流水行并行，其为神经网络的每一个网络层配置GPU，同一个GPU负责一个或多个网络层训练，所述静态指标包括：神经网络的网络层数、 GPU 数量以及每个网络层的训练特征；所述动态指标包括：每个 GPU的可用带宽、每个GPU负责的所在网络层的前向传播时间和后向传播时间；配置模块，用于依据所述静态指标、动态指标生成若干新工作分区；其中，工作分区表示GPU与网络层之间的配置关系；训练速度预测值获取模块，用于将所述静态指标、动态指标、新工作分区作为输入，利用工作分区训练速度预测模型得到每个新工作分区对应的训练速度预测值；筛选模块，用于基于每个新工作分区的训练速度预测值以及每个新工作分区中配置关系发生变化的GPU数量筛选新工作分区；决策模块，用于将所述静态指标、动态指标、筛选后的新工作分区以及当前的工作分区作为输入，利用基于强化学习的筛选模型确定是否替换当前的工作分区，即更新或维持当前的GPU与网络层的配置关系。 8.一种基于权利要求1所述GPU配置方法或权利要求6所述训练方法的分布式训练系统，其特征在于：所述分布式训练系统至少包括：若干GPU服务器，每个GPU服务器上设置了 GPU、 CPU、内存、网卡以及交换机；其中， GPU用于实现神经网络训练；所述内存用于存储数据； CPU、网卡以及交换机用于实现数据传输，所述GPU服务器之间采用分布式通讯。 9.一种电子设备，其特征在于：包括：一个或多个处理器；存储了一个或多个计算机程序的存储器；其中，所述处理器调用所述计算机程序以实现：权利要求1所述的GPU配置方法或权利要求6所述的神经网络分布式训练方法。 10.一种可读存储介质，其特征在于：存储了计算机程序，所述计算机程序被处理器调用以实现：权利要求1所述的GPU配置方法或权利要求6所述的神经网络分布式训练方法。权　利　要　求　书 2/2 页 3 CN 115033388 A 3

专利 一种人工智能系统中流水行并行的GPU配置方法及系统

专利一种人工智能系统中流水行并行的GPU配置方法及系统