(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210668952.5
(22)申请日 2022.06.14
(65)同一申请的已公布的文献号
申请公布号 CN 114780225 A
(43)申请公布日 2022.07.22
(73)专利权人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 王勤龙 桑波
(74)专利代理 机构 北京博思佳知识产权代理有
限公司 1 1415
专利代理师 李威
(51)Int.Cl.
G06F 9/48(2006.01)
G06F 9/50(2006.01)(56)对比文件
CN 114139723 A,202 2.03.04
CN 113485833 A,2021.10.08
CN 113157413 A,2021.07.23
CN 110597626 A,2019.12.20
CN 109558248 A,2019.04.02
US 2021132994 A1,2021.0 5.06
CN 111507474 A,2020.08.07
CN 112799850 A,2021.0 5.14
CN 10916 5093 A,2019.01.08
CN 114035937 A,202 2.02.11
党小超等.基于改进Elman神经网络的网络
流量预测. 《计算机 应用》 .2010,第3 0卷(第10
期),全文.
审查员 刘启军
(54)发明名称
一种分布式模型训练系统、 方法及装置
(57)摘要
本说明书公开了一种分布式模 型训练系统、
方法及装置, 分布式模型训练系统包括节点分配
单元、 资源预测单元、 工作节点和参数服务器, 节
点分配单元根据模型训练任务, 节 点资源预测请
求, 由资源预测单元响应于节点资源预测请求,
根据历史任务, 预测执行模型训练任务所需的资
源, 进而根据预测的资源确定节点数量。 节点分
配单元根据节点数量, 确定各工作节点, 并向各
工作节点分配模 型训练任务, 使参数服务器配合
各工作节点执行模型训练任务。 可见, 资源预测
单元能够自动确定工作节点的数量, 并由节点分
配单元自动确定工作节点, 使工作节 点开始执行
模型训练任务, 无需用户在模型训练开始前手工
分配工作节点, 提高了模型训练的速度。
权利要求书4页 说明书19页 附图7页
CN 114780225 B
2022.09.23
CN 114780225 B
1.一种分布式模型训练系统, 所述系统包括: 节点分配单元、 资源预测单元、 工作节点
和参数服 务器; 所述工作节点包括: 主工作节点以及从工作节点;
所述节点分配单元, 用于根据模型训练任务, 向所述资源预测单元发送节点资源预测
请求, 并向所述主工作节点分配所述模型训练任务; 根据由所述资源预测单元发送的节点
数量, 从分布式系统中确定所述节点数量的用于执行所述模型训练任务的各工作节点, 并
向确定出的各工作节点分配所述模型训练任务;
所述资源预测单元, 用于响应于所述资源预测请求, 根据历史任务, 预测执行所述模型
训练任务所需资源; 接 收主工作节点反馈的指定资源参数, 作为执行所述模型训练任务所
需资源; 接 收由所述参数服务器发送的第一负载; 根据所述指定资源参数中主工作节点的
耗时以及所述第一负载, 确定从工作节点的数量; 将所述从工作节点的数量发送给所述节
点分配单 元;
所述工作节点, 用于接收由所述节点分配单元分配的模型训练任务, 以及由所述参数
服务器发送的模型参数; 根据预先存储的模型结构、 所述模型参数以及由所述节点分配单
元分配的模型训练任务, 确定模型梯度; 将所述模型梯度发送给所述参数服务器; 其中, 所
述主工作节点执 行所述模型训练任务并向所述资源预测单 元反馈指定资源参数;
所述参数服务器, 用于接收由所述工作节点发送的模型梯度; 根据 所述模型梯度, 更新
所述参数服务器 自身保存的模型参数, 并返回给所述工作节点; 监测所述参数服务器 自身
处理由所述主工作节点发送的模型梯度的负载, 作为第一负载; 将所述第一负载发送给所
述资源预测单 元。
2.如权利要求1所述的系统, 所述资源预测单元, 用于响应于由所述节点分配单元发送
的资源预测请求, 根据从历史数据库中查找的历史任务对应的历史资源使用量, 预测主工
作节点执行所述模型训练任务所需的第一资源使用量, 向所述节点分配单元发送所述第一
资源使用量;
所述节点分配单元, 用于根据 所述第一资源使用量, 在 分布式系统中, 确定所述主工作
节点。
3.如权利要求2所述的系统, 所述资源预测单元, 用于根据 所述主工作节点反馈的指定
资源参数, 确定主工作节点的耗时; 根据所述主工作节点的耗时, 确定从工作节点的数量;
将所述从工作节点的数量发送给节点分配单 元;
所述节点分配单元, 用于根据接收到的从工作节点的数量, 在所述分布式系统中, 确定
执行所述模型训练任务的各从工作节点, 并向各从工作节点分配所述模型训练任务。
4.如权利要求2所述的系统, 所述资源预测单元, 用于根据 所述主工作节点反馈的指定
资源参数, 确定从工作 节点的资源使用量; 将所述从工作 节点的资源使用量, 发送至所述节
点分配单 元;
所述节点分配单元, 用于向确定出的各工作节点分配所述模型训练任务以及所述从工
作节点的资源使用量;
所述工作节点, 用于根据所述从工作节点的资源使用量, 确定为执行所述模型训练任
务分配的资源。
5.一种分布式模型训练方法, 包括:
响应于由节点分配单元发送的节点资源预测请求, 根据历史任务, 预测执行模型训练权 利 要 求 书 1/4 页
2
CN 114780225 B
2任务所需资源;
根据预测得到的资源确定节点数量;
将所述节点数量发送给所述节点分配单元, 以使所述节点分配单元根据所述节点数
量, 从分布式系统中确定所述节点数量的用于执行所述模型训练任务的各工作节点, 并向
确定出的各工作 节点分配所述模型训练任务, 所述各工作节点根据所述模 型训练任务与参
数服务器共同进行分布式模型训练;
根据预测得到的资源确定节点数量, 具体包括:
接收由主工作节点反馈的指定资源参数, 作为执行所述模型训练任务所需资源, 所述
指定资源参数包括执行所述模型训练任务时, 所述主工作节点的实际资源使用量以及耗
时;
获取由所述参数服务器发送的第 一负载; 所述第 一负载用于表征所述参数服务器处理
由所述主工作节点发送的模型梯度所用的实际资源使用量;
响应于由所述节点分配单元发送的第 二节点资源预测请求, 根据 所述主工作节点的耗
时, 以及所述第一负载, 确定从工作节点的数量;
根据所述主工作节点的实际资源使用量, 确定各从工作节点的资源使用量。
6.如权利要求5所述的方法, 根据历史任务, 预测执行所述模型训练任务所需资源, 具
体包括:
从历史数据库中查找历史任务对应的历史资源使用量;
响应于由所述节点分配单元发送的第一节点资源预测请求, 根据所述历史资源使用
量, 预测主工作节点执 行所述模型训练任务所需的第一资源使用量;
将所述第一资源使用量发送给所述节点分配单元, 使所述节点分配单元根据 所述第一
资源使用量, 在分布式系统中确定执行所述模型训练任务的主工作节点, 并向所述主工作
节点分配所述模型训练任务, 以便所述主工作 节点执行所述模型训练任务并反馈指定 资源
参数。
7.如权利要求6所述的方法, 所述方法还 包括:
获取由所述参数服务器发送的第 二负载; 所述第 二负载用于表征所述参数服务器处理
由主工作节点以及各从工作节点分别发送的模型梯度所用的资源使用量;
响应于由所述节点分配单元发送的第三节点资源预测请求, 根据所述第二负载, 确定
从工作节点的调整数量, 并发送给所述节点分配单元, 以使所述节点分配单元根据所述从
工作节点的调整数量对执 行所述模型训练任务的从工作节点的当前 数量进行调整。
8.一种分布式模型训练方法, 包括:
根据模型训练任务, 向资源预测单元发送节点资源预测请求, 并向主工作节点分配所
述模型训练任务, 以使 所述资源预测单元响应于所述节点资源 预测请求, 根据历史任务, 预
测执行所述模型训练任务所需资源, 接 收主工作节点反馈的指定资源参数, 作为执行所述
模型训练任务所需资源; 接 收由参数服务器发送的第一负载; 根据所述指定资源参数中主
工作节点的耗时以及所述第一负载, 确定从工作节点的数量;
根据由所述资源预测单元发送的节点数量, 从分布式系统中确定执行所述模型训练任
务的各工作节点, 并向确定出 的各工作节点分配所述模型训练任务, 所述各工作节点根据
所述模型训练任务与参数服 务器共同进行分布式模型训练。权 利 要 求 书 2/4 页
3
CN 114780225 B
3
专利 一种分布式模型训练系统、方法及装置
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:26:18上传分享