论文摘要
在云计算环境下,并发训练多机器学习模型会造成严重的共享集群资源竞争,影响执行效率。针对该问题,论文提出一种面向分布式机器学习的云计算资源调度方法。根据历史监测数据建立迭代次数与模型质量提升间的模型,在线预测资源分配对模型质量提升的影响,制定资源优化调度策略,并且设计了资源调度框架。实验结果表明,所提出的方法能够快速适应任务和负载的动态变化,实现多个模型训练作业的整体性能最大化。
论文目录
文章来源
类型: 期刊论文
作者: 刘永波,李亚琼,周博,李守超,宋云奎
关键词: 机器学习,模型训练,资源调度,云计算
来源: 计算机与数字工程 2019年12期
年度: 2019
分类: 信息科技
专业: 自动化技术
单位: 中国科学院软件研究所
基金: 南京市高端人才团队引进计划(编号:10072090),国家自然科学基金项目(编号:61602454)资助
分类号: TP181
页码: 3059-3062+3068
总页数: 5
文件大小: 1595K
下载量: 252