面向Flink迭代作业的动态资源分配策略
作者:
作者单位:

作者简介:

岳晓飞(1998-),男,硕士生,CCF学生会员,主要研究领域为大数据管理,分布式计算;
季航旭(1990-),男,博士生,CCF学生会员,主要研究领域为分布式计算,网络表示学习;
史岚(1964-),女,博士,副教授,主要研究领域为计算机体系结构,网络信息安全;
王国仁(1966-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为不确定数据管理,数据密集型计算,可视媒体数据分析管理,非结构化数据管理,分布式查询处理与优化,生物信息学;
赵宇海(1975-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为数据库,数据挖掘,机器学习,软件工程,生物信息学.

通讯作者:

赵宇海,E-mail:zhaoyuhai@mail.neu.edu.cn

中图分类号:

基金项目:

国家重点研发计划(2018YFB1004402);国家自然科学基金(61772124)


Dynamic Resource Allocation Strategy for Flink Iterative Jobs
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    新兴分布式计算框架Apache Flink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP (resource allocation based onruntime prediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果在迭代作业提交时和超步间的同步屏障处分别进行资源的初始分配和动态调整,以保证可使用最小资源集,使迭代作业在用户规定的运行时限内完成.通过在不同数据集下执行多种典型的Flink迭代作业进行了相关对比实验,实验结果表明,所建立的运行时间预测模型能够对各个超步的运行时间进行准确预测,而且在单作业和多作业场景下,采用所提出的动态资源分配策略相比于目前最先进算法在各项性能指标上都有所提升.

    Abstract:

    Apache Flink, an emerging distributed computing framework, supports the execution of large-scale iterative programs on the cluster, but its default static resource allocation mechanism makes it impossible to carry out reasonable resource allocation to make iterative jobs complete on time. In response to this problem, that users should be relied on to actively express performance constraints rather than passively retain resources. RABORP, a dynamic resource allocation strategy based on runtime prediction is proposed to develop and implement a dynamic resource allocation plan for Flink iterative jobs with clear runtime limits. The main idea is to predict the runtime of each iteration superstep, and then the initial allocation and dynamic adjustment of resources are performed at the time of the iterative job submission and the synchronization barrier between the supersteps according to the predicted results, to ensure that the minimum set of resources can be used to complete the iterative job within the runtime limit specified by the user. A variety of typical Flink iterative jobs were executed under the dataset to carry out relevant comparative experiments. Experimental results show that the established runtime prediction model can accurately predict the runtime of each superstep, and compared with the current state-of-the-art algorithms, the proposed dynamic resource allocation strategy used in single-job and multi-job scenarios has improved various performance indicators.

    参考文献
    相似文献
    引证文献
引用本文

岳晓飞,史岚,赵宇海,季航旭,王国仁.面向Flink迭代作业的动态资源分配策略.软件学报,2022,33(3):985-1004

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-30
  • 最后修改日期:2021-07-31
  • 录用日期:
  • 在线发布日期: 2021-10-21
  • 出版日期: 2022-03-06
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号