主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第6期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
吴悦文,吴恒,任杰,张文博,魏峻,王焘,钟华.面向大数据分析作业的启发式云资源供给方法.软件学报,2020,31(6):1860-1874
面向大数据分析作业的启发式云资源供给方法
Heuristic Based Resource Provisioning Approach for Big Data Analytics in Cloud Environment
投稿时间:2018-06-06  修订日期:2018-09-30
DOI:10.13328/j.cnki.jos.005710
中文关键词:  大数据分析|云计算|启发式|云资源供给|贝叶斯优化
英文关键词:big data analytics|cloud computing|heuristic|cloud resource provisioning|Bayesian optimization
基金项目:国家重点研发计划(2017YFB1400804);北京市自然科学基金(4182070);蚂蚁金服科研基金(XZ502017000730);中国科学院青年创新促进会人才专项(2018144)
作者单位E-mail
吴悦文 中国科学院 软件研究所 软件工程技术中心, 北京 100190
中国科学院大学, 北京 100049 
 
吴恒 中国科学院 软件研究所 软件工程技术中心, 北京 100190 wuheng@otcaix.iscas.ac.cn 
任杰 中国科学院大学, 北京 100049  
张文博 中国科学院 软件研究所 软件工程技术中心, 北京 100190  
魏峻 中国科学院 软件研究所 软件工程技术中心, 北京 100190
天基综合信息系统重点实验室(中国科学院 软件研究所), 北京 100190
中国科学院大学, 北京 100049 
 
王焘 中国科学院 软件研究所 软件工程技术中心, 北京 100190  
钟华 中国科学院 软件研究所 软件工程技术中心, 北京 100190
天基综合信息系统重点实验室(中国科学院 软件研究所), 北京 100190
中国科学院大学, 北京 100049 
 
摘要点击次数: 146
全文下载次数: 319
中文摘要:
      云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享特点,获取其他大数据分析作业的运行时监测和云资源配置信息,建立负载分类与优化云资源配置的启发式规则,并将该规则作用到贝叶斯优化算法的收益函数.基于HiBench,SparkBench测试基准的结果显示:RP-CH相对于已有方法CherryPick、大数据分析作业的性能平均提升了58%,成本平均减少了44%.
英文摘要:
      It is a big challenge to pick up the best cloud configuration for recurring big data analytics jobs running in clouds. Prior efforts may get in a sub-optimal configuration due to a broad spectrum of cloud configurations with a few test runs, such as CherryPick. RP-CH, presented in this paper, is a resource provisioning system that leverages heuristic rules based on classification information to identify the optimal cloud configuration for big data analytics jobs, while the insight is classifying a job by comparing its resource preference and usage information with other jobs. Then, heuristic rules are used to distinguish bad samples from good ones in Bayesian optimization algorithm. The experiments on HiBench and SparkBench in Aliyun ECS show that the performance of job has been improved by 58% in average comparing with CherryPick, meanwhile the resource cost has been reduced by 44% in average.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利