主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第11期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
金国栋,卞昊穹,陈跃国,杜小勇.HDFS存储和优化技术研究综述.软件学报,2020,31(1):0
HDFS存储和优化技术研究综述
Survey on Storage and Optimization Techniques of HDFS
投稿时间:2019-01-17  修订日期:2019-03-11
DOI:10.13328/j.cnki.jos.005872
中文关键词:  HDFS  分布式文件系统  存储系统优化  数据分析
英文关键词:HDFS  distributed file system  storage system optimization  data analysis
基金项目:国家重点研发计划(2018YFB1004401);国家自然科学基金(U1711261,61432006,61732014).
作者单位E-mail
金国栋 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
卞昊穹 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
陈跃国 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
chenyueguo@ruc.edu.cn 
杜小勇 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
摘要点击次数: 929
全文下载次数: 590
中文摘要:
      HDFS (Hadoop Distributed File System)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过十余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载三个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
英文摘要:
      As an append-only and read optimized open-source distributed file system, HDFS (Hadoop Distributed File System) provides portability, high fault-tolerance, and massive horizontal scalability. Over the past decade, HDFS has been widely used for big data storage, and it manages various data, such as text, graph, key-values, etc. Moreover, big data systems based on or compatible with HDFS have been prevalent in many application scenarios such as complex SQL analysis, ad-hoc queries, interactive analysis, key-value storage, and iterative computation. We can tell that HDFS has been the universal underlying file system to store massive data and support manifold analytical applications. Therefore, it is of great significance to optimizing the storage performance and data access efficiency of HDFS. In this paper, we summarize the principles and features of HDFS and present a survey on storage and optimization techniques of HDFS from three dimensions, including logic file structure, hardware, and application scenarios. We also propose that storage over heterogeneous hardware, workload-guided adaptive storage optimization, and storage optimization combined with machine learning technologies could be the most appealing research directions in the future.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利