多模态医疗数据中海量小文件存储优化方法
作者:
作者单位:

作者简介:

曾梦(1995-),女,博士生,主要研究领域为分布式系统,大数据存储管理,机器学习;杨雪冰(1991-),男,博士,副研究员,主要研究领域为机器学习,大数据知识挖掘,人工智能在智慧气象及辅助医疗的交叉应用;邹北骥(1961-),男,博士,教授,博士生导师,CCF杰出会员,主要研究领域为医疗人工智能,医学大数据分析;朱承璋(1978-),女,博士,副教授,CCF高级会员,主要研究领域为机器学习,医学图像处理;张文生(1965-),男,博士,研究员,博士生导师,主要研究领域为人工智能,跨模态数据标注,医疗数据分析推理.

通讯作者:

朱承璋,chzhzhu@csu.edu.cn

中图分类号:

TP311

基金项目:

科技创新2030——“新一代人工智能”重大项目(2018AAA0102100);湖南省科技计划项目(2017WK2074);湖南省高新技术产业科技创新引领计划(2020GK2021)


Optimization Method for Storing Massive Small Files in Multi-modal Medical Data
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O (1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及HPF小文件合并方法相比,文件读取时间更短,能够提高HDFS在处理多模态医疗数据中海量小文件时的整体性能.

    Abstract:

    Hadoop distributed file system (HDFS) is used for the storage and management of large files, while storing and computing a large number of small files consume a lot of NameNode memory usage and access time. Therefore, the small file problem becomes an important factor that restricts HDFS performance. Aiming at the problem of massive small files in multi-modal medical data, a small file storage method based on two-layer hash coding and HBase is proposed to optimize the storage of massive small files on HDFS. When merging small files, an expandable hash function is utilized to build an index file bucket to expand the index file dynamically as needed and realize the file append function. To read the file in O(1) time complexity and improve the efficiency of file search, the MWHC hash function is used to store the position of the index information of each file in the index file. There is no need to read the index information of all files, only need to read the index information of the corresponding bucket. To meet the storage needs of multi-modal medical data, HBase is used to store the index information and set the identification column to identify different modal medical data, which is convenient for storage and management of different modal data and improves file reading speed. To further optimize storage performance, the LRU-based metadata prefetching mechanism is established, and the LZ4 compression algorithm is utilized to compress the merged files. The experiment compares file access performance and NameNode memory usage. The results show that compared with the original HDFS, HAR, MapFile, TypeStorage, and HPF small file storage methods, the proposed algorithm has a shorter file access time, which can improve the overall performance of HDFS when processing massive small files in multi-modal medical data.

    参考文献
    相似文献
    引证文献
引用本文

曾梦,邹北骥,张文生,杨雪冰,朱承璋.多模态医疗数据中海量小文件存储优化方法.软件学报,2023,34(3):1451-1469

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-06-17
  • 最后修改日期:2021-11-25
  • 录用日期:
  • 在线发布日期: 2023-03-10
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号