面向深度学习训练的内存交换机制综述
作者:
作者单位:

作者简介:

高赫然(1997-),男,博士生,主要研究领域为边缘计算,分布式系统;吴恒(1983-),男,博士,副研究员,CCF专业会员,主要研究领域为容器虚拟化,边缘计算;许源佳(1990-),男,博士生,主要研究领域为资源调度,分布式系统;李修和(1975-),男,博士,教授,主要研究领域为复杂电磁环境科学,体系对抗,高性能仿真;王焘(1982-),男,博士,副研究员,CCF高级会员,主要研究领域为软件可靠性,智能运维,云计算,服务计算,大数据优化;张文博(1976-),男,博士,研究员,博士生导师,CCF专业会员,主要研究领域为云计算,服务计算.

通讯作者:

张文博,E-mail:zhangwenbo@otcaix.iscas.ac.cn

中图分类号:

基金项目:

国家重点研发计划(2018YFB1402803); 国家自然科学基金(61872344, 61972386); 山东省重大研发计划(2021CXGC010101)


Survey on Memory Swapping Mechanism for Deep Learning Training
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着深度学习技术的快速发展和深入应用, 深度学习训练规模持续增大, 内存不足已成为影响深度学习可用性的主要瓶颈之一. 内存交换机制是应对深度学习训练内存问题的关键技术, 该机制利用深度学习训练内存需求的“时变”特征, 在专用计算加速设备内存与外部存储之间按需移动数据, 通过瞬时内存需求替代累积内存需求, 保障深度学习训练任务的运行. 对面向深度学习训练的内存交换机制进行综述, 以深度学习训练内存需求的时变特征为研究视角, 分别针对基于算子运行特征的内存换出机制、基于数据依赖关系的内存换入机制以及效能驱动的联合换出与换入决策等重要研究工作进行了总结分析, 并针对该技术领域的发展方向进行了展望.

    Abstract:

    With the rapid growth and further application of deep learning (DL), the scale of DL training continues to expand, and memory insufficiency has become one of the major bottlenecks threatening DL availability. Memory swapping mechanism is the key mechanism to alleviate the memory problem of DL training. This mechanism leverages the “time-varying” memory requirement of DL training and moves the data between specific computing accelerating device memory and external storage according to demands. The operation of DL training tasks can be ensured by replacing an accumulated memory requirement with an instant one. This study surveys the memory swapping mechanism for DL training from the aspect of time-varying memory requirements. Key studies of an operator feature-based memory swapping-out mechanism, a data dependency based swapping-in mechanism, and efficiency-driven joint swapping-in and swapping-out decisions are summarized. Finally, the development prospect of this technology is pointed out.

    参考文献
    相似文献
    引证文献
引用本文

高赫然,吴恒,许源佳,李修和,王焘,张文博.面向深度学习训练的内存交换机制综述.软件学报,2023,34(12):5862-5886

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-04-27
  • 最后修改日期:2022-06-12
  • 录用日期:
  • 在线发布日期: 2022-12-30
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号