主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
邝砾,施如意,赵雷浩,张欢,高洪皓.大粒度Pull Request描述自动生成.软件学报,2021,32(6):14-0
大粒度Pull Request描述自动生成
Automatic Generation of Large-Granularity Pull Request Descriptions
投稿时间:2020-08-09  修订日期:2020-10-26
DOI:10.13328/j.cnki.jos.006239
中文关键词:  Pull Request描述  异质图神经网络  强化学习  非结构性文档  摘要生成
英文关键词:pull request description  heterogeneous graph neural network  REINFORCE algorithm  unstructured document  summarization generation
基金项目:国家重点研发计划资助(2018YFB1003800);国家自然科学基金(61772560)
作者单位E-mail
邝砾 中南大学 计算机学院, 湖南 长沙 410075  
施如意 中南大学 计算机学院, 湖南 长沙 410075  
赵雷浩 中南大学 计算机学院, 湖南 长沙 410075  
张欢 中南大学 计算机学院, 湖南 长沙 410075  
高洪皓 上海大学 计算机工程与科学学院, 上海 200444 gaohonghao@shu.edu.cn 
摘要点击次数: 56
全文下载次数: 23
中文摘要:
      在GitHub平台中,许多项目贡献者在提交Pull Request (PR)时往往会忽略提交PR描述,这使得他们提交的PR容易被评审者忽略或者拒绝,因此自动生成PR描述以帮助项目贡献者提高PR通过率是很有必要的.然而,现有PR描述生成方法的表现会受到PR粒度影响,无法有效为大粒度的PR生成描述.因此我们的工作专注于大粒度PR描述的自动生成.我们首先对PR中的文本信息进行预处理,将文本中的单词作为辅助节点构建词-句异质图,以建立PR语句间的联系.随后对异质图进行特征提取,并将提取后的特征输入至图神经网络进行图表示学习,通过节点间的消息传递,使句子节点学习到更丰富的内容信息,最后选择带有关键信息的句子组成PR描述.此外,针对PR数据集缺少人工标注的真实标签而无法进行监督学习的问题,我们使用强化学习指导PR描述的生成,以最小化获得奖励的负期望为目标训练模型,该过程与标签无关,并且直接提升了生成结果的表现.我们在真实的数据集上进行了实验,实验结果表明,我们提出的大粒度PR描述生成方法在F1值和可读性上优于现有方法.
英文摘要:
      In the GitHub platform, many project contributors often ignore the descriptions of Pull Requests (PRs) when submitting PRs, making their PRs easily neglected or rejected by reviewers. Therefore, it is necessary to generate PR descriptions automatically to help increase PR pass rate. The performances of existing PR description generation methods are usually affected by PR granularity, so it is difficult to generate descriptions for large-granularity PRs effectively. For this reason, our work focuses on generating descriptions for large-granularity PRs. We first preprocess the text information in PR and construct word-sentence heterogeneous graphs where the words are used as secondary nodes, so as to establish the connections between PR sentences. Subsequently, feature extraction is performed on the heterogeneous graphs, and then the features are input into the graph neural network for further graph representation learning, from which the sentence nodes can learn more abundant content information through message delivery between nodes. Finally, we select sentences with key information to form a PR description. In addition, the supervised learning method cannot be used for training due to the lack of manually labeled tags in the dataset, therefore, we use reinforcement learning to guide the generation of PR descriptions. The goal of model training is minimizing the negative expectation of rewards, which does not require the ground truth and and directly improves the performance of the results. We conduct experiments on the real dataset and the experimental results show that our method is superior to existing methods in F1 and readability.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利