2. 国家自然科学基金委员会 信息科学部, 北京 100085
2. Department of Information Sciences, National Natural Science Foundation of China, Beijing 100085, China
国家自然科学基金申请书通常反映相关领域目前最新进展和成果.申请书一般都附有关键词, 这些关键词能够迅速、准确地反映出一份申请书的主题内容和重点, 也是函评阶段计算机辅助指派系统进行专家匹配的重要因素之一.对某个研究领域较长时间段的大量基金申请书进行关键词的词频和趋势规律分析, 有助于揭示本领域研究的热点、总体内容特征、内容之间的内在联系、学术研究的发展脉络与发展方向等[1].文献[2]对国家自然科学基金自动化领域1986年~2017年项目申请和资助数据进行了大量分析, 发现自动化领域基金资助的相关领域反映了国内外研究前沿; 同时发现, 热点领域理论研究的比重大于应用基础研究.
近些年, 随着网络和存储技术的快速发展, 多媒体数据量呈爆炸式增长, 图像和视频数据的研究已成为计算机应用领域研究的热点.2019年, 国家自然科学基金委员会信息科学部明确将“社交媒体大数据分析与处理”作为优先支持的研究领域之一[3].目前, 计算机学科(对应一级代码F02)共设有65个三级代码.近5年, 计算机图像与视频处理领域(对应三级代码F020502)的项目申请量和项目资助量在65个三级代码中均排第一位, 具体地, 在申请方面, 2014年~2018年度各类项目总量共计2 445项, 占计算机应用(F0205)项目总量的27.4%, 占整个计算机学科项目总量的10.4%;在资助方面, 2014年~2018年度各类项目总量共计646项, 占计算机应用项目总量的30.09%, 占整个计算机学科项目总量的11.5%.因此, 本文选取2014年~2018年计算机图像与视频处理领域的项目关键词进行统计和分析.
1 关键词标引量与资助率在进行项目申报时, 国家自然科学基金委员会要求每个项目标引5个以内(含5个)的关键词.我们统计了2014年~2018年计算机图像与视频处理领域的项目申请量及其标引的关键词数量(本文统计的关键词数量包含了重复出现的关键词)、项目资助量及其标引的关键词数量, 见表 1.
根据表 1中的结果统计, 2014年~2018年申请项目2 445项, 标引关键词10 686个, 篇均关键词4.37个.资助项目646项, 标引关键词2 844个, 篇均关键词4.40个.
同时, 我们还统计了计算机图像与视频处理领域关键词标引量(关键词标引量:申请书中所标注的关键词的个数)及其对应的项目申请量, 如图 1所示.
由图 1可以看出:大多数申请项目的关键词标引量集中在4~5个, 其中, 标注了4个和5个关键词的项目数量分别有673项和1 377项, 分别占总项目的27.53%和56.32%, 二者之和所占比例达83.85%.
此外, 笔者还统计了计算机图像与视频处理领域关键词标引量及其对应的项目资助占比, 如图 2所示, 其中, 括号内的数字为关键词标引量对应项目数量的占比.
由图 2可以看出, 近5年资助项目的关键词标引量具有以下特点.
(1) 大多数获资助项目的关键词标引量集中在4~5个, 其中, 标注4个和5个关键词的项目共计544项, 占项目总数的84.21%;标引5个关键词的项目资助占比最高, 相对于同为5个关键词的项目申请占比(56.32%)高2.5%;
(2) 结合图 1数据, 可以计算出标引1~5个关键词的项目资助率分别为25%, 20.69%, 26.83%, 24.37%, 27.6%, 其中, 标引5个关键词的项目获得资助的比例相对较高.
以上分析表明, 获资助申请书其关键词标引量绝大多数在4个或以上, 当申请书的关键词标引量为5时, 获资助比例较高.
2 关键词词频与资助率 2.1 关键词词频统计词频用于定义关键词在某一研究领域中出现的频次高低[4].我们对2014年~2018年计算机图像与视频处理领域申请及获资助项目的关键词词频进行统计, 表 2中列出排序在前10的关键词及其词频(注:申请及获资助项目的关键词总量分别为10 686和2 844).
由表 2的统计结果可以看出:
(1) 从关键词反映出的申请项目的研究热点与专家的认可度基本一致, 例如:申请项目和资助项目词频排序在前2位的均依次为“深度学习”和“特征提取”.然而, 两者其他关键词的研究热度和专家认可度并不一致, 如“图像理解”在资助项目的关键词词频排序中列第3位, 而在申请项目的关键词词频排序中列第7位;
(2) 高频词确实反映了计算机图像与视频处理领域的热点:a)随着AlphaGo战胜人类围棋世界冠军, 人工智能迎来第三次热潮, 深度学习成为本领域备受关注的研究内容, 这在表 2的词频统计结果中得到了充分体现; b)图像特征提取是图像和视频研究的关键, 特征提取的效果直接决定着图像和视频应用的性能.如何从原始图像中提取具有较强表示能力的特征, 是计算机图像与视频处理的一个研究热点.这从表 2中也得到体现.
2.2 关键词词频与资助率我们对计算机图像与视频处理领域的项目出现频次较高的关键词的资助率进行统计, 并将统计结果按照资助项目的关键词词频高低进行排序, 表 3给出了资助项目词频排序在前10的关键词的资助率统计结果.
从表 3可以看出:
(1) 词频高的项目, 其资助率不一定高.例如:“图像理解”在资助项目的关键词词频排序中列第3位, 在申请项目的词频排序中列第7位, 其资助率较高; “目标检测”在资助项目的关键词词频排序中列第8位, 在申请项目的关键词词频排序中列第4位, 其资助率较低;
(2) 涉及“深度学习”和“图像理解”的项目相对容易得到同行专家的认可.
3 研究热点变化词频分析法是利用词频来确定该领域研究热点和发展动向的计量学方法[4].申请书中关键词词频的高低, 可以反映本领域的研究热点和主要研究方向, 由关键词词频分布特征可以分析出本领域研究的集中程度.为了分析近5年计算机图像与视频处理领域研究热点的变化, 笔者运用词频分析法从词频方面分别对申请项目和资助项目的关键词词频进行逐年统计, 并列出词频排序在前10的关键词(见表 4).由表 4的统计结果可以看出:
(1) 对于词频最高的关键词, 申请项目和资助项目两者完全匹配.例如:2014年, 申请项目和资助项目词频最高的关键词均为“计算机视觉”; 2015年~2018年, 关键词“深度学习”的词频排序持续保持第一.目前, 深度学习发展迅速, 其研究价值和潜力正不断地被挖掘, 在图像检索、语音识别、人脸识别、机器翻译等领域均取得了突出的应用效果;
(2) 对于其他关键词, 申请项目和资助项目两者的词频排序基本不匹配, 具体表现在同一关键词不仅在同一年度的申请和资助的词频排序各不相同, 而且不同年份的词频排序变化波动也较为明显.以“图像检索”关键词为例, 图 3给出其近5年在申请和资助两方面词频排序的变化.
4 总结
本文从申请项目和资助项目两个方面, 对2014年~2018年计算机图像与视频处理领域的关键词进行统计, 分别对关键词的标引量和词频进行分析, 并探讨了它们与资助率的关系, 最后, 透过热频关键词的变化分析了计算机图像与视频处理领域研究热点的变化.可以看出, “深度学习”在计算机图像与视频处理领域已持续成为大家关注和感兴趣的研究课题.
致谢 感谢国家自然科学基金委科学传播中心徐卫国老师在论文撰写和修改过程中给予的悉心指导和帮助.
[1] |
Li WL, Yang ZG. Analysis on frequencies of keywords in Chinese information science journals papers. Information Science, 2005, 23(1): 68-70, 143(in Chinese with English abstract).
[doi:10.3969/j.issn.1007-7634.2005.01.016] |
[2] |
Deng F, Song S, Liu K, Wu GZ, Fu J. Data and research hotspot analyses of national natural science foundation of china in automation field. Acta Automatica Sinica, 2018, 44(2): 377-384(in Chinese with English abstract).
http://d.old.wanfangdata.com.cn/Periodical/zdhxb201802016 |
[3] |
National Natural Science Foundation of China. National Natural Science Fund Guide to Programs 2019. Beijing: Science Press, 2019.
|
[4] |
Ma FC, Zhang Q. Comparative analysis of knowledge management literature between China and overseas:A bibliometric analysis. Journal of the CHINA Society for Scientific and Technical Information, 2006, 25(2): 163-171(in Chinese with English abstract).
[doi:10.3969/j.issn.1000-0135.2006.02.003] |
[1] |
李文兰, 杨祖国. 中国情报学期刊论文关键词词频分析. 情报科学, 2005, 23(1): 68-70, 143.
[doi:10.3969/j.issn.1007-7634.2005.01.016] |
[2] |
邓方, 宋苏, 刘克, 吴国政, 付俊. 国家自然科学基金自动化领域数据分析与研究热点变化. 自动化学报, 2018, 44(2): 377-384.
http://d.old.wanfangdata.com.cn/Periodical/zdhxb201802016 |
[3] |
国家自然科学基金委员会. 2019年度国家自然科学基金项目指南. 北京: 科学出版社, 2019.
|
[4] |
马费成, 张勤. 国内外知识管理研究热点——基于词频的统计分析. 情报学报, 2006, 25(2): 163-171.
[doi:10.3969/j.issn.1000-0135.2006.02.003] |