2020年第31卷第4期文章目次

非经典条件下的机器学习方法专题前言

高新波，黎铭，李天瑞

2020, 31(4):909-911. DOI: 10.13328/j.cnki.jos.005931

摘要 (1467) HTML (746) PDF 388.91 K (2397) 评论 (0) 收藏

摘要:

面向流数据分类的在线学习综述

翟婷婷，高阳，朱俊武

2020, 31(4):912-931. DOI: 10.13328/j.cnki.jos.005916

摘要 (3194) HTML (2910) PDF 692.47 K (5727) 评论 (0) 收藏

摘要:流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数，以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术，是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地，首先介绍在线学习的基本框架和性能评估方法，然后着重介绍在线学习算法在一般流数据上的工作现状，在高维流数据上解决"维度诅咒"问题的工作现状，以及在演化流数据上处理"概念漂移"问题的工作现状，最后讨论高维和演化流数据分类未来仍然存在的挑战和亟待研究的方向.

基于在线性能测试的概念漂移检测方法

郭虎升，张爱娟，王文剑

2020, 31(4):932-947. DOI: 10.13328/j.cnki.jos.005917

摘要 (2015) HTML (1332) PDF 1.69 M (3022) 评论 (0) 收藏

摘要:概念漂移是动态流数据挖掘中一类常见的问题，但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果，即模型在线测试性能的不稳定波动，导致二者容易混淆，发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题，提出一种基于在线性能测试的概念漂移检测方法（concept drift detection method based on online performance test，简称CDPT）.该方法将最新获得的数据集进行均匀分组，在每组子数据集上分别进行在线学习，同时记录每组子数据集训练测试得到的分类精度向量，并计算相邻学习时间单元之间的精度落差，依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点，以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰，根据精度波动一致性得到一致波动位点.最后，通过跟踪在线学习分类准确率，得到一致波动位点邻域参照点的测试精度变化，比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况，以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明，该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移，并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响，同时提高模型的泛化性能.

基于自回归预测模型的深度注意力强化学习方法

梁星星，冯旸赫，黄金才，王琦，马扬，刘忠

2020, 31(4):948-966. DOI: 10.13328/j.cnki.jos.005930

摘要 (2895) HTML (839) PDF 2.18 M (6685) 评论 (0) 收藏

摘要:近年来，深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性，出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而，传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性，可充分利用样本信息，有效提升数据利用率，加快模型训练速度，但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势，提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间，结合自回归模型建立环境预测模型，基于注意力机制结合预测模型估计每个决策状态的值函数，通过端到端的方式统一训练各算法模块，实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明，该模型能够高效地建立环境预测模型，并有效结合基于模型和无模型两类强化学习方法，实现样本的高效利用.最后，针对导弹突防智能规划问题进行了算法实证研究，应用结果表明，采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.

基于动静态表征的众筹协同预测方法

张凯，赵洪科，刘淇，潘镇，陈恩红

2020, 31(4):967-980. DOI: 10.13328/j.cnki.jos.005921

摘要 (2016) HTML (807) PDF 1.59 M (4382) 评论 (0) 收藏

摘要:众筹是一个新兴的互联网金融平台，项目的发起者可以通过使用互联网，征求大量平台用户的资金来资助他们的项目.但是由于众筹平台所具有的独特规则，只有在特定时间内收集了足够的资金，项目的筹资才会成功进行交易.为了防止项目发起者和投资者在可能失败的项目上浪费时间和精力，动态追踪众筹项目的筹资过程以及估算其融资成功概率便极为重要.然而，现有的一些工作既没有针对动态预测跟踪机制的研究，也没有考虑平台上的项目发起者和投资者之间的动态行为交互.为了解决这些问题，基于长短期记忆网络设计了一种新颖的动静态协同预测模型.该模型着重分析了用户行为，包括评论的情绪倾向以及融资过程中的动态增量信息，从而将融资项目与投资人之间的交互行为进行深度挖掘分析.首先，针对平台上的静态特征和动态用户行为数据，通过不同的Embedding方法得到他们的深度表征.在此基础上，进一步设计了基于注意力机制的协同预测模型，以便了解项目融资的时序信息对最终结果的影响程度.最后，在真实的众筹数据集上进行的大量实验结果表明，所提出的动静态表征预测方法相比其他预测方法更为有效.

基于k个标记样本的弱监督学习框架

付治，王红军，李天瑞，滕飞，张继

2020, 31(4):981-990. DOI: 10.13328/j.cnki.jos.005919

摘要 (2314) HTML (1246) PDF 1.09 M (3327) 评论 (0) 收藏

摘要:聚类是机器学习领域中的一个研究热点，弱监督学习是半监督学习中一个重要的研究方向，有广泛的应用场景.在对聚类与弱监督学习的研究中，提出了一种基于k个标记样本的弱监督学习框架.该框架首先用聚类及聚类置信度实现了标记样本的扩展.其次，对受限玻尔兹曼机的能量函数进行改进，提出了基于k个标记样本的受限玻尔兹曼机学习模型.最后，完成了对该模型的推理并设计相关算法.为了完成对该框架和模型的检验，选择公开的数据集进行对比实验，实验结果表明，基于k个标记样本的弱监督学习框架实验效果较好.

基于选择聚类集成的相似流形学习算法

罗晓慧，李凡长，张莉，高家俊

2020, 31(4):991-1001. DOI: 10.13328/j.cnki.jos.005922

摘要 (1952) HTML (828) PDF 1.24 M (3928) 评论 (0) 收藏

摘要:流形学习是当今最重要的研究方向之一.约简维度的选择影响着流形学习方法的性能.当约简维度恰好是本征维度时，更容易发现原始数据的内在性质.然而，本征维度估计仍然是流形学习的一个研究难点.在此基础上，提出了一种新的无监督方法，即基于选择聚类集成的相似流形学习（SML-SCE）算法，避免了对本征维度的估计，并且性能表现良好.SML-SCE利用改进的层次平衡K-means（MBKHK）方法生成具有代表性的锚点，高效地构造相似度矩阵.随后计算得到了多个不同维度下的相似低维嵌入，这些低维嵌入是对原始数据的不同表示，而且不同低维嵌入之间的多样性有利于集成学习.因此，SML-SCE采用选择性聚类集成方法作为结合策略.对于通过K-means聚类得到的相似低维嵌入的聚类结果，采用聚类间的归一化互信息（NMI）作为权重的衡量标准.最后，舍弃权重较低的聚类，采用基于权重的选择性投票方案，得到最终的聚类结果.在多个数据集的大量实验结果表明了该方法的有效性.

条件概率图产生式对抗网络

李崇轩，朱军，张钹

2020, 31(4):1002-1008. DOI: 10.13328/j.cnki.jos.005924

摘要 (1865) HTML (1050) PDF 868.40 K (3100) 评论 (0) 收藏

摘要:产生式对抗网络（generative adversarial networks，简称GANs）可以生成逼真的图像，因此最近被广泛研究.值得注意的是，概率图生成对抗网络（graphical-GAN）将贝叶斯网络引入产生式对抗网络框架，以无监督的方式学习到数据的隐藏结构.提出了条件概率图生成对抗网络（conditional graphical-GAN），它可以在弱监督环境下，利用粗粒度监督信息来学习到更精细而复杂的结构.条件概率图生成对抗网络的推理和学习遵循与graphical-GAN类似的方法.提出了条件概率图生成对抗网络的两个实例.条件高斯混合模型（conditional Gaussian mixture GAN，简称cGMGAN）可以在给出粗粒度标签的情况下从混合数据中学习细粒度聚类.条件状态空间模型（conditional state space GAN，简称cSSGAN）可以在给定对象标签的情况下学习具有多个对象的视频的动态过程.

基于谱聚类的无监督特征选择算法

谢娟英，丁丽娟，王明钊

2020, 31(4):1009-1024. DOI: 10.13328/j.cnki.jos.005927

摘要 (2262) HTML (1231) PDF 2.26 M (4524) 评论 (0) 收藏

摘要:基因表达数据具有高维小样本特点，包含了大量与疾病无关的基因，对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据，但样本类标获取往往比较困难.针对基因表达数据的特征选择问题，提出基于谱聚类的无监督特征选择思想FSSC（feature selection by spectral clustering）.FSSC对所有特征进行谱聚类，将相似性较高的特征聚成一类，定义特征的区分度与特征独立性，以二者之积度量特征重要性，从各特征簇选取代表性特征，构造特征子集.根据使用的不同谱聚类算法，得到FSSC-SD（FSSC based on standard deviation）、FSSC-MD（FSSC based on mean distance）和FSSC-ST（FSSC based on self-tuning）这3种无监督特征选择算法.以SVMs（support vector machines）和KNN（K-nearest neighbours）为分类器，在10个基因表达数据集上进行实验测试.结果表明，FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能力的特征子集.

基于带噪观测的远监督神经网络关系抽取

叶育鑫，薛环，王璐，欧阳丹彤

2020, 31(4):1025-1038. DOI: 10.13328/j.cnki.jos.005929

摘要 (1998) HTML (954) PDF 1.45 M (3898) 评论 (0) 收藏

摘要:远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时，不可避免地会产生各种错误数据标记，进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题，提出"最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果"这一假设.并在此假设的基础上，构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率，并在测试阶段，通过真实标签输出层得到最终的关系分类.随后，研究带噪观测模型与深度神经网络的结合，重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究，进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后，在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验，通过分析样本噪声的分布情况，对在各种样本噪声分布下的带噪观测模型进行性能评价，并与现有的主流基线方法进行比较.结果显示，所提出的带噪观测模型具有更高的准确率和召回率.

基于相似度驱动的线性哈希模型参数再优化方法

聂秀山，刘兴波，袭肖明，尹义龙

2020, 31(4):1039-1050. DOI: 10.13328/j.cnki.jos.005918

摘要 (2073) HTML (1149) PDF 1.45 M (2960) 评论 (0) 收藏

摘要:哈希学习通过设计和优化目标函数，并结合数据分布，学习得到样本的哈希码表示.在现有哈希学习模型中，线性模型因其高效、便捷的特性得到广泛应用.针对线性模型在哈希学习中的参数优化问题，提出一种基于相似度驱动的线性哈希模型参数再优化方法.该方法可以在不改变现有模型各组成部分的前提下，实现模型参数的再优化，提升模型检索性能.该方法首先通过运行现有哈希算法多次，获得训练集的多个哈希码矩阵，然后基于相似度保持度量标准和融合准则对多个哈希码矩阵进行优化选择，获得训练集的优化哈希矩阵，最后利用该优化哈希矩阵对原模型的参数进行再优化，进而获得更优的哈希学习算法.实验结果表明，该方法对不同的哈希学习算法性能都有较为显著的提升.

梯度有偏情形非光滑问题NAG的个体收敛性

刘宇翔，程禹嘉，陶卿

2020, 31(4):1051-1062. DOI: 10.13328/j.cnki.jos.005926

摘要 (1917) HTML (757) PDF 1.36 M (2903) 评论 (0) 收藏

摘要:随机优化方法已经成为处理大规模正则化和深度学习优化问题的首选方法，其收敛速率的获得通常都建立在目标函数梯度无偏估计的基础上，但对机器学习问题来说，很多现象都导致了梯度有偏情况的出现.与梯度无偏情形不同的是，著名的Nesterov加速算法NAG（Nesterov accelerated gradient）会逐步累积每次迭代中的梯度偏差，从而导致不能获得最优的收敛速率甚至收敛性都无法保证.近期的研究结果表明，NAG方法也是求解非光滑问题投影次梯度关于个体收敛的加速算法，但次梯度有偏对其影响的研究未见报道.针对非光滑优化问题，证明了在次梯度偏差有界的情况下，NAG能够获得稳定的个体收敛界，而当次梯度偏差按照一定速率衰减时，NAG仍然可获得最优的个体收敛速率.作为应用，得到了一种无需精确计算投影的投影次梯度方法，可以在保持收敛性的同时较快地达到稳定学习的精度.实验验证了理论分析的正确性及非精确方法的性能.

基于规则推理网络的分类模型

黄德根，张云霞，林红梅，邹丽，刘壮

2020, 31(4):1063-1078. DOI: 10.13328/j.cnki.jos.005920

摘要 (2623) HTML (1057) PDF 1.62 M (3565) 评论 (0) 收藏

摘要:为了缓解神经网络的"黑盒子"机制引起的算法可解释性低的问题，基于使用证据推理算法的置信规则库推理方法（以下简称RIMER）提出了一个规则推理网络模型.该模型通过RIMER中的置信规则和推理机制提高网络的可解释性.首先证明了基于证据推理的推理函数是可偏导的，保证了算法的可行性；然后，给出了规则推理网络的网络框架和学习算法，利用RIMER中的推理过程作为规则推理网络的前馈过程，以保证网络的可解释性；使用梯度下降法调整规则库中的参数以建立更合理的置信规则库，为了降低学习复杂度，提出了"伪梯度"的概念；最后，通过分类对比实验，分析了所提算法在精确度和可解释性上的优势.实验结果表明，当训练数据集规模较小时，规则推理网络的表现良好，当训练数据规模扩大时，规则推理网络也能达到令人满意的结果.

基于标签语义注意力的多标签文本分类

肖琳，陈博理，黄鑫，刘华锋，景丽萍，于剑

2020, 31(4):1079-1089. DOI: 10.13328/j.cnki.jos.005923

摘要 (3355) HTML (1206) PDF 1.24 M (6190) 评论 (0) 收藏

摘要:自大数据蓬勃发展以来，多标签分类一直是令人关注的重要问题，在现实生活中有许多实际应用，如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号，然而，在许多情况下，文本的标签是具有特定语义的，标签的语义信息和文档的内容信息是有对应关系的，为了建立两者之间的联系并加以利用，提出了一种基于标签语义注意力的多标签文本分类（LAbel Semantic Attention Multi-label Classification，简称LASA）方法，依赖于文档的文本和对应的标签，在文档和标签之间共享单词表示.对于文档嵌入，使用双向长短时记忆（bi-directional long short-term memory，简称Bi-LSTM）获取每个单词的隐表示，通过使用标签语义注意力机制获得文档中每个单词的权重，从而考虑到每个单词对当前标签的重要性.另外，标签在语义空间里往往是相互关联的，使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明，所提出的方法能够有效地捕获重要的单词，并且其性能优于当前先进的多标签文本分类算法.

融合商品潜在互补性发现的个性化推荐方法

邵英玮，张敏，马为之，王晨阳，刘奕群，马少平

2020, 31(4):1090-1100. DOI: 10.13328/j.cnki.jos.005925

摘要 (2382) HTML (1334) PDF 1.17 M (4291) 评论 (0) 收藏

摘要:结合领域内知识的个性化推荐算法在近年来受到了广泛关注，许多研究工作尝试将商品之间的关系（如互补关系等）融入到推荐算法中.对于商家而言，了解商品互补的关系能够帮助他们更好地制定定价策略；对于推荐算法而言，结合商品关系的推荐也更有可能生成令人满意的结果，因此，如何挖掘商品间的互补关系是一个很有意义的研究问题.现有方法大多从用户历史中的"共同购买"发掘商品的互补关系，但是由于真实的购买场景非常复杂，得到的很可能仅仅是共现关系而不是互补关系.借鉴经济学的相关研究，提出了商品潜在互补性发现推荐模型（latent complementarity discovery model，简称LCDM），试图从另一角度更准确地刻画商品间关系.首先，基于经济学理论中的需求交叉弹性（cross-price elasticity of demand），提出互补性发现模型（complementarity discovery model，简称CDM）联合商品价格与购买历史来挖掘商品间的互补关系.在用户标注任务中，所提算法较已有方法在用户标注的一致性上提升了10.6%.随后，基于此提出了融合商品互补关系的双重注意力机制推荐模型LCDM.最后，在真实数据集上的对比实验结果表明，提出的LCDM推荐模型能够显著改善推荐的效果，在Recall@5和NDCG@5上分别有54.5%和125.8%的提升，验证了所提方法的有效性.

面向推荐系统的图卷积网络

葛尧，陈松灿

2020, 31(4):1101-1112. DOI: 10.13328/j.cnki.jos.005928

摘要 (3371) HTML (1079) PDF 1.34 M (4687) 评论 (0) 收藏

摘要:图卷积网络是一种针对图信号的深度学习模型，由于具有强大的特征表征能力得到了广泛应用.推荐系统可视为图信号的链接预测问题，因此近年来提出了使用图卷积网络解决推荐问题的方法.推荐系统中存在用户与商品间的异质顶点交互和用户（或商品）内部的同质顶点交互，然而，现有方法中的图卷积操作要么仅在异质顶点间进行，要么仅在同质顶点间进行，留下了提升此类推荐系统性能的空间.考虑到这一问题，提出了一种新的基于图卷积网络的推荐算法，使用两组图卷积操作同时利用两种不同的交互信息，其中异质顶点卷积用于挖掘交互图谱域中存在的连接信息，同质顶点卷积用于使相似顶点具有相近表示.实验结果表明，该算法比现有算法具有更优的精度.

d-正则(k,s)-SAT问题的NP完全性

符祖峰，许道云

2020, 31(4):1113-1123. DOI: 10.13328/j.cnki.jos.005896

摘要 (1436) HTML (741) PDF 1.16 M (2616) 评论 (0) 收藏

摘要:研究具有正则结构的SAT问题是否是NP完全问题，具有重要的理论价值.（k，s）-CNF公式类和正则（k，s）-CNF公式类已被证明存在一个临界函数f（k），使得当s ≤ f（k）时，所有实例都可满足；当s ≥ f（k）+1时，对应的SAT问题是NP完全问题.研究具有更强正则约束的d-正则（k，s）-SAT问题，其要求实例中每个变元的正负出现次数之差不超过给定的自然数d.通过设计一种多项式时间的归约方法，证明d-正则（k，s）-SAT问题存在一个临界函数f（k，d），使得当s ≤ f（k，d）时，所有实例都可满足；当s ≥ f（k，d）+1时，d-正则（k，s）-SAT问题是NP完全问题.这种多项式时间的归约变换方法通过添加新的变元和新的子句，可以更改公式的子句约束密度，并约束每个变元正负出现次数的差值.这进一步说明，只用子句约束密度不足以刻画CNF公式结构的特点，对临界函数f（k，d）的研究有助于在更强正则约束条件下构造难解实例.

基于DAG的分布式账本共识机制研究

高政风，郑继来，汤舒扬，龙宇，刘志强，刘振，谷大武

2020, 31(4):1124-1142. DOI: 10.13328/j.cnki.jos.005982

摘要 (5327) HTML (3039) PDF 1.83 M (6841) 评论 (0) 收藏

摘要:自2008年比特币出现以来，研究学者相继提出了多种分布式账本技术，其中，区块链是当前分布式账本最主要的实现形式之一.但当前区块链中存在一个核心问题：可扩展性瓶颈.具体而言，区块链的吞吐量严重不足，且其交易确认也较为缓慢，这些因素极大地限制了它的实际应用.在此背景下，基于DAG（有向无环图）的分布式账本因其具有高并发特性，有望突破传统区块链中的性能瓶颈，从而受到了学术界和产业界越来越多的关注和研究.在基于DAG的分布式账本中，最为核心和关键的技术是其共识机制，为此，对该关键技术进行了系统深入的研究.首次从共识形态出发将现有基于DAG的分布式账本分为以下3类：基于主干链的DAG账本；基于平行链的DAG账本；基于朴素DAG的账本.在此基础上，对不同类型的共识机制本质原理及特性进行了深入阐述，并从不同层面对它们进行了详细的对比分析.最后，指出基于DAG的共识机制研究中存在的问题与挑战，并给出进一步的研究方向.

中文软件问答社区主题分析研究

蒋竞，吕江枫，张莉

2020, 31(4):1143-1161. DOI: 10.13328/j.cnki.jos.005987

摘要 (2322) HTML (2002) PDF 1.93 M (4117) 评论 (0) 收藏

摘要:软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来，软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究，但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究，不仅可以指导开发者更好地了解技术动向，而且可以帮助管理者改进社区、吸引更多用户参与."开源中国"是中国最大的技术社区之一.对"开源中国"开展了开发者问题主题分析研究.收集"开源中国"的92 383个开发者问题，采用隐狄利克雷分配模型的主题分析方法，分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现：（1）开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中，前端开发讨论占比最大.（2）后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.（3）数据展示主题的零回答问题比例最高，数据类型主题下的零回答问题比例最低.（4）在技术学习主题下，用户对于Java的讨论明显多于对Python的讨论.

面向众包数据清洗的主动学习技术

叶晨，王宏志，高宏，李建中

2020, 31(4):1162-1172. DOI: 10.13328/j.cnki.jos.005801

摘要 (1746) HTML (1087) PDF 1.16 M (3649) 评论 (0) 收藏

摘要:传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题，但存在计算难度大、缺乏充足的知识等局限性.近年来，随着众包平台的兴起，越来越多的研究将众包引入数据清洗过程，通过众包来提供机器学习所需要的知识.由于众包的有偿性，研究如何将机器学习算法与众包有效且低成本结合在一起是必要的.提出了两种支持基于众包的数据清洗的主动学习模型，通过主动学习技术来减少众包开销，实现了对给定的数据集基于真实众包平台的数据清洗，最大程度减少成本的同时提高了数据的质量.在真实数据集上的实验结果验证了所提模型的有效性.

一种自适应在线核密度估计方法

邓齐林，邱天宇，申富饶，赵金熙

2020, 31(4):1173-1188. DOI: 10.13328/j.cnki.jos.005674

摘要 (2254) HTML (1769) PDF 1.73 M (6819) 评论 (0) 收藏

摘要:给定一组观察数据，估计其潜在的概率密度函数是统计学中的一项基本任务，被称为密度估计问题.随着数据收集技术的发展，出现了大量的实时流式数据，其特点是数据量大，数据产生速度快，并且数据的潜在分布也可能随着时间而发生变化，对这类数据分布的估计也成为亟待解决的问题.然而，在传统的密度估计算法中，参数式算法因为有较强的模型假设导致其表达能力有限，非参数式算法虽然具有更好的表达能力，但其计算复杂度通常很高.因此，它们都无法很好地应用于这种流式数据的场景.通过分析基于竞争学习的学习过程，提出了一种在线密度估计算法来完成流式数据上的密度估计任务，并且分析了其与高斯混合模型之间的密切联系.最后，将所提算法与现有的密度估计算法进行对比实验.实验结果表明，与现有的在线密度估计算法相比，所提算法能够取得更好的估计结果，并且能够基本上达到当前最好的离线密度估计算法的估计性能.

一种空间上下文感知的提及目标推荐方法

汤小月，周康，王凯

2020, 31(4):1189-1211. DOI: 10.13328/j.cnki.jos.005616

摘要 (1972) HTML (995) PDF 2.33 M (3947) 评论 (0) 收藏

摘要:作为一种新兴的社交媒体用户交互服务，提及机制（mention mechanism）正在用户在线交互和网络信息传播方面扮演着重要角色.对用户提及行为的研究能够揭示用户的隐式偏好与其显式行为之间的联系，为信息传播监控、商业智能、个性化推荐等应用提供新的数据支撑.当前，对用户提及机制的探索多集中在其信息传播属性上，缺少从普通用户角度对其用户交互属性的学习.通过对普通用户提及行为的分析和建模构建一个推荐系统，为给定的社交媒体消息生成目标用户推荐.通过对大型真实社交媒体数据集的分析发现，用户的提及行为受其提及活动的语义和空间上下文因素的联合影响.据此，提出一个联合概率生成模型JUMBM（joint user mention behavior model），模拟用户空间关联提及活动的生成过程.通过对用户语义和空间上下文感知的提及行为进行统一建模，JUMBM能够同时发掘用户的移动模式、地理区域依赖的语义兴趣及其对应目标用户的地理聚集模式.此外，提出一种混合剪枝算法，加快推荐系统对在线top-k查询的响应速度.在大型真实数据集上的实验结果表明，所提方法在推荐有效性和推荐效率方面均优于对比方法.

基于异构社交网络信息和内容信息的事件推荐

尚燕敏，曹亚男，刘燕兵

2020, 31(4):1212-1224. DOI: 10.13328/j.cnki.jos.005544

摘要 (1886) HTML (923) PDF 1.54 M (3383) 评论 (0) 收藏

摘要:基于事件的社交网络使得事件推荐受到越来越多的关注.不同于其他推荐问题（如电影推荐等），事件推荐具有3类不同信息：用户构成的异构社交网络关系信息（在线社交网络和离线社交网络）、用户/事件的内容信息、用户对事件的隐式反馈信息.如何有效融合这些信息进行事件推荐是该领域学者普遍关注的问题.提出一种新的混合事件推荐方法CHS-BPR，该方法以贝叶斯潜在因子模型为基本框架来处理用户对事件的隐式反馈信息，同时考虑用户/事件的内容信息和用户之间的异构社交网络信息，首次实现了同时使用3种信息来做事件推荐，并以真实数据集验证了所提方法的有效性.

面向GPU平台的复杂网络core分解方法研究

张珩，崔强，侯朋朋，武延军，赵琛

2020, 31(4):1225-1239. DOI: 10.13328/j.cnki.jos.005627

摘要 (1794) HTML (944) PDF 1.71 M (3132) 评论 (0) 收藏

摘要:在复杂网络理论中，core分解是一种最基本的度量网络节点"重要性"并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大，现有研究工作基于多核CPU环境设计core分解并行算法，由于CPU核数和内存带宽的局限性，已经无法满足大数据量的高性能计算需求，严重影响了复杂网络的分析应用.通用GPU提供了1万以上线程数的高并行计算能力和高于100GB/s访存带宽，已被广泛应用于大规模图数据的高效并行分析，如广度优先遍历和最短路径算法等.为了实现更为高效的core分解，提出面向GPU平台下的复杂网络core分解的两种并行策略.第1种RLCore策略基于图遍历思想，利用GPU高并发计算能力对网络图结构自底向上遍历，逐步迭代设置各节点所属的core层；第2种ESCore策略基于局部收敛思想，对各节点从邻居节点当前值进行汇聚计算更新直至收敛.ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销，而其算法的迭代次数受收敛率的影响.在真实网络图数据上的实验结果表明，所提出的两个策略在效率和扩展性方面能够大幅优于现有其他方法，相比单线程上的算法高达33.6倍性能提升，且遍历边的吞吐性能（TEPS）达到406万条/s，单轮迭代的ESCore的执行效率高于RLCore.

微信服务号

微信订阅号

>综述文章

>综述文章

当期目录

年份

刊期