快速检索
    过刊检索
    全选反选导出
    显示模式:
    2026,37(6):2327-2345, DOI: 10.13328/j.cnki.jos.007616, CSTR: 32375.14.jos.007616
    [摘要] (569) [HTML] (0) [PDF 2.67 M] (542)
    摘要:
    反编译是软件逆向工程中的基础技术, 其目标是从面向硬件的二进制代码中恢复出高级语言代码, 以支持人工阅读、分析或重工程任务. 尽管该技术已得到广泛研究, 但传统基于规则的反编译器所生成的反编译代码往往可读性较差, 且难以复用. 此外, 由于传统反编译器的开发周期较长, 其对RISC-V等新兴指令集架构的支持通常较为滞后. 在当前大语言模型(large language model, LLM)技术广泛应用于自动化软件工程任务并取得显著成效的背景下, 面向RISC-V架构的反编译需求, 提出了一种LLM与符号执行协同的反编译方法BinDec. 该方法通过LLM生成与符号执行验证的交替迭代, 充分利用LLM的代码理解与生成能力, 以产生更易于理解与重用的反编译代码; 同时借助符号执行的代码分析与验证能力, 确保生成结果的可靠性. 通过一系列实验对BinDec的有效性进行了评估, 实验结果表明, 该方法在达到与传统反编译器相近的语义准确性的同时显著提升了代码的可读性.
    2026,37(6):2346-2369, DOI: 10.13328/j.cnki.jos.007617, CSTR: 32375.14.jos.007617
    [摘要] (439) [HTML] (0) [PDF 3.17 M] (434)
    摘要:
    RISC-V指令集架构凭借其开放性与模块化设计, 推动了芯片架构实现创新与定制化, 但与此同时也引发了严重的软件生态碎片化问题. 传统的跨平台软件构建机制(如现场编译、IFUNC与Multilib)在RISC-V生态中面临兼容性差、维护成本高与优化粒度不足等显著挑战, 亟需新的解决方案. 提出了一种面向RISC-V平台的兼容性感知多层级编译方法——RuyiBuild工具链, 以LLVM IR为中间表示, 结合非侵入式编译流程拦截机制, 实现了对现有软件构建系统的透明适配, 使构建生成的操作系统软件包既具备面向不同RISC-V扩展指令集的兼容性, 又可以面向最终运行平台进行基于扩展指令集的自适应优化, 有效解决了RISC-V指令集多样性背景下, 多指令扩展组合与平台差异下二进制高性能优化与广泛兼容性的双目标统筹实现问题. RuyiBuild工具链围绕LLVM IR的提取与部署、转换与优化设计了一套完整的跨平台软件分发与精细化优化框架, 主要包含4个核心机制: 透明化双路径编译与LLVM IR提取机制、动态链接库LLVM IR合并与链接转换机制、LLVM IR文件部署与发行版RPM自动化集成机制以及客户端与云端LLVM IR动态转换与资源自适应调度机制. 在技术实现方面, RuyiBuild工具链通过封装编译工具与系统命令, 在不修改源码与构建系统的前提下实现LLVM IR的全路径提取与分发, 并在部署阶段支持LLVM IR与传统二进制的同步发布. 同时, 为支持多种目标设备和微架构的性能优化, RuyiBuild支持客户端资源感知的延迟转换、云端面向多架构的适配与LLVM IR动态转换. 实验结果表明, RuyiBuild能够面向多种RISC-V指令集扩展与微架构组合实现对目标程序的部署, 并在性能、兼容性、构建开销与部署复杂度方面取得较好平衡, 解决了硬件兼容性与硬件性能充分发挥之间的矛盾. 为RISC-V生态中的软件构建、部署与适配提供了新的解决思路, 具备良好的学术价值与实践推广潜力.
    2026,37(6):2370-2389, DOI: 10.13328/j.cnki.jos.007618, CSTR: 32375.14.jos.007618
    [摘要] (546) [HTML] (0) [PDF 2.57 M] (624)
    摘要:
    随着开源RISC-V架构的迅猛发展, 其开放与模块化的特性在催生繁荣硬件生态的同时, 也给硬件电路的安全性保障带来巨大挑战. 在硬件设计流程的前期进行安全缺陷早期检测, 能够以最低成本在缺陷固化于物理芯片前将其消除. 尽管静态分析已用于硬件安全缺陷早期检测, 但由于规约知识未充分利用以及代码上下文语义理解不足, 现有检测方法存在高漏报率和高误报率的问题. 针对这些问题, 提出MARC, 一种基于大语言模型多智能体协同的硬件安全缺陷早期检测方法. 该方法通过构建设计依赖分析、文档分析、安全缺陷检测、安全缺陷确认这4类智能体及协同工作框架, 从补充跨模块上下文、结构化模块文档知识、快速初筛安全缺陷、深度推理安全缺陷风险分析等多维度协同作用, 有效降低硬件电路设计阶段早期安全缺陷检测的误报率, 提升检测准确性. 实验结果显示, MARC方法在工业级数据集上将早期缺陷检测的漏报率和误报率分别降低至0.3829和0.3695, 相较于基准方法分别降低了约18.2%和19.1%. 上述实验结果充分表明, MARC 有效缓解了硬件安全缺陷早期检测中的误报问题, 提升了安全缺陷检测的准确性与效率, 为硬件安全提供了更可靠的技术支撑. 另外, 还支撑作者团队夺得HACK@DATE 2025硬件漏洞挖掘竞赛全球冠军, 成功挖掘了1个获CVE编号的硬件漏洞, 在真实世界中验证了其有效性.
    2026,37(6):2390-2410, DOI: 10.13328/j.cnki.jos.007619, CSTR: 32375.14.jos.007619
    [摘要] (483) [HTML] (0) [PDF 3.13 M] (442)
    摘要:
    随着边缘计算和端侧智能软件的发展, RISC-V 架构因其开源、模块化及低成本优势在学术界和产业界受到广泛关注. 然而, 将智能软件部署到RISC-V架构上面临诸多挑战. 智能软件的运行依赖于执行卷积、矩阵乘法、归一化等基本张量运算的深度学习算子, 一旦算子出现问题, 将直接影响上层大量智能软件的执行效率、准确性和可靠性, 因此算子质量的评估至关重要. 现有算子测试方法主要针对 x86 架构, 难以刻画不同计算复杂度对 RISC-V 架构下受限内存、功耗与系统资源使用行为的影响差异. 为此, 提出 RIVdoo, 一种面向 RISC-V 架构的深度学习算子质量评估方法. RIVdoo 通过基于算子输入空间复杂度的分组策略系统性地覆盖不同计算负载, 结合多维度指标评估精度、执行效率、内存占用及系统开销, 并引入复杂度放大系数的差分测试机制, 有效识别性能异常及架构适配问题. 在覆盖计算密集型、内存密集型和轻量型的47个算子的实验中, RIVdoo揭示了不同算子库和优化策略在 RISC-V 架构下呈现出的显著性能权衡与适配差异: TFLite以1.5–2倍内存开销换取30%–50%速度提升的策略在资源受限场景下面临内存瓶颈; TVM的动态存储调度因RISC-V有限的TLB和缓存容量导致缺页率比TFLite高60%–150%; RVV向量化在部分算子和低复杂度场景下因软件模拟和启动开销导致性能劣化, 说明现有优化策略缺乏对RISC-V平台特性的针对性设计. 实验结果表明, 不同算子实现和优化策略在 RISC-V 架构下的运行行为具有明显的复杂度相关特征, 仅依赖输出正确性验证难以全面反映其真实部署表现. RIVdoo为面向 RISC-V 架构的算子适配性分析与优化提供了一种系统化的评估手段.
    2026,37(6):2411-2430, DOI: 10.13328/j.cnki.jos.007648, CSTR: 32375.14.jos.007648
    摘要:
    图像处理任务正快速向云端和多方协同环境迁移, 而云服务器上直接处理明文图像数据, 极易泄露图像中的敏感信息, 且难以抵御篡改等恶意攻击, 无法保证数据完整性和服务可靠性. 在此背景下, 提出一种面向恶意敌手环境的目标检测推理方案——MalOD, 实现针对恶意敌手环境的安全目标检测. MalOD通过构建加密的特征金字塔网络 (secure feature pyramid network, SecFPN)实现密文图像的多级特征提取, 并基于多层次密文特征设计安全区域提议网络(secure region proposal network, SecRPN)和兴趣区域安全对齐(secure region of interest align, SecRoIA)模块从而完成安全目标检测. 具体来说, 借助复制秘密共享(replicated secret sharing, RSS)技术, 设计一系列安全计算原语, 包括安全向上取整函数、安全双线性插值和安全最近邻插值, 为SecFPN、SecRPN、SecRoIA等模块提供底层支撑, 确保恶意敌手环境下检测流程的高效与准确. 此外, 证明MalOD的正确性和安全性, 并在COCO 2017和Pascal VOC 2012数据集上进行性能评估. 实验结果表明, 在满足严格安全要求的同时, MalOD实现较高的目标检测精度. 特别地, 当目标检测的交并比阈值为0.5时, 其在COCO子集上平均精度仅比明文检测下降0.113. 为恶意环境下的隐私保护图像处理提供了理论和实践支持, 尤其适用于不可信的云计算和多方协作场景中.
    2026,37(6):2431-2454, DOI: 10.13328/j.cnki.jos.007462, CSTR: 32375.14.jos.007462
    [摘要] (859) [HTML] (0) [PDF 3.77 M] (716)
    摘要:
    以大语言模型(large language model, LLM)为基座的软件编程助手(如Copilot), 能够显著提升程序员开发效率, 但LLM的计算和存储需求大、本地化部署难. 构建轻量化小参数LLM能够满足计算、存储、部署需求, 但其代码生成的精度损失比大参数LLM 大. 知识蒸馏(knowledge distillation, KD)技术, 让小参数LLM (学生模型)在目标训练数据集上拟合大参数LLM (教师模型)的生成分布, 降低代码生成精度损失. 人工智能领域前沿的KD技术基于Kullback-Leibler (KL)散度损失函数, 度量并缩小因学生/教师模型的生成分布差异导致的精度损失, 但学生模型难以学习教师模型的趋零分布区域. 随后, 学者利用反向KL散度损失(RKL)函数解决该趋零分布区域的学习问题. 研究发现, RKL在高概率分布区域存在学习问题, 与KL散度损失函数存在互补性; 对于一些数据, 教师模型生成质量低, 导致学生模型学习效果差. 提出一种自适应知识蒸馏 (adaptive knowledge distillation, AKD)方法, 通过prompt提升教师模型的生成质量, 并构造自适应损失函数, 根据学生/教师模型之间的生成分布差异自适应调整学习的优先级, 确保学生模型在主要概率区域和趋零概率区域均具备学习能力. 基于AKD方法, 利用StarCoder-1B/7B (学生/教师模型)和CodeAlpaca数据, 训练了轻量化代码大模型, 并评估代码大模型的精度损失及生成代码的质量问题. 实验结果显示, 轻量化代码大模型规模降低85.7%, 在HumanEval和MBPP数据集上, 任务提示明确的prompt可以提高教师模型的代码生成质量, 使训练的学生模型降低6%的平均精度损失; AKD方法训练的模型较教师模型(StarCoder-7B)的平均精度损失为17.14%, 较原始学生模型平均降低30.6%; AKD方法训练的模型较前沿的KD和RKD方法的精度损失平均降低19.9%; 关于推理显存需求情况, KD和RKD方法需要54.7 GB, 而AKD方法仅增加3 GB. 关于训练时间方面, AKD方法所需训练时间增加30%; 相较而言, 即使KD和RKD方法训练至相同时长, 它们的平均效果仅提升3%, 相比AKD方法低16.9%. 因此, AKD方法增加的训练成本是值得的. 此外, 将AKD方法应用到Code Llama和CodeGen系列模型, 相较前沿的KD及RKD方法的精度损失平均降低19.2%, 证明了AKD方法的泛化能力.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007661
    摘要:
    联邦学习允许多个参与方在不共享本地私有数据的前提下协同训练一个共享的深度学习模型. 然而, 该范式在实际应用中极易受到日益复杂的投毒攻击威胁. 现有的防御方法在检测效率、对多样化攻击的泛化能力以及在非独立同分布 (non-IID) 数据环境下的性能稳定性方面仍存在局限. 为应对上述挑战, 提出一种名为 FedProbe 的、由代理模型引导的可解释联邦学习投毒攻击防御框架. FedProbe采用两阶段机制: 首先, 在代理模型引导阶段, 利用服务器端的可信样本集计算各本地模型间的KL散度以度量其行为相似性, 并确定最优聚类数量. 在剔除离群更新后, 各簇被聚合成代理模型, 此举旨在有效划分由不同数据分布训练的模型并提升后续检测效率. 其次, 在可解释分析阶段, FedProbe利用SHAP可解释技术对代理模型进行深度分析, 计算其关键特征归因, 并最终通过跨类别可疑度分数来精准识别并剔除潜在的恶意模型. 实验结果表明, FedProbe在多种基准数据集上展现出卓越的性能与鲁棒性. 在良性环境中, 其收敛时间仅为标准聚合算法的1.11–1.21倍, 性能开销极小. 在安全性方面, 即使在恶意用户占比高达40%的极端场景下, FedProbe在抵御无目标攻击和后门攻击时仍能保持优越的收敛性, 并将攻击成功率控制在25%以下; 而在面对自适应攻击时, 其在防御有效性与任务准确率方面均具有显著优势.
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007662
    摘要:
    传统图像隐写术通过将秘密信息嵌入载体图像中实现信息隐蔽传输, 在信息安全和数据通信领域发挥着重要作用. 然而, 信息嵌入过程不可避免地会修改载体图像, 容易被隐写分析工具检测到. 相比之下, 生成式图像隐写术利用生成模型直接从秘密信息生成隐写图像, 从而避免了修改载体图像的问题. 但现有生成式图像隐写方法在面对各种攻击尤其是几何攻击时普遍存在鲁棒性不足的缺陷, 隐藏的信息易受各种攻击破坏而无法有效提取. 为此, 提出一种人体姿态引导的生成式隐写(generative steganography guided by human posture, GSHP)方法. 该方法的核心思想是将秘密信息映射为人体姿态特征, 再将此特征输入生成模型以生成隐写图像. 在信息提取阶段, 通过人体姿态检测算法识别隐写图像中的人体姿态, 进而还原出秘密信息. 由于人体姿态固有的结构稳定性, GSHP对各种攻击表现出了良好的鲁棒性. 广泛的实验也充分证明了GSHP在安全性和鲁棒性方面的优势.
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007663
    摘要:
    在智能家居系统中, 场景自动化规则可根据用户设定的触发条件, 自动执行一组设备操作, 实现如“回家模式”“睡眠模式”等复杂的设备联动行为. 然而, 终端用户在创建定制化规则时常面临挑战, 特别是在实现多设备协同和满足复杂用户意图时表现尤为明显. 一方面, 用户普遍缺乏专业知识, 难以清晰表达需求或将其转化为形式化规则; 另一方面, 现有自动化规则生成方法普遍存在两方面局限: 其一, 缺乏对复杂场景的建模能力, 难以支持涉及多设备协同的高级自动化需求; 其二, 过于依赖用户提供明确的、结构化的指令, 忽略了用户意图的隐性表达. 为解决上述问题, 提出HomeMind——以大语言模型(large language model, LLM)为核心, 融合模式挖掘与语义理解能力的智能体系统. HomeMind的工作流程包括3个核心步骤: 首先, 采用无监督的频繁事件模式挖掘方法, 自适应处理不同长度的事件序列, 以更精准地识别事件模式; 其次, 为每个模式提取周与日两个尺度的时间特征, 显著增强其时间上下文信息; 最后, 通过上下文增强的提示词机制, 引导LLM基于思维链推断用户意图, 生成语义明确的场景规则. 最终, HomeMind将生成的候选规则呈现给用户, 辅助其理解并筛选最契合生活习惯的自动化方案, 并支持与智能家居平台接口集成, 实现规则一键部署. 在真实世界数据集和合成数据集上对HomeMind进行全面评估, 实验结果表明其在意图推断和规则生成准确性方面均优于现有基线方法.
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007653
    摘要:
    数据库管理系统是支撑现代信息基础设施的核心软件, 其可靠性直接影响数据安全与业务连续性. 随着系统复杂度的不断提升, 数据库中的缺陷可能导致数据损坏、信息泄露及系统崩溃等严重后果. 近年来, 模糊测试作为一种高效的自动化缺陷检测技术, 已在数据库可靠性测试中广泛应用并取得显著成果. 然而, 传统模糊测试方法常依赖于简单的规则和模式生成测试用例, 难以生成具有更深层次语义理解的复杂场景, 因而在覆盖数据库管理系统复杂交互路径与触发深层缺陷方面仍存在不足. 与此同时, 大语言模型(large language model, LLM)的快速发展为数据库测试带来了新的机遇. 凭借其强大的语义理解、上下文推理与自我学习能力, LLM能够生成多样化、语义合理的SQL测试用例, 辅助测试结果验证与缺陷分析, 显著提升数据库管理系统可靠性测试的自动化与智能化水平, 挖掘数据库深层次缺陷. 系统梳理大语言模型在数据库可靠性测试中的研究进展, 分析基于大语言模型的测试框架在测试用例生成、结果校验、覆盖反馈与测试优化等方面的最新成果, 评估现有研究的有效性与局限, 并展望未来数据库管理系统可靠性测试的发展方向.
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007654
    摘要:
    动态图表示学习通过捕捉实体间随时间演化的拓扑结构与交互模式, 为链接预测等下游任务提供具有时空感知能力的嵌入表示, 从而揭示复杂系统的动态演化规律. 连续时间动态图因其具备丰富的细粒度时间信息, 为社交网络演化等复杂过程提供了更贴近真实世界的建模范式. 然而, 当前连续时间动态图表示学习至少面临3个挑战: (1)在长交互序列中有效提取关键信息需具备强大的长期时间依赖建模能力; (2)处理长交互序列时需控制计算复杂度以提升计算效率; (3)传统按交互时间顺序捕获交互模式的方法难以揭示隐藏的非因果性关联. 针对上述问题, 提出一种连续时间动态图表示学习模型, 通过双向选择性状态空间编码机制, 既可捕捉交互序列的长期时间依赖, 又能通过反向路径引入后续交互信息, 打破时间单向性约束, 从而增强模型对全局上下文的理解能力. 大量实验结果表明, 该模型在不同领域真实世界数据集上表现出的预测性能均显著优于基线方法, 同时具有高效的计算效率, 使在有限计算资源下实现长时间双向依赖的建模成为可能.
    优先出版日期:  2026-06-03 , DOI: 10.13328/j.cnki.jos.007637
    摘要:
    大数据时代背景下, 传统索引(如B+树)面临内存占用过高等问题, 学习型索引以其低内存占用和高查询效率正逐步替代传统索引. 然而, 现有学习型索引难以有效拟合多样化的数据分布, 且易受新数据插入导致分布变化的影响, 引发性能下降. 为解决这些问题, 提出一种基于数据冷热感知的学习型索引HCA-Index. 该索引的核心包括: 设计基于误差阈值的渐进分区算法实现对数据分布的动态拟合; 通过自下而上提取键值范围并采用层级合并策略构建高精度索引; 设计动态演化的数据温度计算模型识别冷热数据; 利用节点级冷热分区支持数据迁移与快速查询. 在真实数据集上进行的实验表明, 相较于传统索引及最新的学习型索引, HCA-Index 在进一步降低内存占用的同时, 显著缩短查询延迟, 并有效减少新数据插入导致的重训练次数.
    优先出版日期:  2026-06-01 , DOI: 10.13328/j.cnki.jos.007638
    摘要:
    随着大数据和人工智能技术的快速发展, 图数据库因其在复杂关系建模与高效查询方面的优势, 逐渐成为社交网络分析、金融风控、知识图谱等领域的核心基础设施. 图数据库的管理对象是节点以及节点之间的关系. 在架构层面, 节点唯一标识符(node identifier, NodeID)作为图数据管理的核心纽带, 承担节点身份表征、关系寻址和图算法执行的关键职能. 当前主流图数据库普遍采用键值存储(key-value store, KVS)引擎实现节点标识到图结构的映射管理. 然而, 现有系统多依赖通用键值存储引擎(如RocksDB)管理此类映射, 却缺乏对负载特性的深度考量, 具体表现为: 1) 节点标识映射负载特征建模缺失; 2) 跨软硬件环境(如CPU/内存、SSD/HDD)的适应性不足. 首先系统分析图数据库中节点标识映射的操作特性与键值存储需求, 进而评估多种主流键值存储引擎(包括RocksDB、LMDB、LevelDB、FasterKV及ForestDB)在异构硬件环境下的性能表现, 系统揭示不同数据负载 (如数据规模、读写比)与硬件配置(如内存容量、线程数、存储介质)对执行效率的影响规律. 基于大规模实验(覆盖5类数据集、3种硬件平台及1300+组对照测试), 提出一种基于决策树模型的适配策略, 整合负载特征(数据规模、读写比)与硬件配置(内存、线程数、磁盘类型), 以指导键值存储引擎的自适应选择. 实验表明, 该模型推荐最优引擎的准确率达92.1%, 次优场景性能差距小于10%.
    优先出版日期:  2026-06-01 , DOI: 10.13328/j.cnki.jos.007658
    摘要:
    数据收益的合理分配是构建可持续数据市场的核心命题之一. 相较于传统生产要素, 数据的价值后验性、信息不对称性、零成本复制、外部性等特性, 给其收益分配策略的设计带来了多维度的挑战. 聚焦数据市场的重要分支——机器学习模型市场(以下简称模型市场), 系统梳理该领域收益分配策略的研究进展, 揭示其“从同质化走向差异化、从短期走向长期”的发展趋势. 具体而言, 首先形式化定义模型市场的收益分配问题, 厘清收益分配的主体、模式与目标. 在此基础上整理“同质化分配-差异化补偿”的分配依据: 在同质化贡献度量上, 归纳基于Shapley值等指标的数据贡献度评估体系; 在差异化补偿指标上, 解析数据成本、数据多样性等差异化指标的度量方法, 进而揭示综合两个维度的混合策略. 进一步地, 针对模型市场在长期尺度下的动态特征, 分析不同主体的策略性行为对收益分配的影响及其应对措施. 最后总结当前研究面临的主要挑战, 明晰从差异化补偿以及长期动态的视角探讨收益分配策略优化的未来研究方向.
    优先出版日期:  2026-05-27 , DOI: 10.13328/j.cnki.jos.007664
    摘要:
    传统关系型数据库的关键优化技术在面对海量数据处理、复杂查询及动态负载场景时, 普遍存在估计精度不足、优化决策效率低下以及环境适应性差等瓶颈. 多粒度粒球计算为提升数据库系统性能开辟了新的解决路径, 展现出巨大的研究潜力和应用前景. 首先, 概述了人工智能在驱动数据库智能优化方面的核心方向, 探讨了现有学习型优化方法在模型泛化能力、可解释性以及处理复杂查询与动态数据分布方面所面临的主要挑战. 在此基础上, 系统地综述了数据库优化的现状及关键技术, 结合多粒度粒球计算, 数据库优化技术的核心聚焦于查询优化与配置优化两个方面. 针对查询优化, 关键技术包括基数估计以及连接顺序选择. 在基数估计方面, 传统方法难以有效支持涉及多表复杂连接及嵌套查询的准确评估, 且常带来巨大的存储开销; 基于学习的方法则能更好地处理高维数据关系, 介绍利用多粒度粒球计算技术提取数据分层分布特征并与树结构神经网络结合的新方法, 能显著提高复杂查询基数估计的鲁棒性与精度. 在连接顺序选择方面, 传统方法在多表连接维度下搜索效率低下; 基于历史经验学习的静态方法对新查询模式适应性有限; 动态学习方法虽能支持运行时调整但开销较大; 相比之下, 将连接计划表达为具有几何关系的多粒度粒球结合, 利用其层次结构优化搜索空间并结合深度强化学习进行决策的方法, 为高效寻找全局近似最优连接顺序提供了新思路. 针对数据库配置优化, 参数调优是提升性能的关键. 基于搜索的传统优化技术难以在合理时间内获得全局最优解; 传统机器学习方法虽然能实现自动化调优, 但高度依赖训练数据的质量与覆盖度; 强化学习方法通过与系统环境交互持续改进策略, 仅需少量样本即可实现强大的自适应性调参, 融合多粒度粒球计算方法能够高效表达参数空间特性, 显著提升调优效率与效果. 虽然应用粒球计算技术优化数据库前景广阔, 但实际应用仍面临与现有数据库模型的有效融合、降低计算开销、动态负载变化下的模型稳定性保障等主要挑战. 未来研究需持续深化理论与技术, 推动数据库系统朝着更智能、高效、鲁棒的方向发展.
    优先出版日期:  2026-05-27 , DOI: 10.13328/j.cnki.jos.007665
    摘要:
    联邦学习作为一种分布式机器学习方法, 能够在保护用户隐私和数据安全的同时进行模型训练. 然而, 联邦学习多参与方、模型大范围暴露的特点容易造成模型版权泄露问题. 提出一种具有所有权验证、模型泄露追溯和懒惰客户端检测功能的水印方案, 引入了客户端身份标识生成后门水印机制和动态调整聚合权重(federated dynamic weight adjustment , FDWA)算法, 确保每个客户端的水印具有唯一性, 并解决了水印冲突问题, 在显著提高模型保真度和水印触发率的同时具备更好的懒惰客户端检测性能. 实验结果表明, 该方案在提供更完善的保护功能的同时, 能保持模型性能, 显著提高水印触发率, 并有效抵御微调、剪枝、量化和共谋攻击等多种攻击手段, 提高了联邦学习环境的安全性和公平性, 为模型提供有效版权保护.
    优先出版日期:  2026-05-27 , DOI: 10.13328/j.cnki.jos.007640
    摘要:
    提交日志是一类描述代码变更的自然语言文本, 对理解代码及代码演化过程十分重要. 受限于软件开发成本等因素, 开发人员往往不会精心撰写提交日志, 导致现有软件项目的提交日志质量堪忧. 鉴于此, 提交日志自动生成任务受到了广泛关注. 现有工作主要从开源软件项目中收集提交日志数据, 并基于此训练深度学习模型完成任务. 然而, 受限于开源项目数据质量, 现有工作难以取得令人满意的效果. 大语言模型通过在大规模代码和文本数据上的预训练, 学习了丰富的语言规律和世界知识, 能够生成高质量、自然且符合上下文的文本, 为提交日志生成提供了新的思路. 提出基于大语言模型的提交日志生成方法, 通过上下文学习、模型微调等手段将大语言模型用于提交日志生成, 使用两种示例检索方法增强上下文学习方法, 并从自然性和相关性角度分析生成文本, 研究大语言模型方法的优势与不足以及如何应对不足. 实验证实了大语言模型表现超过基线方法, 且思维链及更大规模模型能应对对代码变更理解不足的情况.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007639
    摘要:
    非平稳场景下深度神经网络(deep neural network, DNN)模型的适应性是当前人工智能领域面临的一个重要挑战. 尤其在发生概念漂移的场景, 预设架构参数的模型将难以适应演化的数据分布. DNN现有深度调整方法缺乏对深度拓展的有效性的评估, 忽视了深度调整过程中网络权重参数和深度的协同. 为此, 提出自适应在线深度神经网络(adaptive online deep neural network, AODNN). AODNN根据网络的损失变化趋势、分类器权重以及互信息变化组合分析对深度增长的有效性做出判断, 实现深度自适应增长; 并通过参数更新优化选择合适的中间分类器参与反向传播, 减少深层中间分类器对浅层分类器的干扰并加速收敛. AODNN在多个包含概念漂移的真实和合成数据集上与当前最先进方法开展对比实验, 实验结果验证了AODNN深度自适应增长和参数更新优化策略的有效性, 能够有效捕捉数据分布变化并抑制概念漂移的影响. 在关键性能指标的比较中, AODNN展现出显著优势, 在累计准确率上显著优于HBP、ANSN和EODL, 在F1分数上显著优于ATNN、ANSN和EODL, 在MCC上显著优于ANSN和EODL. 此外, 在模型收敛速度等方面, AODNN也超越了当前最先进方法.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007633
    摘要:
    隐变量间的因果结构学习, 核心在于从观测数据中挖掘隐变量彼此的因果关联, 是科学研究中揭示现象本质的一种关键技术. 现有方法普遍依赖“纯子”假设, 即隐变量对应的观测子代变量(测量变量)间不存在直接的因果连接边, 该假设在许多现实场景中往往无法成立, 从而导致现有方法可识别性受限. 针对该挑战, 考虑“非纯”测量场景下的隐变量识别性问题, 提出线性非高斯无环隐变量模型(linear non-Gaussian acyclic latent variable model, LiNGLM), 该模型允许观测变量间存在因果关联. 基于该模型, 提出一种隐变量结构学习(latent variable structure learning, LLSTIN)算法, 该算法基于变换独立噪声(transformed independent noise, TIN)条件及其建立的图准则, 首先通过因果聚类构建(build causal cluster, BCC)算法提取各隐变量对应的“单因子集”来识别隐变量的存在, 然后选取集合中的“根”观测变量作为隐变量的有效代理, 进而识别隐变量间的因果关系. 从理论上证明算法可正确提取单因子集并进一步识别隐变量因果结构, 仿真数据与真实数据实验结果进一步验证所提算法的正确性和有效性.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007634
    摘要:
    近年来, 智能合约因其不可篡改性和可执行性在金融领域得到了广泛的应用. 与此同时, 智能合约引发的安全事件不断增多, 往往造成大规模的经济损失. 因此, 大多数研究人员致力于开发智能合约漏洞检测工具来检测智能合约的安全性. 然而, 不同的合约漏洞检测工具可能因为数据集的不一致使得研究人员无法客观评估其性能. 构建一个新的数据集, 并在统一的标准下系统地测试9个候选工具. 该数据集不仅包含真实世界的智能合约, 且涵盖了5类常见的智能合约漏洞. 从5个方面对工具进行细致的评估, 并提出一种新的智能合约分类方法来验证工具的鲁棒性. 实验结果表明: 1)多数现有工具易于安装, 但同时存在停止维护等问题. 2)静态检测工具在实际检测过程中仍然面临漏报率和误报率高的问题, 且依赖于智能合约不同版本的分析. 3)静态检测工具的时间开销较小, 而基于符号执行的工具容易因状态爆炸而导致时间开销较大. 4)部分静态检测工具不支持具有复杂继承关系的合约. 5)采用多种漏洞检测技术融合的方式, 可以有效提高检测的精确率和召回率.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007636
    摘要:
    联邦学习是目前安全多方机器学习领域最为先进的技术, 其因为解决了数据不离开本地的多节点联合模型训练问题而得到了广泛的关注. 然而, 现实中客户端数据的非独立同分布(Non-IID)会显著降低全局模型的性能. 现有的主流方法一类聚焦于在训练时校正模型的参数偏差, 但其在数据分布越极端的情况下效果越差. 另一类方法旨在本地训练前校正数据分布的偏差, 但其会有隐私泄露的风险. 提出一种框架, 遵循严格的联邦学习隐私保护要求, 利用差分隐私、安全多方计算等技术, 在客户端数据分布保持黑盒的前提下, 选择出对全局模型性能提升最有益的若干标签, 针对这些标签生成高质量合成数据并分发, 使补齐这些数据后的客户端本地数据分布趋向于IID, 从而大大提高全局模型的表现. 具体来说, 首先设计一个隐私安全的算法, 对标签在客户端上的分布进行捕获, 并依据该标签分布特征对所有客户端进行组别的划分. 随后挑选出最值得生成的标签, 在标签对应的组内协调客户端合作训练高质量全局生成模型存放于服务器. 最后在任务模型的训练阶段, 基于标签分布特征利用这些生成模型有选择地合成样本并分发, 来使本地数据分布更加均匀, 进而缩小本地模型差距, 在聚合后得到高质量的全局模型. 实验表明, 所提方法能够有效提高全局模型在测试集上的准确率, 且能减少全局模型收敛前所需要的联邦学习通信轮次, 其有效性超越了各基线方法, 在不同的数据集上得到了验证.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007660
    摘要:
    环签名作为一种具有隐私保护的认证技术, 在确保消息真实性和完整性的同时为用户提供身份匿名性, 广泛应用于电子投票和区块链交易等场景. 针对恶意用户的匿名滥用与失信行为, 现有环签名方案利用追踪(监管)权威揭示任意用户的真实身份. 然而, 该权威的引入将导致诚实用户的隐私泄露, 打破了匿名性和可追踪性之间的平衡. 为解决上述问题并促进国产密码技术应用发展, 提出基于国密SM2支持非法消息追踪的环签名方案. 所提方案针对单个非法消息设计追踪机制, 其中追踪权威仅能够揭示发布非法消息恶意用户的真实身份, 而诚实用户仍然保持匿名, 从而平衡匿名性和可追踪性. 基于此, 结合多项式技术和默克尔哈希树技术提出扩展方案, 实现任意数量非法消息追踪, 扩大恶意用户监管范围, 同时降低用户验证开销和通信成本. 安全性分析表明所提方案满足不可伪造性、匿名性和可追踪性. 性能分析表明所提方案与相关环签名方案相比具有较好的有效性和实用性.
    优先出版日期:  2026-05-20 , DOI: 10.13328/j.cnki.jos.007623
    摘要:
    对象存储是云计算环境下最常用的存储方案之一. 将对象存储中的数据复制到一个或多个云区域能够提升其可靠性和可用性, 并降低用户的访问延迟. 对象存储复制系统需要保障副本间的一致性并尽可能降低复制时延. 现有的开源跨云区域对象存储复制系统Skyplane尽管能支持主流云平台间的对象数据复制, 但无法保障数据一致性, 且在动态负载下复制时延较高. 为了实现动态负载下的低成本、低延迟对象数据复制, 提出基于服务器无感知计算的对象存储跨云复制系统FastRep. FastRep通过对象粒度的复制任务锁和乐观的复制机制保障数据一致性, 通过时间有界完全树实现云函数快速调用, 通过自适应函数克隆应对带宽下降问题. 实验结果显示, FastRep能以分钟级延迟实现大小动态变化的对象数据的低成本复制.
    优先出版日期:  2026-05-13 , DOI: 10.13328/j.cnki.jos.007635
    摘要:
    现有浏览器JavaScript引擎模糊测试工具在检测潜在漏洞方面仍存在局限, 尤其对不触发崩溃的堆内存错误识别能力不足. 为此, 提出ToxiHeap, 一种将内存毒性标记(toxic labeling)的运行时监测和大语言模型(large language model, LLM)制导语义生成, 设计为并行核心轨道的JavaScript引擎模糊测试框架. 检测轨在目标引擎的堆分配与访问路径上插桩, 通过影子内存与细粒度毒性标记统一刻画释放后使用(use-after-free, UAF)、double free、堆越界读写(out-of-bounds read/write,OOB-R/W)、内存泄漏(memory leak)和未初始化堆内存读(uninitialized memory read,UMR)等多类堆错误, 并将对已释放内存等非法状态的访问转化为可消费的异常信号, 弥补传统依赖崩溃信号方法对非崩溃漏洞缺乏有效检测信号的不足; 生成轨采用“蒸馏-激励”两阶段的LLM变异器, 从历史PoC中提炼语义特征并定向构造状态依赖的测试用例, 突破仅依赖语法或轻语义变异在深路径覆盖上的局限. 两条轨道以覆盖增益和非崩溃命中信号在反馈环路中汇合, 协同驱动样本保留、路径权重更新和知识库自增, 同时引入隔离重放验证机制, 在干净进程中二次确认异常, 显著降低非确定性误报. 实验结果表明, 在JavaScriptCore (JSC)引擎上, ToxiHeap在24 h运行下的分支覆盖率由31.17%提升至33.52%, 在V8、SpiderMonkey (SM)和ChakraCore (CH)等其他主流引擎上同样取得了最高或接近最高的分支覆盖率, 有效样本占比稳定在91%以上. 在覆盖UAF等多类缺陷模式的50条PoC参考集上, 4个引擎综合平均的整体检出率达到89.18%.
    优先出版日期:  2026-05-13 , DOI: 10.13328/j.cnki.jos.007644
    摘要:
    编译优化选项作为编译器与开发者之间的核心交互接口, 其合理配置直接影响软件质量与开发效率. 然而, 编译选项的数量庞大且关系复杂, 优化效果同时受到程序特征和机器架构的动态影响, 官方文档难以满足实际应用场景的配置指导需求. 针对上述挑战, 结合静态和动态分析技术, 基于GCC编译器源码深入探讨影响编译器选项效果的两类关系: 内部约束关系和外部环境依赖关系. 首先基于静态分析识别出选项间68对内部约束关系(涉及84个选项)以及103对外部环境依赖关系(包括51个机器架构敏感选项与52个程序特征敏感选项), 并进一步基于动态分析技术验证选项在不同外部环境下的有效性. 然后, 将选项关系的分析结果应用于3个编译相关技术场景: 1)提高选项自动调优效率, 设计基于选项关系感知的遗传调优算法, 相较于不考虑选项关系的其他算法(如遗传算法), 性能平均提升3.65%; 2)提高编译器测试效率, 设计基于选项关系的测试序列生成方法, 生成效率相较于随机方法提升了51.7%; 3)为开发者提供更有效的选项配置方案, 帮助其合理使用选项以达到预期优化目标. 通过这3个应用, 表明编译选项关系在自动调优、编译器测试及实际配置中具有关键作用.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007645
    摘要:
    边缘计算因其低延迟和高效的处理能力而被广泛应用于各个领域, 而KubeEdge平台系统作为边缘智能场景的核心基础软件, 其运行时可靠性至关重要. 然而, 边缘系统上的软件在长期运行后可能会出现软件老化问题, 导致系统响应延迟甚至服务中断, 进而影响用户体验乃至事故. 抗衰操作可以消除老化现象, 但目前针对边缘系统的老化研究相对较少, 且现有抗衰方法无法直接应用于边缘系统. 为解决上述问题, 针对KubeEdge边缘系统提出了一种称为GIP-MI的老化判定与抗衰综合方法, 该方法首先采用GCN-Informer方法对系统指标的空间关联和时序依赖进行建模, 相较于传统方法, 能够更精准、稳定地预测各指标的未来变化趋势; 进而将预测数据送入深度学习方法ParNet, 通过多时间点切片与多分辨率特征融合, 实现对系统资源动态老化状态的更精准判定; 最后, 提出一种基于分解和信息反馈模型的多目标进化算法(MOEA/D-IFM)的任务卸载方法作为抗衰策略, 有效避免系统停机, 保证服务连续性. 实验结果表明, GIP-MI在老化预测和状态识别精度上均优于基线方法, 并且与传统抗衰方法相比, 在停机时间等关键指标上均表现出显著优势, 能够有效恢复系统状态.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007622
    摘要:
    联邦学习允许众多客户端利用其本地数据联合训练模型而不暴露各方的真实数据, 与传统机器学习方法相比, 避免了数据迁移导致的数据泄露和滥用问题. 然而, 在实际应用中, 客户端可能具有异构的数据分布和系统功能, 这会导致模型性能和训练效率下降. 通过选择一个“良好的”客户端子集作为联邦学习参与方可以有效提高全局模型的性能和收敛速度. 而一些研究者发现, 恶意敌手可以利用客户端的本地训练损失或梯度等一些相关信息来推断其隐私数据, 目前的异构联邦学习参与方选择方案并没有应对这种隐私泄露风险的解决方法. 为此, 设计了一种基于安全多方计算的隐私保护异构联邦学习参与方选择协议, 利用3PC秘密共享技术来保证训练过程的数据隐私以及联合模型的准确度, 同时还提出了一个安全top-k搜索协议来避免参与方选择过程中泄露任何隐私信息. 对协议的安全性进行分析, 证明了该协议可以满足安全需求, 并且开展相关实验, 实验结果表明相比于未使用隐私保护的异构联邦学习方案, 所提出方案的各方的平均计算与通信时间开销仅增加了2.09%.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007641
    摘要:
    跨链资产交换是资产跨区块链流通的典型模式之一. 以哈希时间锁(hashed timelock contract, HTLC)协议为代表的现有跨链资产交换方案普遍采用“先绑定跟随方、跟随方再锁定资产”的先绑后锁模式. 在该模式下, 一旦已绑定的跟随方退出, 发起方将无法更换交换对象, 只能等待时间锁超时后回收资产并重新发起交换, 从而显著延长交换周期并带来高额的链上开销. 为此, 提出一种先锁后绑的跨链资产交换新模式, 即交换开始前不在合约中预设跟随方, 而是由符合条件的响应方先行锁定资产, 再将其绑定为跟随方. 该模式可避免绑定对象退出带来的多次重试与资产长期锁定问题. 在该模式下, 提出一种基于地址签名锁的跨链资产交换协议——OpenSwap. OpenSwap设计了一种地址签名锁, 通过将跟随方身份信息嵌入锁结构, 使其随着资产的锁定与解锁过程在两条链之间同步, 从而确保两条链对跟随方绑定的一致性. 此外, OpenSwap还通过挑战期、协助解锁等设计, 提升协议安全性和执行效率. 理论分析与实验结果表明, OpenSwap在保证原子性的同时, 显著降低了交换延迟, 并在低用户响应场景下降低了链上开销, 为跨链资产交换提供了更灵活与高效的解决方案.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007625
    摘要:
    数据库系统作为大数据基础设施的关键支撑, 其性能表现直接影响着上层应用的服务质量. 近年来随着新型存储硬件的不断发展, 数据库系统在应对大容量高并发场景时暴露出明显的稳定性缺陷, 实际测试发现, 数据库在大规模负载下性能劣化极其严重, 吞吐量普遍较低且出现失稳现象. 通过对运行过程中关键指标的监控和分析, 将问题定位到数据库的I/O读写模型, 认为I/O流程的缺陷导致数据库在大规模负载下刷脏不及时, 业务线程无干净页可用是引起稳定性下降的根本原因. 以缓冲区为对象将数据库I/O抽象为生产者-消费者模型, 分析了该模型存在的功能耦合问题, 据此提出了新的功能解耦I/O模型, 对数据库的刷脏机制和干净页产出机制进行了深度优化以提高干净页的产出效率, 并将改进后的NSGA-II算法应用到刷脏场景中用于多目标白盒化参数调优. 最后使用TPC-C和sysbench这2种常用的基准测试, 从数据规模、测试时间、并发数、读写模式等维度, 结合消融实验对该方案进行全面评估, 实验表明对于事务执行的平均吞吐量、稳定性、延迟等指标而言, 提出的整体方案相比基线方案以及其他优化方案均取得了明显优化效果.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007571
    摘要:
    访问控制技术是一种管理用户对资源访问权限的安全机制, 能有效防止未授权访问和资源泄露. 在数字化时代, 如何通过有效的访问控制技术平衡信息流通与隐私保护之间的关系, 保障数据要素安全有序流动, 已成为当前亟待解决的问题. 然而, 现有访问控制技术在领域数据共享场景研究中仍存在与信任评估融合不足、动态调整能力欠缺以及难以精准授权等问题. 针对上述问题, 提出一个基于博弈论的可信动态访问控制模型方案, 该方案融合“可信评估-动态调整-访问决策”三层协同机制. 首先, 基于属性权重算法, 设计多因素可信预测模型, 计算访问主体的信任概率; 其次, 从长期稳定角度出发, 构建访问主体与客体之间的演化博弈动态调整模型, 周期性地动态调整奖惩激励机制与访问授权阈值, 实现访问控制的适应性优化; 最后, 基于贝叶斯博弈论建立不完全信息实时决策模型, 依据混合策略纳什均衡做出访问控制决策, 并通过均衡状态反馈更新信任度. 仿真实验和敏感性分析的结果表明, 该方案能够有效提高访问控制的准确性, 实现访问控制策略动态调整和精准授权.
    优先出版日期:  2026-04-29 , DOI: 10.13328/j.cnki.jos.007535
    摘要:
    社交网络链路预测旨在分析现有的网络信息来推断未来的链接情况. 这是一个极具挑战性的任务, 因为社交网络具有复杂的时空耦合特征, 表现为时间维度上的动态演化(即时间依赖性)和空间维度上的关联互耦(即空间依赖性). 现有方法主要集中在时域和空域建模上, 没有充分利用图快照序列数据的频域信息. 提出一种新的时频感知图卷积网络(time-frequency-aware graph convolutional network, TFAGCN)用于社交网络链路预测. TFAGCN的主要优点是在统一的网络框架中集成频域、时域和空域信息, 同时捕获社交网络数据中的全局时间依赖关系和局部时空依赖关系. 具体来说, TFAGCN引入频域模块与时空模块: 在频域模块中, 使用快速傅里叶变换完成图快照序列的域转换, 并在频域通过多层感知器学习频率分量的实部和虚部以捕获社交网络全局依赖关系; 在时空模块中, 联合图卷积神经网络和门控循环单元网络分别探索单个图快照的局部拓扑特征和局部时间特征. 同时, 设计先进的时频双向交叉注意力网络, 能够自适应地融合频域特征与时域特征. 此外, 为了有效应对大规模社交网络的链路预测问题, 给出TFAGCN的简化版本——TFAGS. 在6个真实社交网络数据集上进行一系列有说服力的实验验证, 结果显示所设计的时频感知图卷积网络获得了比先进的基线算法更优的链路预测表现, 证实其是一种高效的处理社交网络蕴含信息表达问题的新工具. TFAGCN的代码可在公开的软件项目托管平台中获取: https://github.com/junlonglai/TFAGCN.
    优先出版日期:  2026-04-22 , DOI: 10.13328/j.cnki.jos.007626
    摘要:
    共享账户是指多个用户通常共享同一电子账户(智能家居系统往往以一个家庭为一个账户), 因此, 同一账户下的行为序列往往包含多个用户的交互记录. 面向共享账户场景的序列推荐成为近年来的研究热点, 但仍然面临以下挑战: (1) 现有方法难以有效解耦同一账户下的不同潜在用户偏好, 导致用户表示学习出现偏差. (2) 现有方法通常采用固定的超参数来模拟共享账户中的潜在用户数量, 难以自适应地确定潜在用户数量, 易导致欠拟合或噪声干扰问题. 为了解决上述挑战, 提出一种面向共享账户序列推荐的提示增强图注意力网络(PE-GAT). 具体而言, 该方法首先通过设计动态加权密度聚类算法来确定账户中的潜在用户数量, 构建用户级序列图, 以显式区分不同潜在用户的交互行为. 在此基础上, 提出基于图注意力网络的预训练模型, 通过解耦混合序列中的用户偏好来学习初始序列表示. 随后, 受预训练-提示调优范式启发, 设计了基于注意力机制的提示增强模块, 通过提示模板优化序列表示并指导模型再训练. 最终, PE-GAT通过融合账户级表示与提示增强后的序列表示, 以生成个性化的推荐结果. 在HVIDEO-E和HVIDEO-V两个真实共享账户数据集上的实验表明, PE-GAT优于14种基线方法, 在MRRRecall指标上分别最高提升4.73%和5.59%.
    优先出版日期:  2026-04-22 , DOI: 10.13328/j.cnki.jos.007624
    摘要:
    针对数据跨域传输中面临的用户隐私安全与传输数据安全问题, 以及跨域通信系统要求的用户便携性与节点轻量化等实用性问题, 分析现有方案, 提出强对抗环境下面向轻量级节点的数据跨域安全传输方案, 实现: 1)去中心化公钥与身份认证; 2)用户便携式系统访问; 3)通信节点可信密钥协商; 4)抗密钥泄露的数据跨域传输. 形式化证明所提方案的安全性, 并进行原型系统实现与性能评估, 实验结果表明系统计算开销与通信开销是高效的.
    优先出版日期:  2026-04-22 , DOI: 10.13328/j.cnki.jos.007615
    摘要:
    随着网络技术的飞速发展, 频频发生的网络攻击事件, 尤其是高级持续性威胁(advanced persistent threat, APT), 严重影响着国家安全和社会稳定. 在当前网络流量加密、混淆、伪装技术不断发展的背景下, 网络流量的智能化分析可以有效提高网络威胁的检测能力. 但在处理海量的网络流量数据时, 现有诸多方法仍存在分析复杂度高、模型可解释性弱等问题. 流谱以“域变换”作为总体解决思路, 通过为网络流数据构建更加精确、可分离度更高、可观测性更好的描述空间, 实现对网络行为的高效刻画、表征与分析, 从而有效解决上述问题. 类比原子光谱, 提出一套新的流谱方案. 该方案核心思想是通过将网络流映射到一维谱空间实现对网络行为的具象表征, 并以流谱比对方式检测网络流量威胁, 其中良好的流谱分解器设计是关键. 基于半监督自编码器构造流谱分解器并结合重构、分类任务完成训练, 从而使不同网络行为的谱线分布具有良好的可分性. 该方案在NSL-KDD、UNSW-NB15和CIC-DDoS2019数据集上进行了验证. 实验结果表明, 所提出的流谱方案对网络威胁行为在实现高准确率的识别的同时可以差异化表征对不同网络流量行为, 使得网络行为的可观测性显著提高, 从而增强检测方法的可解释性. 因此, 所提出的流谱方案对网络流威胁行为检测是有效的.
    优先出版日期:  2026-04-22 , DOI: 10.13328/j.cnki.jos.007621
    摘要:
    随着开源模型与数据集规模快速扩张, Hugging Face生态中资源之间形成了复杂的模型-数据集为主体的异构依赖网络, 元数据缺失、依赖集中度等问题使链式风险更易累积与传播. 为刻画这一风险基础, 基于Hugging Face快照构建了一个AI资源依赖网络, 并从全局拓扑与时间演化两个维度分析其结构和演化特征; 进一步提出融合属性完整性、社区反馈的“可信风险”指标, 对模型与数据集节点进行连续化风险量化与排序. 结果表明, 该依赖网络呈显著“尖峰+长尾”结构, 依赖高度集中于少数枢纽节点, 大量资源在关键数据流关系中处于孤立或半孤立状态; 同时, 模型规模爆炸式增长而数据集与贡献者扩张滞后, 导致生态对有限核心数据源的路径依赖持续增强, 形成结构性系统风险. 在节点层面, 可信风险指标对参数扰动保持稳健, 能够在多类风险来源下显著区分高/低风险节点并优于基线方法; 风险耦合分析与专家盲评进一步验证了高风险数据集与高风险模型在局部结构中的聚集与传播效应. 为开源AI生态的风险筛查与治理提供了可复现的量化依据.
    优先出版日期:  2026-04-22 , DOI: 10.13328/j.cnki.jos.007579
    摘要:
    图自监督学习旨在无需人工标注的条件下学习有效的图结构表示. 尽管图对比学习(graph contrastive learning, GCL)通过构造标签保持不变的扰动视图并最大化其与原始视图的相似性来实现自监督训练, 但现有方法普遍采用全局均匀扰动策略, 未能考虑真实网络中节点角色的异质性——这种无差别的随机破坏会违反标签不变性假设. 实际观测表明, 真实网络普遍呈现核心-边缘的双层拓扑架构: 核心节点通过高度互连形成信息枢纽, 对其进行破坏性扰动将导致语义失真与标签偏移. 针对上述问题, 提出基于核心-边缘结构感知的图对比学习框架, 其创新性体现在: (i)摒弃全局均匀扰动范式, 通过核心-边缘检测算法精准定位边缘节点, 实施局部扰动以保持核心拓扑完整性, 严格遵循标签不变性原则; (ii)设计了边缘节点删除等增强操作, 模拟真实网络的动态演化过程, 强制模型捕获拓扑稳定性与噪声鲁棒性特征; (iii)构建了核心-边缘对比损失函数, 对不同结构重要性的节点在损失计算中赋予差异化权重, 有效引导模型关注核心信息并抑制边缘潜在的负面干扰. 在多个基准数据集上的实验表明, 所提方法在多个任务中均显著优于现有最优模型.
    优先出版日期:  2026-04-09 , DOI: 10.13328/j.cnki.jos.007614
    摘要:
    TLS协议在保障网络通信的隐私性、完整性和可靠性方面发挥着至关重要的作用. 近年来, 工业界和学术界积极推动TLS协议相关研究和发展, 尤其在TLS 1.3中取得了巨大进展. 然而, 随着网络环境的日益复杂化和攻击手段的不断进步, TLS 1.3的安全性也面临着严峻挑战, 如重放攻击、前向安全风险, 以及OpenSSL软件实现漏洞. 这些攻击和漏洞不仅严重威胁用户隐私与企业数据安全, 也对互联网的信任体系乃至整个社会的数字经济产生深远影响. 首先对TLS 1.3协议发展历程和原理进行详细介绍. 其次, 对TLS 1.3协议相关安全研究进行分类梳理和对比分析, 从协议机制、软件实现和应用配置这3个方面系统分析和归纳. 最后, 总结TLS 1.3协议安全研究现状和瓶颈挑战, 为未来的研究方向提供建议.
    优先出版日期:  2026-04-01 , DOI: 10.13328/j.cnki.jos.007611
    摘要:
    Web 3.0 是以区块链为技术底座的新一代互联网框架, 能够助力数据资产化, 形成可流通的数字资产, 促进数字经济发展. 然而, Web 3.0 在用户生态构建与数字资产流通两方面仍然存在挑战: (1) Web 3.0 用户信任机制多样导致用户数字身份管理难; (2) Web 3.0 数字资产侵权成本低、鉴权粒度粗导致数字资产高效流通难; (3) Web 3.0 开放自治且参与实体多元导致用户生态治理难; (4) Web 3.0 数据公开透明且攻击面多样导致隐私保护与安全监管平衡难. 围绕这4个挑战, 提出面向数据资产化的 Web 3.0 技术架构, 针对数据资产化在身份管理、资产流通、生态治理与安全监管这4个方面的需求, 结合技术自身特点, 对国内外相关的 Web 3.0 技术研究工作进行归纳、分类、分析与总结. 具体包括: (1)分布式数字身份管理机制, 包含数字身份创建、标识鉴别与隐私保护等技术; (2) Web 3.0 数字资产流通机制, 包含数字资产确权、鉴权与流通等技术; (3) Web 3.0 生态治理机制, 包含用户声誉评价与权益激励等技术; (4) Web 3.0 数字资产安全防护与监管技术, 包含主动监管、链上数据监测与应用前端安全分析等技术. 最后, 展望 Web 3.0 技术的未来研究方向.
    优先出版日期:  2026-04-01 , DOI: 10.13328/j.cnki.jos.007612
    摘要:
    在大型在线服务系统中, 由于各组件间错综复杂的依赖关系, 故障的发生常会引发大量相关告警, 形成告警风暴. 告警风暴不仅增加了值班工程师的工作负担, 也使得故障诊断和根因分析变得更加困难. 为了解决这一问题, 提出了Alert-CM, 一种基于图表示学习的告警聚类方法, 将由同一故障引发的告警有效地聚类在一起, 从而减轻工程师的工作负担. 在告警管理过程中, 一条告警往往由故障发生时的多种底层系统数据共同汇总得到, 如异常相关应用、指标、日志、预警规则和应急场景等. Alert-CM认为由同一个故障引发的多个告警通常在底层系统数据层面存在紧密关联, 并且当中的底层核心系统数据将更能代表当前告警对应的系统异常状态. 根据这一核心思想, Alert-CM基于告警相关配置数据构建出细粒度的系统数据依赖图, 并将告警与图中各节点的依赖关系进行抽象和映射, 进一步扩展告警的特征空间. 基于系统数据依赖图, Alert-CM搭建了图神经网络模型进行图表示学习, 挖掘核心底层系统数据对于告警的贡献强弱, 从而输出准确的告警向量表示. 最终, Alert-CM使用DBSCAN算法实现告警聚类. 在真实工业数据集上对Alert-CM进行评估, 重点考察聚类的有效性和实时效率. 实验结果表明, Alert-CM在告警聚类任务中的表现显著优于传统的告警聚合方法. 在评估中, Alert-CM的NMI和ARI分别达到了 0.901 和 0.645, 相较于现有方法的平均值分别提升 31.7% 和 153.9%, 同时Alert-CM在在线实时聚类任务上也表现出良好的性能.
    优先出版日期:  2026-04-01 , DOI: 10.13328/j.cnki.jos.007613
    摘要:
    大语言模型在自动代码生成领域已展现出巨大的潜力, 但在实际应用中, 生成的代码常存在语法、语义、安全性、运行效率和可维护性等多方面的问题. 为解决这些挑战, 受约束代码生成技术应运而生. 此技术借鉴了受约束文本生成的方法, 通过在代码生成的各个阶段引入严格的约束, 确保生成代码能够满足预期的要求. 首先回顾大语言模型在代码生成过程中所暴露的主要问题, 详细分析代码正确性与代码质量方面的缺陷. 接着, 总结当前受约束代码生成技术的研究进展, 深入探讨不同方法的优势与局限. 之后, 讨论评估方法, 包括基准数据集的构建和评价指标的设计, 为后续研究的实验方案提供有价值的参考. 最后, 展望受约束代码生成技术面临的研究挑战和未来发展趋势.
    优先出版日期:  2026-03-25 , DOI: 10.13328/j.cnki.jos.007643
    摘要:
    预训练代码模型在代码理解与分析任务中展现出强大的能力, 逐渐成为源代码漏洞检测领域的重要工具与研究热点. 然而, 与传统深度学习模型类似, 预训练代码模型在面对精心构造的对抗代码输入时仍存在鲁棒脆弱性. 攻击者可通过添加语义保持的扰动, 误导模型将含漏洞代码识别为无漏洞代码, 从而威胁软件安全. 因此, 研究针对预训练漏洞检测模型的对抗攻击, 不仅有助于评估预训练代码模型的鲁棒性, 还能够为后续漏洞检测模型设计和防御机制构建提供重要参考. 针对硬标签黑盒攻击场景, 提出一种面向预训练漏洞检测模型的黑盒对抗攻击方法——VulBlurrer. 设计定向同义代码转换策略优先对漏洞邻近的高敏感区域和特定语句进行扰动, 并提出基于特征一致性、语义一致性与代码流畅度的逃逸分数, 以在无需访问目标模型内部信息的前提下量化候选样本的潜在攻击价值. 此外, 采用基于遗传算法的对抗代码优化策略, 通过动态调整逃逸分数计算权重, 并在迭代过程中采用精英保留机制, 进一步提升攻击准确率. 在基于CodeBERT、GraphCodeBERT、CodeT5和UniXcoder的预训练漏洞检测模型上, 对VulBlurrer及基线方法进行性能测试. 结果显示, VulBlurrer在4种目标模型上的攻击成功率分别达到85.51%、91.47%、93.14%和71.61%, 平均查询次数分别为12.67次、9.10次、11.07次和19.44次. 与现有方法相比, VulBlurrer具有更高的攻击成功率, 且在攻击成功率与查询效率之间实现了更好的权衡, 其生成的对抗代码在语义一致性与代码流畅度方面亦表现更优. 进一步地, 在ChatGPT、DeepSeek和基于大语言模型的辅助编程工具GitHub Copilot、TRAE上开展实证研究, 验证了VulBlurrer在大语言模型上的有效性. 因此, 预训练代码模型在漏洞检测任务中仍面临对抗攻击带来的鲁棒性挑战, 基于预训练模型和大语言模型的漏洞检测工具需要进一步提升面对对抗性代码时的鲁棒性.
    优先出版日期:  2026-03-25 , DOI: 10.13328/j.cnki.jos.007568
    摘要:
    神经网络鲁棒性验证作为保障人工智能系统安全性与可靠性的关键技术, 能够为智能决策提供形式化保证. 现有研究普遍基于数据分布各向同性的简化假设, 进行均匀Lp范数球邻域上的验证算法开发. 但这一理论框架在面对现实世界复杂的数据特性时显得力不从心, 例如: 数据不同特征对模型预测结果的影响及其对扰动的敏感度表现出差异性; 某些特征受物理约束限制具有不可变性; 特征间还可能存在复杂的相关性结构. 这使得基于均匀扰动域的验证算法难以准确建模现实世界对人工智能系统的鲁棒性需求. 针对上述局限, 提出基于非均匀扰动域的鲁棒性验证框架. 通过结合具体应用领域的数据分布特性, 合理构建符合领域特征的扰动域几何结构, 并对领域自适应扰动进行建模. 在此基础上, 形式化地定义3种新型鲁棒性概念: 椭球鲁棒性、掩码局部鲁棒性以及马氏距离鲁棒性, 并提出了相应的鲁棒性验证问题的定义与构建方法. 此外, 设计NNV4RADAP算法, 通过构建等价的均匀Lp范数球鲁棒性验证问题来将现有的验证算法推广到面向领域自适应扰动的神经网络鲁棒性验证问题上. 实验结果显示, NNV4RADAP算法可以为神经网络提供更为精准且贴合数据分布特性的鲁棒性保证. 拓宽现有的深度神经网络的鲁棒性的形式定义, 并设计实现面向领域自适应扰动的神经网络鲁棒性的形式验证算法, 研究领域内基于数据分布的鲁棒性定义上的问题, 对于形式验证技术未来在可信人工智能技术中的落地和应用都有指导作用.
    优先出版日期:  2026-03-25 , DOI: 10.13328/j.cnki.jos.007569
    摘要:
    图像去噪是计算机视觉中的基础任务, 其关键在于利用有效先验知识恢复噪声污染下的细节信息. 针对传统卷积神经网络因固定权重与局部感受野限制而存在的性能瓶颈, 以及Transformer在全局建模时面临的高计算复杂度问题, 提出一种基于特征空间上下文的Transformer去噪方法FSCformer. 该方法设计高效感受野模块, 通过动态捕获多尺度上下文信息, 在增强空间感知能力的同时显著降低计算开销; 采用卷积注意力模块, 将局部特征提取与全局依赖建模有机结合, 提高模型在复杂噪声环境下的鲁棒性; 提出跨特征融合机制, 通过多尺度特征的精细化交互增强图像细节保留能力. 大量实验结果表明, 该方法在去噪精度与计算效率之间实现了良好平衡, 并在多个基准数据集上优于现有的多种图像去噪模型.
    优先出版日期:  2026-02-11 , DOI: 10.13328/j.cnki.jos.007551
    [摘要] (245) [HTML] (0) [PDF 10.50 M] (174)
    摘要:
    近年来, 深度学习发展迅速, 在计算机视觉研究中取得了巨大的成功. 在发展过程中, 模型的测试和改进方向是研究者们关注的核心. 然而, 视觉模型比较范式是封闭数据集上训练(验证)和测试, 然后通过测试结果和真实标签的偏差来获得难样本, 用于反馈模型的问题和改进方向. 这种方式存在的问题包括: 1) 数据集中少量的数据无法真实反映模型的问题; 2)模型预训练等一些操作可能导致数据泄露, 因此展现的性能可能有偏差. 提出基于最大差异化竞争的通用视觉难样本挖掘算法, 自动挖掘真实的难样本, 用于指出模型的问题. 所提算法遵循“通过模型博弈来比较模型”的思想, 联合视觉任务内和多视觉任务间预测结果的“不相似性”优化挖掘潜在的难样本, 旨在以可控的、高效的方式为计算机视觉领域提供新的测试基准. 实验证明, 所构建的测试基准GHS-CV相比于单视觉任务的难样本挖掘(语义分割难样本集SS-C, 显著目标检测难样本集SOD-C)更能暴露出模型的缺陷. 其中, 相对DeepLabv3+模型在SS-C数据集上的性能, DeepLabv3+在GHS-CV数据集上的mIoU 下降了约 20%; 相对VST模型在SOD-C 数据集上的性能, VST在GHS-CV数据集上的Fβ下降了约 36%.
    优先出版日期:  2026-02-11 , DOI: 10.13328/j.cnki.jos.007553
    [摘要] (235) [HTML] (0) [PDF 2.64 M] (134)
    摘要:
    时空逻辑分析是指用逻辑符号准确表达实体间的时空关系. 传统的时空逻辑分析分为封闭域与开放域两种形式. 封闭域方法预先定义了表示时空逻辑的符号体系, 然后将自然语言转换成逻辑语言. 此类方法的优点是对时空关系的表达准确, 但是由于人工定义的局限性, 所定义的体系并不能覆盖复杂的时空关系. 开放域的方法使用自然语言表示时空关系, 也就是将关键词进行抽取. 此类方法的优点是能够覆盖复杂的时空关系, 但是由于自然语言本身存在歧义性, 所表示的逻辑并不精确. 为了将自然语言表达的时空关系转化为逻辑语言, 从而更准确地表达时空信息, 针对如上问题展开研究. 考虑时空关系在语言学范畴主要通过方位词表达, 如果能把方位词的语义用逻辑符号加以定义, 那么既可以解决覆盖不足的问题, 也可以解决表达不精确的问题. 为此, 设计方位词的时空逻辑体系, 定义标注规范, 总结方位词的逻辑表达范围, 给出详细的标注准则; 基于该规范, 在人民日报和CTB两个数据集上手工标注样本6190条, 形成该任务的语料库; 最后基于该语料库, 利用大语言模型对方位词触发的时空逻辑表达式进行推理, 准确率可达到70%以上.
    优先出版日期:  2026-02-11 , DOI: 10.13328/j.cnki.jos.007576
    摘要:
    时序图是一类节点之间交互时带有时间戳的图结构, 其比静态图具有更多的建模优势, 比如可以发现在一定时间区间内的洗钱、刷单、股权关系、金融欺诈、循环担保等行为. 环路是对时序图中的路径组成回路的行为建模. 现有的时序环路检测或挖掘方法大多数关注时间非递减的完全环路检测, 忽略了时间处于一定区间内的近似环路分析与发现, 发现此类近似环路可以检测出一些作弊手段更强的欺诈行为. 针对处于一定时间区间内, 事实上已经出现环路, 但在单一源数据上未完全展示出环路的近似环路发现问题, 提出一种基于深度优先搜索的近似环路检测方法, 简称基线方法(Baseline). 首先在每个窗口内挖掘时间维度上满足非递减顺序的边组成的完全环路, 接着将其中符合一定特征的节点分别作为近似环路的起止点, 并在后续窗口中挖掘处于一定时间区间内的边组成的路径, 即时间区间近似环路. 针对基线方法存在的问题, 提出一种优化的近似环路检测方法, 简称优化方法(Improved). 首先利用节点的活跃度来提升起止点的可能性, 接着使用活跃路径和热点来优化索引的特征, 最后运用起止点到热点的双向搜索与连接来加快检测速度. 在真实数据和人工数据上进行的大量实验证明了所提方法的高效性与有效性.
    优先出版日期:  2026-02-11 , DOI: 10.13328/j.cnki.jos.007566
    [摘要] (243) [HTML] (0) [PDF 3.44 M] (118)
    摘要:
    随着自动驾驶应用的快速普及, 其安全性问题成为学术界及工业界共同关注的焦点. 针对自动驾驶系统(autonomous driving system, ADS)的测试是解决该问题的有效手段. 目前, 主流测试方法是基于驾驶场景的仿真测试, 即通过模拟各种场景元素, 如道路、行人等, 评估待测ADS的决策. 然而, 现有方法多聚焦于关键驾驶场景的构建与动态生成, 忽视了车辆自身配置变化, 如车重、扭矩等, 对部署于其上的ADS的决策影响. 针对该问题, 基于课题组前期工作SAFEVAR, 提出安全攸关的车辆配置高效搜索方法SAFEVCS. SAFEVAR采用搜索算法, 探索暴露ADS安全隐患的车辆配置设置(VCS); 为提高搜索结果的多样性, SAFEVCS引入模糊测试, 改进搜索算法交叉与变异算子的条件限定及约束; 为提高搜索效率, SAFEVCS进一步结合车辆动力学知识, 实现搜索终止策略和去重策略的自适应. 为评估SAFEVCS的有效性及执行效率, 以SAFEVAR为对比基线, 在3个驾驶场景下进行大规模实验. 实验结果表明, SAFEVCS生成的VCS能够有效暴露ADS安全隐患. 在晴天、雨天两种天气条件下, 行人横穿马路的仿真场景中, SAFEVCS搜索到的解集能够显著降低ADS的安全表现, 且在相同的实验环境下, 仿真效率提升近2.5倍.
    优先出版日期:  2026-02-04 , DOI: 10.13328/j.cnki.jos.007577
    [摘要] (331) [HTML] (0) [PDF 1.98 M] (151)
    摘要:
    近年来, 基于图神经网络(graph neural network, GNN)的推荐系统能够很好地利用交互数据的交互结构来学习用户和项目表示. 然而, 现有的基于图神经网络的推荐模型在聚合过程中往往忽略了交互的时态信息, 从而难以建模用户兴趣变化特征, 导致推荐模型对数据产生过度拟合, 造成推荐结果缺乏多样性, 难以满足用户更加多样化的需求. 针对上述问题, 提出了一种时态信息增强的多样化推荐模型. 首先, 利用注意力机制来捕获历史用户-物品交互中的时态信息和交互结构信息并融合. 同时, 为降低特征冗余并提高表示辨识度, 设计了特征分离模块, 将平滑的全局特征与突出且具有判别力的关键信号进行解耦. 然后, 通过邻居选择来突出节点间的差异并进行图卷积, 利用层注意力机制来缓解过平滑问题. 最后, 通过重加权损失增强对长尾类别项目的学习以增强多样性. 通过在两个数据集上的大量实验验证, 结果表明所提方法可以在实现最佳多样性的同时, 保持较高的准确性.
    优先出版日期:  2026-02-04 , DOI: 10.13328/j.cnki.jos.007578
    [摘要] (282) [HTML] (0) [PDF 4.60 M] (165)
    摘要:
    多模态多目标优化存在个体拥挤度难以合理定义、个体多样性计算难以动态平衡决策空间和目标空间的挑战, 现有多模态多目标优化算法在性能上尚存在较大提升空间. 为此, 提出了一种个体多样性自适应的多模态多目标差分进化算法(multimodal multiobjective differential evolution algorithm based on adaptive individual diversity, MMODE-AID). 首先, 以个体在决策空间或目标空间的最近邻平均欧氏距离为基础, 通过对个体间相对距离的累乘定义个体的拥挤度, 可以更合理地衡量各个体在相应空间的真实拥挤程度. 其次, 基于决策空间和目标空间各自的整体拥挤度, 得到个体在相应空间的拥挤度相对值, 可以合理地动态平衡进化过程中决策空间和目标空间当前状态对个体多样性计算的影响, 有利于各等效帕累托最优解集的充分搜索. MMODE-AID以差分进化为基础优化框架, 并基于自适应个体多样性评估个体的适应度, 可在子代生成和环境选择时得到在决策空间分布、目标空间分布、收敛性这3方面均表现优异的种群. 为验证MMODE-AID的性能, 将其与7个先进的多模态多目标优化算法在39个基准测试问题和1个实际应用问题上进行对比. 实验结果表明MMODE-AID对于多模态多目标优化问题的求解具有明显竞争优势. MMODE-AID的源代码和原始实验数据已在GitHub上公开: https://github.com/CIA-SZU/ZQ.
    优先出版日期:  2026-02-04 , DOI: 10.13328/j.cnki.jos.007572
    [摘要] (245) [HTML] (0) [PDF 1.00 M] (120)
    摘要:
    TypeScript作为JavaScript的超集, 提供了静态类型支持和面向对象等多种特性, 被Angular、Vue、React等众多主流框架广泛采用, 成为构建大型应用的核心技术之一. 其编译器负责将TypeScript代码编译为标准的JavaScript代码. 然而, TypeScript编译器本身可能存在缺陷, 导致生成的JavaScript代码包含难以预料的错误. 尽管在JavaScript引擎测试方面已有诸多研究, 但尚未有针对TypeScript编译器的系统性测试研究. 现有的JavaScript引擎测试方法既难以生成大量包含TypeScript特定类型的程序, 也无法有效变异这些类型, 导致难以检测TypeScript编译器中与复杂类型系统相关的缺陷. 为此, 提出一种基于语法和类型变异的TypeScript编译器测试框架TscFuzz. 为了获取大量包含TypeScript特定类型的种子程序, TscFuzz针对TypeScript相较于JavaScript的特殊类型设计了一组提示词, 并引导大语言模型生成一系列包含特定类型的程序. 然后, 设计了一组类型特定的变异算子, 旨在通过类型变异对TypScript的类型系统进行针对性的测试. 最后, TscFuzz基于交叉版本策略的差分测试, 比较不同版本的TypeScript编译器的输出结果来检测其缺陷, 并通过Node.js验证编译器输出JavaScript程序的语义正确性. 实验结果显示, TscFuzz在72 h内发现了5个缺陷, 比基线方法DIE和FuzzJIT分别多检测了2个和3个bug. TscFuzz的故障检测效果显著优于基线方法. 同时, 经过3个月的测试, TscFuzz发现了12个真实的TypeScript缺陷, 其中8个已被开发者确认, 7个已被修复.
    优先出版日期:  2026-02-04 , DOI: 10.13328/j.cnki.jos.007575
    [摘要] (242) [HTML] (0) [PDF 2.17 M] (146)
    摘要:
    Python作为一种广泛应用的解释型语言, 在执行效率方面存在性能瓶颈. 即时(JIT)编译器被引入Python生态, 它通过将字节码动态编译为机器码, 显著提升了程序的运行速度. 然而, JIT编译器复杂的优化策略可能导致程序缺陷, 影响程序的稳定性和可靠性. 现有的Python解释器模糊测试方法难以有效检测JIT编译器的深层优化缺陷和非崩溃缺陷. 为此, 提出了一种基于覆盖率引导的Python JIT编译器缺陷检测方法PjitFuzz. 首先, 为了能够生成触发Python JIT编译器优化策略的程序变体, PjitFuzz提出了5种基于JIT优化策略的程序变异规则. 其次, 为了聚合不同变异规则的优势并生成多样化的程序变体, PjitFuzz设计了一种基于覆盖率引导的变异规则动态选择方法. 然后, 为了有效记录程序执行过程中变量值的变化情况, 从而检测输出不一致的缺陷, PjitFuzz提出了一种基于计算校验和的代码块插入策略. 最后, 结合不同的JIT编译选项进行差分测试, 从而有效检测Python JIT编译器缺陷. 将PjitFuzz与目前最先进的两种Python解释器模糊测试方法FcFuzzer和IFuzzer进行比较, 实验结果表明, PjitFuzz在缺陷检测能力上, 分别高出150%和66.7%; 在代码覆盖率方面, 分别比现有方法高出28.23%和15.68%; 在生成测试程序有效率方面, 分别高出42.42%和62.74%. 在为期8个月的实验中, PjitFuzz发现并报告了16个缺陷, 其中12个已得到开发人员的确认.
    优先出版日期:  2026-01-21 , DOI: 10.13328/j.cnki.jos.007562
    [摘要] (241) [HTML] (484) [PDF 3.93 M] (274)
    摘要:
    当前软件市场呈现出产品同质化加重趋势, 功能性创新已成为决定软件竞争优势的关键因素. 这促使现代需求工程研究范式从被动的需求提取转向主动的创新需求捕获. 在提升需求创新性的实践中, 现有研究主要呈现两条路径: (1)通过情景建模与引导方法改进工作坊流程, 激发人类团队协作创新; (2)基于组合创新理论对既有需求进行解构重组, 快速生成新需求方案. 但两种方法均面临创新质量与参与成本难以有效平衡的核心矛盾. 生成式AI技术的突破性进展为应对这一挑战提供了新思路. 提出一种业务建模驱动下注入TRIZ理论的人-多智能体协作式创新需求捕获框架BMHACT, 该框架以统一过程业务建模协作架构为蓝本, 设计提示词定义业务流程分析员、业务设计员等5个智能体职责. 多智能体团队通过“系统愿景收集-流程痛点识别-技术矛盾分析-TRIZ创新原理匹配-需求方案生成”的协作流程生成创新需求, 并由领域专家和客户代表对需求进行创新性评估. 以工程机械领域某企业门户网站建设项目为例的实证研究表明: 相较基于需求重用的自动化方法和基于对抗样本的追溯式需求生成方法, BMHACT迭代次数分别降低50%和28.6%, 全过程耗时减少66.7%和33.3%, 同时, 创新潜力指数(clarity novelty usefulness, CNU)分别提升22.9%和10.7%, 且CNU单轮平均增益分别提高2.16倍和2.14倍. 证明了BMHACT在提升需求创新质量和降低协作成本上的优越性.
    优先出版日期:  2026-01-21 , DOI: 10.13328/j.cnki.jos.007472
    [摘要] (275) [HTML] (435) [PDF 5.72 M] (322)
    摘要:
    结合机器学习相关技术的启发式测试用例生成方法可显著提高测试效率. 已有研究关注于利用部分测试用例构建高效的代理模型, 忽略了初始种群质量以及代理模型对多路径测试效率的影响. 由此, 提出一种结合K-means与SVR (support vector machine regression, 支持向量机回归)的测试用例约简与生成方法. 通过K-means将随机生成的用例聚为若干簇, 保留与簇中心距离在一定阈值内的用例, 生成这些用例的路径覆盖矩阵. 利用该矩阵评估测试用例的路径覆盖潜能以及路径的难易覆盖程度, 并基于这两者对测试用例进行排序, 分别从不同簇中选取若干用例构成测试用例约简集, 将其作为初始遗传种群. 这不仅增强初始种群的多样性, 降低其冗余性, 还有助于减少多路径覆盖的测试用例进化次数. 同时, 将聚类前的用例及其适应度作为样本训练适应于多路径覆盖的SVR适应度预测模型, 并使用遗传进化生成的新用例更新模型, 进一步提高模型精度, 可减少执行插桩程序带来的大量时间消耗. 这样, 种群质量与测试效率均得以提升. 实验表明, 在15个程序上, 所提方法在覆盖率、平均进化代数等指标上均有较好改善. 其中在覆盖率上, 与3类基准方法相比, 最少可提高7%, 最多可达49%; 与5种具有竞争性的方法相比, 可提高约10%, 最多可达25%. 所提方法对融合机器学习的多路径测试研究提供了方法指导.
    优先出版日期:  2026-01-14 , DOI: 10.13328/j.cnki.jos.007558
    [摘要] (297) [HTML] (3) [PDF 1.96 M] (274)
    摘要:
    K-团枚举是子图匹配中的一个重要问题, 位图算法被证明是求解K-团枚举问题的有效方法. 目前最先进的K-团枚举算法都采用GPU来加速. 先前工作没有关注真实世界图数据的稀疏性对基于位图的K-团枚举算法的影响, 而是在GPU上采用静态的并行方法和位图构造策略, 这导致GPU计算效率低下. 提出了基于thread并行的位图任务负载均衡调度算法, 在解决线程分歧问题的同时实现位图算法的高并行性. 随后, 提出了一种动态位图构造算法, 使得位图可以在合适的时机被构造并高效启用位图算法. 实现了一个GPU友好的K-团枚举问题求解系统KCMiner, 它可以自适应地选择K-团枚举任务的优化策略. 在GPU架构上的实验结果表明, 方法能够比K-团枚举的基线算法最大实现7.36倍的加速, 与子图匹配系统的基线算法相比最大实现30.2倍的加速.
    优先出版日期:  2026-01-14 , DOI: 10.13328/j.cnki.jos.007536
    [摘要] (272) [HTML] (0) [PDF 1.77 M] (290)
    摘要:
    Scade是一种广泛用于安全攸关嵌入式控制软件开发的著名商业工具, 其建模语言是从同步数据流语言Lustre扩展而来的同步语言. 包括Lustre在内的同步语言的正确编译近年来备受关注, 并在许多研究中通过形式化验证方法来解决. 对此类语言构建形式化验证的编译器, 实践中常见的做法是先将源程序编译为类C程序, 然后使用形式化验证的后端编译器(如CompCert编译器)将其编译为机器相关的低级代码. 其中, 时态算子的正确编译是至关重要的. 介绍一种形式化验证的类Scade时态算子编译并将其应用于形式化验证的编译器项目中, 该项目将Lustre扩展的同步语言翻译成CompCert编译器的前端中间语言Clight. 时态算子的编译和形式化验证分为两个核心阶段, 在交互式证明辅助器Coq中实现.
    优先出版日期:  2026-01-07 , DOI: 10.13328/j.cnki.jos.007502
    [摘要] (293) [HTML] (433) [PDF 1.16 M] (329)
    摘要:
    随着5G技术的快速发展, 5G-AKA协议作为5G技术的核心安全机制, 受到广泛关注. 5G-AKA协议的部署推动了通信网络的高速互联, 但也带来了用户对隐私泄露的担忧. 运营商在协议交互过程将收集大量数据, 这些数据一旦泄露, 将给用户造成严重的威胁. 因此, 提出基于SM2的匿名认证与密钥协商协议, 实现用户认证过程的隐私增强, 达到用户信息的最小揭露. 扩展了国密SM2数字签名算法实现对多消息的签名, 结合ElGamal算法对用户的身份进行加密并利用零知识证明技术保证用户证书的匿名性, 有效实现对用户身份的匿名认证. 协议保护合法用户在网络活动中的身份隐私, 并有效阻断对用户信息的非法获取. 此外, 协议还具备对恶意用户的可追责性, 其允许经授权的监管机构在合法流程下还原出用户身份. 最后, 开展协议实验测评, 基于Windows及Raspberry Pi 4B平台上进行部署和实现. 测评结果显示, 匿名认证与密钥协商过程耗时均为毫秒级, 充分展示了所提协议的高效性与实用性.
    优先出版日期:  2026-01-07 , DOI: 10.13328/j.cnki.jos.007554
    [摘要] (226) [HTML] (402) [PDF 1.82 M] (311)
    摘要:
    GPS (global positioning system, 全球定位系统)移动设备与5G (5th generation mobile communication technology, 第5代移动通信技术)互联网技术的普及催生了轨迹数据的飞速增长. 如何对海量轨迹数据进行高效地存储、管理和分析成为当前环境下的研究热点问题. 传统的单节点式轨迹索引受限于内存容量、磁盘I/O速度等问题已经无法胜任海量轨迹数据的管理. Spark作为一种基于内存计算的分布式框架, 在处理海量数据时具备天然的优势. 因此, 提出了基于Spark平台的分布式轨迹数据索引以及相关的查询技术方案. 为了提升分布式集群中单个节点的数据存储能力和轨迹查询效率, 首先提出了一种轨迹编码技术(Z-order trajectory encoding, ZTE), 该技术对轨迹MBR (minimum bounding rectangle, 最小外接矩形)所覆盖的最小相邻子空间进行编码, 可以表达不同粒度的轨迹以及轨迹的运动方向, 用于判断轨迹与查询空间的关系. 基于这一技术, 将轨迹的ZTE编码进一步组织成偏序结构, 设计了基于子空间偏序分支的SPB分支(subspace partial-order branch, SPB)并结合哈希映射表IDMap构建局部索引. 索引能够避免类R树索引中最小限定矩形堆叠形成死空间导致的效率低下问题, 实现快速剪枝. 为了支持海量轨迹数据的高效检索, 基于SPB分支的局部索引设计了分布式的轨迹索引SPBSpark. SPBSpark主要包括数据分区、局部索引和全局索引这3个部分. 该索引能有效支持时空范围查询、k近邻查询、移动对象轨迹查询这3种查询. 最后, 选取了同样基于Spark框架的分布式轨迹索引TrajSpark和LocationSpark作为实验对照对象. 通过仿真实验对比分析, SPBSpark索引的空间利用率在LocationSpark上改善了约15%. 在查询性能上, 相较于TrajSpark和LocationSpark, SPBSpark拥有2–3倍的性能提升.
    优先出版日期:  2026-01-07 , DOI: 10.13328/j.cnki.jos.007555
    [摘要] (184) [HTML] (414) [PDF 5.24 M] (305)
    摘要:
    群体智能是新一代人工智能的重要组成部分, 研究如何激发和汇聚开源社区“人”的力量能够极大提升开发效率. 社区检测作为研究开源项目中开发者关系的技术手段, 在社交网络的探索和理解中起着至关重要的作用. 然而, 目前的研究主要集中在Facebook等大规模社交网络上, 系统性地研究项目级开源软件开发者社交网络(OSS-DSN)中的社区检测仍然较为缺乏. 首先收集真实世界的数据, 并分析OSS-DSN的特征. 然后, 在这些真实数据集上, 对多种重叠和非重叠的社区检测算法进行基准测试, 比较它们在多个度量和维度上的性能. 最后, 基于合成的OSS-DSN, 高效地生成了一系列合成网络, 并使用带有真实标签的数据进行算法评估, 以进行对比分析. 识别了小规模和中等规模社交网络与大规模网络之间的特征差异, 并探讨了这些差异如何影响社区检测的度量标准及算法性能. 提供了一个新的基准, 并为更好地理解开源软件社区中的沟通与协作提供了重要的见解.
    优先出版日期:  2026-01-07 , DOI: 10.13328/j.cnki.jos.007556
    [摘要] (187) [HTML] (496) [PDF 2.34 M] (362)
    摘要:
    许多代码文件随着软件演化逐渐膨胀并承担了过多职责, 严重影响了软件的可维护性和可理解性. 开发者常需要重构这些文件, 将一个大的代码文件分解成多个较小的子文件. 现有研究工作主要聚焦类文件的分解重构, 并不完全适用于分解复杂头文件. 这是因为分解头文件面临一些独有的挑战: 既需要考虑整个软件项目的构建依赖以降低编译成本, 也需要确保分解后的子文件之间不会存在循环依赖. 为此, 提出了一种面向复杂头文件的自动化分解与重构方法——HeaderSplit. 该方法首先为复杂头文件构造蕴含多种代码关系的代码元素图, 其中就包括体现项目构建依赖的共同使用关系; 然后通过节点合并与多视图聚类算法识别关联紧密的代码元素聚类; 随后引入启发式的循环依赖修正算法生成可行的文件分解方案. 用户确认分解方案后, HeaderSplit能够自动执行重构, 生成新的子文件内容, 并更新软件项目内直接或间接引用原头文件的代码语句. 在合成复杂头文件与真实复杂头文件上对HeaderSplit进行评估, 结果表明: 1) HeaderSplit在准确率上比现有方法提升了11.5%, 并且具有更强的跨软件项目稳定性; 2) HeaderSplit分解得到的子文件模块度更高且无循环依赖, 具有更好的架构设计; 3) 使用HeaderSplit分解复杂头文件可以降低其演化历史中15%–60%的重编译成本; 4) HeaderSplit可以高效实施自动化重构, 在5 min以内完成百万行软件项目内的头文件分解重构, 具有很高的实用价值.
    优先出版日期:  2025-12-24 , DOI: 10.13328/j.cnki.jos.007557
    [摘要] (570) [HTML] (0) [PDF 3.41 M] (551)
    摘要:
    在软件工程领域中, 非功能需求(NFR)获取一直是需求工程实践中的重要内容, 但容易被忽视. 传统的NFR获取方法主要依赖需求工程师的经验和人工分析, 不仅效率低下, 而且容易出现遗漏和不一致. 近年来, 大语言模型在自然语言处理领域取得突破性进展, 为自动化获取非功能需求提供了新的技术手段. 然而, 直接使用大语言模型生成非功能需求常面临知识幻觉、领域专业性不足等问题. 为此, 提出了一种基于大语言模型的非功能需求自动获取方法, 实现高质量的非功能需求生成. 构建了包含3856条功能需求和5723条非功能需求的结构化关联数据集, 形成22647对FR-NFR关联关系. 通过融合检索增强生成(RAG)技术, 构建了包含3个核心模块的系统化解决方案: 基于最大边际相关性算法的语义案例检索模块、面向非功能需求生成的提示工程模块和基于参数优化的大语言模型生成模块. 通过软件工程专家的专业评分和对BLEU、ROUGE等自动评分指标的多维度评估, 实验结果表明方法在需求的完整性、准确性和可测试性等方面优于现有方法.
    优先出版日期:  2025-12-24 , DOI: 10.13328/j.cnki.jos.007534
    [摘要] (365) [HTML] (0) [PDF 8.27 M] (448)
    摘要:
    随着深度学习和计算机视觉的快速发展, 灰度图像着色研究已从传统手工特征设计转向数据驱动的深度神经网络范式. 然而, 现有的灰度图像着色模型评估体系面临双重挑战: 其一, 由于评价指标的局限性以及着色任务的高度病态性本质, 传统评价指标(如PSNR、SSIM和FID等)难以准确量化着色模型性能; 其二, 开展大规模主观实验进行定性分析耗时费力且可行性差. 针对上述问题, 提出了基于难样本挖掘的灰度图像着色模型评估方法. 该方法旨在通过多维度差异化(包括图像质量、美学表现和颜色差异)比较, 高效地挖掘用于比较着色模型的代表性样本; 随后开展可控小规模主观实验, 可靠地比较不同模型的性能, 并指出不同模型的优势和不足. 实验结果表明: 提出的方法能够高效、准确地找到模型的难样本, 在极大幅度地减小主观实验规模的同时, 揭示模型的优缺点, 为灰度图像着色模型评估提供了新范式, 并为模型优化指明方向.
    优先出版日期:  2025-12-17 , DOI: 10.13328/j.cnki.jos.007497
    [摘要] (357) [HTML] (2) [PDF 2.96 M] (497)
    摘要:
    区块链技术的广泛应用推动多链应用的发展, 通过跨链技术可以解决不同区块链之间信息隔离的问题. 然而, 当区块链之间存在大量并发交易时, 现有跨链技术不能并行处理跨链交易, 带来可扩展性低的问题, 区块链分片技术可以有效解决该问题. 目前, 不完善的交易分配方法和跨分片交易导致分片技术对可扩展性的提升受限. 因此, 提出面向中继链分片环境的两阶段自适应交易分配模型, 该模型在第1阶段得到交易分配方案, 以减少跨分片交易并保证分片负载与分片性能相匹配; 在第2阶段, 对中继链收集节点转发后处于不稳定队列中的交易进行微调, 以解决负载激增导致的交易处理延迟增加问题. 在第1阶段, 设计一种交易分配预测方法, 该方法利用平行链历史跨链交易信息对交易大小和数量进行预测, 根据预测结果与分片的交易吞吐量计算负载值, 同时, 基于交易依赖性设计跨分片交易分配方法, 结合负载值和该方法得到交易分配方案; 在第2阶段, 中继链根据交易分配方案和跨分片交易分配方法将交易转发至对应分片进行处理, 在此过程中用户可能短时间内生成大量交易导致分片负载与分片性能不匹配. 因此, 针对交易队列中等待的交易提出一种交易队列稳定性分析方法, 该方法通过交易队列的长度变化分析交易队列稳定性并对不稳定交易队列中的交易进行分片间动态微调. 通过交易分配预测方法和交易队列稳定性分析方法进行自适应交易分配, 减少交易等待处理的时间并提高中继链的交易吞吐量. 实验结果表明, 所提出的模型可以并行处理大量并发跨链交易并对交易分配方法进行完善, 相较于对比方法显著提高交易吞吐量, 降低交易的处理延迟.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007503
    [摘要] (320) [HTML] (0) [PDF 969.54 K] (1334)
    摘要:
    遗忘学习在隐私保护、减少污染数据影响和冗余数据处理等方面具有重要应用价值, 但现有的遗忘学习方法多用于神经网络等黑箱模型中, 在可解释的TSK模糊分类系统中实现高效的单类和多类遗忘仍面临挑战. 为此, 提出了一种面向分类的TSK模糊遗忘学习方法(TSK-FUC). 首先, 通过各规则的前件参数在(单类或多类)遗忘数据上的归一化激活强度, 将规则库划分为与遗忘数据高相关的删减规则集、与遗忘数据低相关的保留规则集以及与遗忘数据和保留数据关系较为重叠的更新规则集. 继而采取差异化处理策略: 直接剔除删减规则集, 以消除主要信息残留, 并降低分类系统参数量; 完整保存保留规则集, 以缩小遗忘学习过程的参数调整范围; 对于更新规则集, 通过为每个遗忘类添加噪声, 用以进一步消除规则中关于遗忘数据的信息, 从而实现单类和多类遗忘. 实验结果表明, 在16个真实数据集的已建好的0阶和1阶TSK分类系统上, TSK-FUC能够较为准确地划分规则空间, 并结合差异化的处理展现出良好的单类和多类遗忘效果. 该方法在保持规则库可解释性的同时, 使得遗忘学习后的TSK模糊分类系统在结构上更加轻量化.
    优先出版日期:  2025-11-26 , DOI: 10.13328/j.cnki.jos.007505
    [摘要] (331) [HTML] (0) [PDF 2.55 M] (1407)
    摘要:
    HTAP数据库在一套系统中同时支持OLTP和OLAP工作负载. 其中工作负载的识别是查询执行中路由分发的关键, 只有准确识别出查询属于OLTP或OLAP, 才能对查询进行合理优化和分配资源. 因此, 准确识别工作负载类型是HTAP数据库性能的关键因素之一. 然而, 现有的负载识别方法主要基于SQL语句中的规则和成本代价, 以及传统机器学习的方法来区分工作负载. 这些方法没有考虑查询语句的自身特点, 也没有利用执行计划的结构信息, 影响识别工作负载的准确率. 为了提高负载识别的准确性, 提出了一种智能识别OLTP和OLAP工作负载的方法, 该方法通过对SQL语句和执行计划进行特征提取和特征编码, 基于BERT构建SQL语句编码器, 结合树卷积神经网络和注意力机制构建执行计划的编码器, 两种特征融合构建分类器, 该模型能够智能识别HTAP混合负载中的工作负载. 通过实验验证, 模型可以准确识别OLTP和OLAP工作负载, 具有较高的识别准确率. 同时, 在多种数据集中验证了模型的鲁棒性, 并将模型集成到TiDB数据库中验证了其对数据库性能的提升.
    优先出版日期:  2025-11-05 , DOI: 10.13328/j.cnki.jos.007489
    [摘要] (385) [HTML] (537) [PDF 1.36 M] (450)
    摘要:
    命题可满足性问题(SAT)和可满足性模理论问题(SMT)是重要的计算机科学基础问题, 其在电路设计, 软件分析验证等领域都有着重要应用, 并且目前已有大量工作对其求解技术进行研究. 在实际应用场景中, SAT/SMT求解器通常需要求解一系列互相紧密联系的公式. 相比于每次都调用独立的求解器重新求解, 增量求解技术可以复用之前搜索得到的信息, 包括之前的求解结果以及学习子句等, 从而有效提高了求解效率. 目前, 增量SAT/SMT求解已经受到广泛重视与研究, 并成功应用于有界模型检测, 符号执行, 最大可满足性问题等领域中. 对增量SAT/SMT的求解技术进行详细综述与梳理, 涵盖了完备与非完备算法. 此外, 详细总结增量SAT/SMT求解技术在实际场景中的主要应用. 最后, 对该领域的发展方向进行总结和展望.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007492
    [摘要] (260) [HTML] (592) [PDF 1.39 M] (914)
    摘要:
    临床12导联心电图(ECG)是测试心脏活动最常用的信号源, 其自动分类及可解释性对心血管疾病的早期筛查和诊断至关重要. 现有的ECG分类研究多集中于单标记分类, 即每条心电记录仅对应一种心功能障碍, 而在临床中, 心血管疾病患者常常伴有多种并发心脏疾病, 因此多标记ECG分类任务更符合现实需求. 现有基于深度网络的多标记ECG分类方法主要聚焦于标记相关性分析或神经网络架构的改进, 而忽略了多标记学习中的本质问题, 即天然存在的正负标记不平衡. 为此, 提出一种策略, 即每次仅推开一对标记使得正负标记在训练过程中维持平衡. 具体而言, 最大化正负标记之间的间隔并由此导出一个新的损失函数, 以缓解正负标记不平衡问题. 此外, 针对现有ECG方法可解释性不足, 难以辅助诊断的问题, 引入时域显著性重缩放方法对提出方法的实验结果进行可视化展示, 以辅助定位并解释不同的疾病. 在PhysioNet Challenge 2021 ECG标准数据集上(包含8个子集)进行实验, 结果表明与最先进的多标记ECG分类方法相比, 所提方法取得了更优的性能.
    优先出版日期:  2025-10-29 , DOI: 10.13328/j.cnki.jos.007477
    [摘要] (342) [HTML] (740) [PDF 1.10 M] (1250)
    摘要:
    随着鸿蒙生态系统的快速发展, 鸿蒙应用的安全问题逐渐成为研究重点. 在安卓领域, 已有多种成熟的静态分析框架广泛应用于安全检测任务. 然而, 针对鸿蒙应用的静态分析框架尚处于初步发展阶段. OpenHarmony社区正在基于鸿蒙应用ArkTS源代码开展静态分析, 但在实际的安全检测任务中, 应用源代码往往难以获取, 限制了其适用范围. 为缓解上述问题, 提出一种基于方舟中间表示(Panda IR)的鸿蒙应用静态分析框架. 该框架提供方舟Panda IR的基本信息接口, 设计适应ArkTS语法特性的字段敏感指针分析算法, 并实现与指针分析交互的拓展分析接口. 具体来说, 对Panda IR中的318条指令进行语义分类和处理, 进一步定制化设计指针流图. 为了支持ArkTS语法特性, 新增指向集合传播规则, 对特殊调用的相关语义进行准确建模. 此外, 基于指针分析结果优化过程间数据依赖关系并提供别名分析能力. 从ArkTS语法特性覆盖性, 指针分析精度和指针分析速度这3个方面对HarmonyFlow进行实验评估. 实验结果表明, HarmonyFlow可以正确处理ArkTS的关键语法, 在9个开源鸿蒙应用上调用边识别的精确率和召回率分别为98.33%和92.22%, 在35个真实鸿蒙应用上的平均运行时间为96 s.
    优先出版日期:  2025-09-28 , DOI: 10.13328/j.cnki.jos.007476
    [摘要] (361) [HTML] (643) [PDF 900.19 K] (1596)
    摘要:
    黑盒漏洞扫描器是用于Web应用漏洞检测的重要辅助工具, 能够在Web应用正式上线前有效识别潜在的安全威胁, 从而提升Web应用的整体安全性. 当前大多数黑盒扫描器主要通过模拟用户操作和正则匹配来收集攻击面. 然而, 模拟用户操作容易被输入验证机制拦截, 且难以处理复杂的事件操作, 而正则匹配方法无法有效处理动态内容. 这导致扫描器难以有效处理JavaScript代码中的隐藏攻击面和动态生成的攻击面, 使其在部分Web应用中漏洞检测效果不佳. 为解决上述问题, 提出一种基于JavaScript代码分析的漏洞扫描器增强框架JSEScan. 该框架结合静态与动态代码分析技术, 绕过表单验证和事件触发的限制, 通过提取JavaScript代码中攻击面的特征, 实现JavaScript代码中攻击面的挖掘, 并且攻击面将被同步至多种扫描器, 从而增强其漏洞检测能力. 实验结果表明, JSEScan能将单个扫描器的代码覆盖量提高81.02%–242.15%, 并且相比于多扫描器同时工作的情况, 额外发现239个安全漏洞, 具备更强的攻击面收集能力和漏洞检测能力.
    优先出版日期:  2017-10-18
    [摘要] (3441) [HTML] (0) [PDF 525.21 K] (8226)
    摘要:
    Data race is a major source of concurrency bugs. Dynamic data race detection tools (e.g., FastTrack) monitor the execu-tions of a program to report data races occurring in runtime. However, such tools incur significant overhead that slows down and perturbs executions. To address the issue, the state-of-the-art dynamic data race detection tools (e.g., LiteRace) ap-ply sampling techniques to selectively monitor memory access-es. Although they reduce overhead, they also miss many data races as confirmed by existing studies. Thus, practitioners face a dilemma on whether to use FastTrack, which detects more data races but is much slower, or LiteRace, which is faster but detects less data races. In this paper, we propose a new sam-pling approach to address the major limitations of current sampling techniques, which ignore the facts that a data race involves two threads and a program under testing is repeatedly executed. We develop a tool called AtexRace to sample memory accesses across both threads and executions. By selectively monitoring the pairs of memory accesses that have not been frequently observed in current and previous executions, AtexRace detects as many data races as FastTrack at a cost as low as LiteRace. We have compared AtexRace against FastTrack and LiteRace on both Parsec benchmark suite and a large-scale real-world MySQL Server with 223 test cases. The experiments confirm that AtexRace can be a replacement of FastTrack and LiteRace.
    优先出版日期:  2017-10-18
    [摘要] (3392) [HTML] (0) [PDF 352.38 K] (8708)
    摘要:
    It is difficult to fix atomicity violations correctly. Existing gate lock algorithm (GLA) simply inserts gate locks to serialize exe-cutions, which may introduce performance bugs and deadlocks. Synthesized context-aware gate locks (by Grail) require complex source code synthesis. We propose ?Fixer to adaptively fix ato-micity violations. It firstly analyses the lock acquisitions of an atomicity violation. Then it either adjusts the existing lock scope or inserts a gate lock. The former addresses cases where some locks are used but fail to provide atomic accesses. For the latter, it infers the visibility (being global or a field of a class/struct) of the gate lock such that the lock only protects related accesses. For both cases, ?Fixer further eliminates new lock orders to avoid introducing deadlocks. Of course, ?Fixer can produce both kinds of fixes on atomicity violations with locks. The experi-mental results on 15 previously used atomicity violations show that: ?Fixer correctly fixed all 15 atomicity violations without introducing deadlocks. However, GLA and Grail both intro-duced 5 deadlocks. HFix (that only targets on fixing certain types of atomicity violations) only fixed 2 atomicity violations and introduced 4 deadlocks. ?Fixer also provides an alternative way to insert gate locks (by inserting gate locks with proper visibility) considering fix acceptance.
    优先出版日期:  2017-09-11
    [摘要] (4000) [HTML] (0) [PDF 276.42 K] (6523)
    摘要:
    对Github上Python科学计算软件生态系统中的跨项目关联缺陷进行了实证分析,聚焦于开发者对缺陷根源的追踪和上下游项目开发者修复缺陷的协作。通过定性和定量的分析,揭示了影响这类缺陷定位与修复的因素,以及开发者应对它们的常见行为。
    优先出版日期:  2017-06-21
    [摘要] (3888) [HTML] (0) [PDF 169.43 K] (5294)
    摘要:
    Numerical instability is a well-known problem that may cause serious runtime failures. This paper discusses the reason of instability in software development process, and presents a toolchain that not only detects the potential instability in software, but also diagnoses the reason for such instability. We classify the reason of instability into two categories. When it is introduced by software requirements, we call the instability caused by problem. In this case, it cannot be avoided by improving software development, but requires inspecting the requirements, especially the underlying mathematical properties. Otherwise, we call the instability caused by practice. We design our toolchain as 4 loosely-coupled tools, which combine stochastic arithmetic with infinite-precision testing. Each tool in our toolchain can be configured with different strategies according to the properties of the analyzed software. We evaluate our toolchain on subjects from literature. The results show that it effectively detects and separates the instabilities caused by problems from others. We also conduct an evaluation on the latest version of GNU Scientific Library, and the toolchain finds a few real bugs in the well-maintained and widely deployed numerical library. With the help of our toolchain, we report the details and fixing advices to the GSL buglist.
    优先出版日期:  2017-06-13
    [摘要] (5193) [HTML] (2) [PDF 174.91 K] (5602)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-25
    [摘要] (4107) [HTML] (0) [PDF 254.98 K] (5952)
    摘要:
    Code contributions in Free/Libre and Open Source Software projects are controlled to maintain high-quality of software. Alternatives to patch-based code contribution tools such as mailing lists and issue trackers have been developed with the pull request systems being the most visible and widely available on GitHub. Is the code contribution process more effective with pull request systems? To answer that, we quantify the effectiveness via the rates contributions are accepted and ignored, via the time until the first response and final resolution and via the numbers of contributions. To control for the latent variables, our study includes a project that migrated from an issue tracker to the GitHub pull request system and a comparison between projects using mailing lists and pull request systems. Our results show pull request systems to be associated with reduced review times and larger numbers of contributions. However, not all the comparisons indicate substantially better accept or ignore rates in pull request systems. These variations may be most simply explained by the differences in contribution practices the projects employ and may be less affected by the type of tool. Our results clarify the importance of understanding the role of tools in effective management of the broad network of potential contributors and may lead to strategies and practices making the code contribution more satisfying and efficient from both contributors' and maintainers' perspectives.
    优先出版日期:  2017-01-18
    [摘要] (4618) [HTML] (0) [PDF 472.29 K] (5556)
    摘要:
    Software should behave correctly even in adverse conditions. Particularly, we study the problem of automated validation of crash consistency, i.e., file system data safety when systems crash. Existing work requires non-trivial manual efforts of specifying checking scripts and workloads, which is an obstacle for software developers. Therefore, we propose C3, a novel approach that makes crash consistency validation as easy as pressing a single button. With a program and an input, C3 automatically reports inconsistent crash sites. C3 not only exempts developers from the need of writing crash site checking scripts (by an algorithm that computes editing distance between file system snapshots) but also reduces the reliance on dedicated workloads (by test amplification). We implemented C3 as an open-source tool. With C3, we found 14 bugs in open-source software that have severe consequences at crash and 11 of them were previously unknown to the developers, including in highly mature software (e.g., GNU zip and GNU coreutils sort) and popular ones being actively developed (e.g., Adobe Brackets and TeXstudio).
    优先出版日期:  2017-01-04
    [摘要] (4369) [HTML] (0) [PDF 293.93 K] (5964)
    摘要:
    本文提出了一种可部署的数据竞争动态采样检测技术,首先提出了基于线程本地时序的数据竞争定义,之后基于硬件断点进行采样检测。在采样率为1%时,时间开销约为5%,且有效性得以保证。
    优先出版日期:  2017-01-04
    [摘要] (4727) [HTML] (0) [PDF 244.61 K] (6876)
    摘要:
    在软件开发过程中,软件更新时常发生,怎样保证软件更新后的软件质量呢?这就是回归测试的任务。传统上,回归测试通过检测软件异常行为来保证软件质量。然而,在实践中所有的软件行为不可能全部被检测到,尤其针对于大型的复杂软件系统。为帮助开发人员更好的进行回归测试,传统工作集中在增加测试用例上,即通过人工或自动生成测试输入的方法,观测测试输出以捕获程序行为。这种方法虽一定程度上有效,但也存在很大缺陷:人工编写测试用例费时费力,不能覆盖的代码较多,而且容易受人主观判断的误导(例如忽略某些特别容易存在缺陷的类、方法等);自动生成测试用例技术存在很多问题,例如代价大和无法很好的处理数组、字符串等。基于目前软件测试技术存在的缺陷,很多软件不得不在面临诸多安全威胁的状态下发布,有时甚至造成重大财产损失甚至人员伤亡。因此,我们迫切需要新技术来辅助现有技术以更好的进行回归测试、保障软件质量。
    优先出版日期:  2016-12-12
    [摘要] (4139) [HTML] (0) [PDF 358.69 K] (5459)
    摘要:
    在程序分析中,循环(Loop)的处理与分析是一个非常重要而且很有挑战的任务。例如,在符号执行(Symbolic Execution)中,循环的不断展开会导致程序路径数量指数级地增长。因此,符号执行通常会陷入不停的循环展开,而不能覆盖到新的程序分支上,最终影响了测试用例生成或者缺陷检测的效率。
    优先出版日期:  2016-09-30
    摘要:
    在软件测试中,测试预言是一种判断程序在给定测试输入下的执行结果是否符合预期的机制。测试预言通常由在测试中需要被观测的变量以及这些变量的预期值组成。对于相同的测试输入,不同的测试预言可能有不同的缺陷检测能力。因此,高质量的测试预言对于检测软件中的缺陷是非常必要的。在已有的研究中,虽然研究人员提出了各种各样的自动化测试输入生成技术,但是测试预言问题仍然被公认为是软件测试中最难解决的问题之一。
    优先出版日期:  2016-09-09
    [摘要] (4640) [HTML] (0) [PDF 313.52 K] (191)
    摘要:
    本文基于众测平台,提出了一种基于局部的主动学习方法,能够将众测报告中的缺陷进行自动分类,该方法解决了众测报告分类中的局部偏见问题、及缺少历史训练数据的问题,并基于实际的众测数据进行了验证。
    优先出版日期:  2016-09-07
    [摘要] (5615) [HTML] (0) [PDF 231.98 K] (114)
    摘要:
    并发缺陷是由于某些事件按照一定的顺序发生而导致的,本文提出了一种基于缺陷半径的并发缺陷的概率检测方法RPro,并用于死锁的检测,且有概率保证。实验表明该方法可以显著提高死锁的检测概率。
    优先出版日期:  2016-08-29
    摘要:
    当公司投入资源到开源社区,其诉求可能跟开放共享的开源开发方法存在冲突,继而影响自由贡献者.因此我们研究:公司参与会对开源社区带来怎样的影响?面向三个技术同构的混合项目,我们总结了三个商业参与模型,并量化了不同模型对贡献者稳定性和持续性的影响.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2015,26(6):1356-1372 , DOI: 10.13328/j.cnki.jos.004831
    [摘要] (2766335) [HTML] (6056) [PDF 877.35 K] (19475)
    摘要:
    近年来,社会化推荐系统已成为推荐系统研究领域较为活跃的研究方向之一.如何利用用户社会属性信息缓解推荐系统中数据稀疏性和冷启动问题、提高推荐系统的性能,成为社会化推荐系统的主要任务.对最近几年社会化推荐系统的研究进展进行综述,对信任推理算法、推荐关键技术及其应用进展进行前沿概括、比较和分析.最后,对社会化推荐系统中有待深入研究的难点、热点及发展趋势进行展望.
    2019,30(1):22-32 , DOI: 10.13328/j.cnki.jos.005648
    [摘要] (599911) [HTML] (5809) [PDF 310.24 K] (9938)
    摘要:
    系统软件是计算学科的基本概念之一,从系统软件的本质特征、时代特点和发展趋势这3个方面给出了关于系统软件的新洞察.洞察1认为,通用图灵机和存储程序思想是系统软件的理论源头和技术源头,其本质特征是"操纵计算系统执行",编码加载和执行管控是两种主要的操纵方式.洞察2认为,系统软件在互联网时代的时代特点是持续在线提供基础服务,为"软件即服务"的新型应用模式奠定了基础.洞察3认为,系统软件的发展趋势是持续在线演化,在计算系统创新、信息物理融合和智能技术的推动下,将成为未来软件生态的核心.
    2016,27(6):1328-1348 , DOI: 10.13328/j.cnki.jos.005004
    [摘要] (100238) [HTML] (9227) [PDF 816.86 K] (18009)
    摘要:
    伴随云计算技术的飞速发展,其所面临的安全问题日益凸显,在工业界和学术界引起了广泛的关注.传统的云基础架构中存在较高安全风险,攻击者对虚拟机的非法入侵破坏了云服务或资源的可用性,不可信的云存储环境增大了用户共享、检索私有数据的难度,各类外包计算和云应用需求带来了隐私泄露的风险.从云计算环境下安全与隐私保护技术的角度出发,通过介绍云虚拟化安全、云数据安全以及云应用安全的相关研究进展,分析并对比典型方案的特点、适用范围及其在安全防御和隐私保护方面的不同效用,讨论已有工作的局限性,进而指出未来发展趋势和后续研究方向.
    2015,26(1):26-39 , DOI: 10.13328/j.cnki.jos.004631
    [摘要] (44620) [HTML] (5873) [PDF 763.52 K] (24697)
    摘要:
    近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
    2015,26(1):62-81 , DOI: 10.13328/j.cnki.jos.004701
    [摘要] (42913) [HTML] (9343) [PDF 1.04 M] (41592)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2003,14(7):1282-1291
    [摘要] (39170) [HTML] (0) [PDF 832.28 K] (87715)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2010,21(3):427-437
    [摘要] (34566) [HTML] (0) [PDF 308.76 K] (48794)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2016,27(3):691-713 , DOI: 10.13328/j.cnki.jos.004948
    [摘要] (34039) [HTML] (5032) [PDF 2.43 M] (24656)
    摘要:
    排序学习技术尝试用机器学习的方法解决排序问题,已被深入研究并广泛应用于不同的领域,如信息检索、文本挖掘、个性化推荐、生物医学等.将排序学习融入推荐算法中,研究如何整合大量用户和物品的特征,构建更加贴合用户偏好需求的用户模型,以提高推荐算法的性能和用户满意度,成为基于排序学习推荐算法的主要任务.对近些年基于排序学习的推荐算法研究进展进行综述,并对其问题定义、关键技术、效用评价、应用进展等进行概括、比较和分析.最后,对基于排序学习的推荐算法的未来发展趋势进行探讨和展望.
    2013,24(1):91-108 , DOI: 10.3724/SP.J.1001.2013.04292
    [摘要] (31980) [HTML] (0) [PDF 0.00 Byte] (19204)
    摘要:
    近年来,移动推荐系统已成为推荐系统研究领域最为活跃的课题之一.如何利用移动上下文、移动社会化网络等信息进一步提高移动推荐系统的推荐精确度和用户满意度,成为移动推荐系统的主要任务.对最近几年移动推荐系统研究进展进行综述,对其关键技术、效用评价以及应用实践等进行前沿概括、比较和分析.最后,对移动推荐系统有待深入的研究难点和发展趋势进行分析和展望.
    2011,22(1):71-83 , DOI: 10.3724/SP.J.1001.2011.03958
    [摘要] (31700) [HTML] (0) [PDF 781.42 K] (65924)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2018,29(2):340-362 , DOI: 10.13328/j.cnki.jos.005391
    [摘要] (31409) [HTML] (5925) [PDF 2.44 M] (15956)
    摘要:
    随着社交网络的发展,融合社交信息的推荐成为推荐领域中的一个研究热点.基于矩阵分解的协同过滤推荐方法(简称矩阵分解推荐方法)因其算法可扩展性好及灵活性高等诸多特点,成为研究人员在其基础之上进行社交推荐模型构建的重要原因.围绕基于矩阵分解的社交推荐模型,依据模型的构建方式对社交推荐模型进行综述.在实际数据上,对已有代表性社交推荐方法进行对比,分析各种典型社交推荐模型在不同视角下的性能(如整体用户、冷启动用户、长尾物品).最后,分析了基于矩阵分解的社交推荐模型及其求解算法存在的问题,并对未来研究方向与发展趋势进行展望.
    2016,27(1):45-71 , DOI: 10.13328/j.cnki.jos.004914
    [摘要] (31388) [HTML] (6667) [PDF 880.96 K] (46063)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2008,19(1):48-61
    [摘要] (30311) [HTML] (0) [PDF 671.39 K] (69400)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2009,20(5):1337-1348
    [摘要] (29823) [HTML] (0) [PDF 1.06 M] (51516)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2009,20(2):271-289
    [摘要] (29642) [HTML] (0) [PDF 675.56 K] (52819)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2018,29(9):2681-2696 , DOI: 10.13328/j.cnki.jos.005274
    [摘要] (29053) [HTML] (3288) [PDF 1.66 M] (8454)
    摘要:
    推荐系统已成为一种解决信息过载和帮助用户决策的有效工具.当前的研究表明,结合社会关系的推荐模型能够提升推荐的性能.然而,已有的社会化推荐模型大都忽略了物品之间的关联关系对推荐性能的影响.针对此问题,提出一种度量物品之间关联程度的方法,并将其用于获取物品之间的关联关系.然后,将关联关系与社会关系相结合,提出一种基于联合正则化的矩阵分解推荐模型,并证明了联合正则化是一种加权的原子范数.最后,根据提出的模型构建了一种推荐算法CRMF.在4个真实数据集上的实验结果表明:与主流的推荐算法相比,该算法不仅可以缓解用户的冷启动问题,而且更能有效地预测不同类型用户的实际评分.
    2018,29(3):786-798 , DOI: 10.13328/j.cnki.jos.005437
    [摘要] (28134) [HTML] (4771) [PDF 1.36 M] (11668)
    摘要:
    图表示学习是实现各类图挖掘任务的基础.现实中的图数据不仅包含复杂的网络结构,还包括多样化的节点信息.如何将网络结构和节点信息更加有效地融入图的表示学习中,是一个重要的问题.为了解决这一问题,基于深度学习,提出了融合节点先验信息的图表示学习方法.该方法将节点特征作为先验知识,要求学习到的表示向量同时保持图数据中的网络结构相似性和节点特征相似性.该方法的时间复杂度为O(|V|),其中,|V|为图节点数量,表明该方法适用于大规模图数据分析.同时,在多个数据集上的实验结果表明:所提出的方法相比目前流行的几种基线方法,在分类任务上能够获得良好而稳定的优势.
    2017,28(4):959-992 , DOI: 10.13328/j.cnki.jos.005143
    [摘要] (27951) [HTML] (10946) [PDF 3.58 M] (36146)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2018,29(10):3164-3183 , DOI: 10.13328/j.cnki.jos.005288
    [摘要] (27940) [HTML] (3473) [PDF 2.31 M] (7807)
    摘要:
    近年来,组推荐系统已经逐渐成为推荐系统领域的研究热点之一.在电影电视和旅游推荐中,用户常常是参与活动的一组人,这就需要为多个用户形成的群组进行推荐.作为解决群组推荐问题的有效手段,组推荐系统将单个用户推荐扩展为群组推荐,目前已经应用在新闻、音乐、电影、餐饮等诸多领域.现有的组推荐融合方法主要是模型融合与推荐融合,其效用好坏目前仍没有定论,并且它们各有自己的优缺点.模型融合存在着群组成员间的公平性问题,推荐融合忽视了群组成员间的交互.提出一种改进的偏好融合组推荐方法,它结合了两种融合方法的优点.同时根据实验得出了"群组偏好与个人偏好具有相似性"的结论,并将它结合在改进方法中.最后,通过在Movielens数据集上的实验分析,验证了该方法的有效性,证明了它能够有效地提高推荐准确率.
    2018,29(10):3134-3149 , DOI: 10.13328/j.cnki.jos.005284
    [摘要] (27534) [HTML] (2903) [PDF 1.90 M] (8264)
    摘要:
    随着基于活动的社交网络的迅速发展,活动推荐已成为一个重要的工具,帮助人们在线上发现有趣的活动,并在线下面对面地参与活动.但是,相对于传统的推荐系统,活动推荐面临着很多挑战.(1)用户只能参与很少的活动,这就导致一个非常稀疏的用户-活动矩阵;(2)用户对活动的响应是隐性反馈;(3)活动本身有生命周期,已经过期的活动不能再向用户推荐;(4)每天会有很多新的活动产生,需要及时向用户推荐.为了应对这些挑战,提出一个联合建模异构社交和内容信息的活动推荐模型.该模型可同时探索用户的线上和线下社交活动,并结合活动内容建模用户对活动的决策行为.在Meetup数据集上做实验以评估所提出模型的性能.实验结果表明,提出的模型优于其他方法.
    2019,30(3):822-844 , DOI: 10.13328/j.cnki.jos.005681
    [摘要] (27380) [HTML] (5194) [PDF 7.87 M] (12177)
    摘要:
    因子分解机(factorization machine,简称FM)模型因为能够有效解决高维数据特征组合的稀疏问题且具有较高的预测精度和计算效率,在广告点击率预测和推荐系统领域被广泛研究和应用.对FM及其相关模型的研究进展进行综述,有利于促进该模型的进一步改进和应用.通过比较FM模型与多项式回归模型和因子分解模型之间的关联关系,阐述FM模型的灵活性和普适性.从特征的高阶交互、特征的场交互、特征的分层交互以及基于特征工程的特征提取、合并、智能选择和提升等角度,总结模型在宽度扩展方面的方法、策略和关键技术.比较和分析了FM模型与其他模型的集成方式和特点,尤其是与深度学习模型的集成,为传统模型的深度扩展提供了思路.对FM模型的优化学习方法和基于不同并行与分布式计算框架的实现进行概括、比较和分析.最后,对FM模型中有待深入研究的难点、热点及发展趋势进行展望.
    2018,29(12):3747-3763 , DOI: 10.13328/j.cnki.jos.005322
    [摘要] (25974) [HTML] (2555) [PDF 1.97 M] (5001)
    摘要:
    互联网的蓬勃发展,在为用户提供便利的同时,其海量信息也为用户选择造成了困难,基于用户理解的信息推荐服务正成为应时之需.相较于面向单个用户信息的传统推荐技术,基于社交信息的推荐技术通过引入影响力建模,可以更真实地还原用户属性及行为.然而,已有的社交推荐技术往往停留于对用户影响的笼统归纳,并没有对其内在机制进行清晰分类和量化.针对这一问题,通过对用户评分行为中的信任关系进行分析,着重研究了信任用户间接影响用户偏好和直接影响用户评分两种不同机制,进而提出了基于用户间信任关系融合建模的概率矩阵分解模型TPMF,从而实现对上述两种机制的有效融合.在此基础之上,针对不同用户受两种机制影响权重不同的问题,通过借助评分相关性对用户进行聚类并映射到相应权重,实现了用户模型参数的个性化选择.公开数据集的多项实验结果表明:提出的TPMF及其衍生算法在各项指标上优于现有代表性算法,验证了所提出的影响机制及技术框架的有效性.
    2019,30(11):3397-3412 , DOI: 10.13328/j.cnki.jos.005545
    [摘要] (25821) [HTML] (2922) [PDF 1.76 M] (7235)
    摘要:
    向微博用户推荐对其有价值和感兴趣的内容,是改善用户体验的重要途径.通过分析微博特点以及现有微博推荐算法的缺陷,利用标签信息表征用户兴趣,提出一种结合标签扩充与标签概率相关性的微博推荐方法.首先,考虑到大部分微博用户未给自己添加任何标签或添加标签过少,视用户发布微博为超边,微博中的词视为超点来构建超图,并以一定的加权策略对超边和超点进行加权,通过在超图上随机游走,得到一定数量的关键词,对微博用户标签进行扩充;然后,采用相关性标签权重加权方案构建用户-标签矩阵,利用标签之间的概率相关性,构造标签相似性矩阵,对用户-标签矩阵进行更新,使该矩阵既包含用户兴趣信息,又包含标签与标签之间的关系.以新浪微博公开API抓取的微博信息作为实验数据进行了一系列的实验和分析,结果表明,该推荐算法具有较好的效果.
    2020,31(2):421-438 , DOI: 10.13328/j.cnki.jos.005618
    [摘要] (25571) [HTML] (2871) [PDF 1.65 M] (5745)
    摘要:
    新兴的基于活动的社交网络以活动为核心,结合线上关系与线下活动促进用户真实、有效的社交关系的形成,但过多的活动信息会使用户难以分辨和选择.结合上下文进行个性化同城活动推荐,是解决活动信息过载问题的一种有效手段.然而大部分现有的同城活动推荐算法都是从用户参与活动记录中间接统计用户对上下文信息的偏好,忽略了两者之间潜在的交叉影响关系,从而影响了推荐结果的有效性.为了解决用户参与活动偏好与上下文信息潜在交叉影响关系利用不足的问题,提出了一种基于协同上下文关系学习的同城活动推荐算法(colletivecontextual relation learning,简称CCRL).首先,对用户参与活动记录和活动主办方、活动内容、活动地点、举办时间等相关上下文信息进行关系建模;然后,采用多关系贝叶斯个性化排序学习方法进行协同上下文关系学习及同城活动推荐.Meetup数据集上的实验结果表明,该算法在多项指标上均优于现有的主流活动推荐算法.
    2015,26(1):145-166 , DOI: 10.13328/j.cnki.jos.004688
    [摘要] (24994) [HTML] (7625) [PDF 1.65 M] (13491)
    摘要:
    数据的爆炸式增长给传统的关系型数据库带来了巨大的挑战,使其在扩展性、容错性等方面遇到了瓶颈.而云计算技术依靠其高扩展性、高可用性、容错性等特点,成为大规模数据管理的有效方案.然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用.主要对云数据管理中的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点和不足;对在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题.
    2005,16(1):1-7
    [摘要] (23732) [HTML] (0) [PDF 614.61 K] (28778)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2012,23(1):1-20 , DOI: 10.3724/SP.J.1001.2012.04100
    [摘要] (23498) [HTML] (0) [PDF 1017.73 K] (41870)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2010,21(8):1834-1848
    [摘要] (22654) [HTML] (0) [PDF 682.96 K] (65086)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2004,15(3):428-442
    [摘要] (22060) [HTML] (0) [PDF 1009.57 K] (23826)
    摘要:
    随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务成为电子商务的有效解决方案.Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制.Web服务的新型构架,Web服务的高效执行方式,Web服务与其他成熟技术的有机结合以及Web服务的集成是解决现实应用问题的重要技术.从Web服务研究的不同侧面对其进行了综述,阐述了Web服务的基本概念,分析了当前Web服务的主要研究问题及其核心支撑技术,概括了Web服务中的数据集成技术、Web服务的组合、语义Web服务、Web服务发现,Web服务安全,P2P(Peer-to-Peer)新型计算环境下的Web服务解决方案和网格服务等方面的研究内容,并对这些技术进行了总结,结合已有的研究成果,展望了Web服务未来的研究方向及其面临的挑战.
    2009,20(1):54-66
    [摘要] (21070) [HTML] (0) [PDF 1.41 M] (58830)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2017,28(4):860-882 , DOI: 10.13328/j.cnki.jos.005190
    [摘要] (21005) [HTML] (7042) [PDF 2.49 M] (26625)
    摘要:
    信息流分析可以有效保证计算机系统中信息的保密性和完整性,污点分析作为其实践,被广泛用于软件系统的安全保障技术领域.对近些年来面向解决应用程序安全问题的污点分析技术进行综述:首先,总结了污点分析的基本原理以及在应用中的通用技术,即,使用动态和静态的方法解决污点传播;随后,分析该技术在移动终端、互联网平台上的应用过程中遇到的问题和解决方案,包括解决Android应用隐私泄露与检测Web系统安全漏洞的污点分析技术;最后,展望该技术的研究前景和发展趋势.
    2005,16(5):857-868
    [摘要] (20969) [HTML] (2) [PDF 489.65 K] (38159)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2012,23(4):962-986 , DOI: 10.3724/SP.J.1001.2012.04175
    [摘要] (20192) [HTML] (0) [PDF 2.09 M] (39450)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2014,25(2):400-418 , DOI: 10.13328/j.cnki.jos.004540
    [摘要] (19940) [HTML] (3411) [PDF 1.24 M] (10044)
    摘要:
    信息物理融合系统(cyber-physical system,简称CPS)蕴藏着巨大的潜在应用价值.时间在CPS中起到非常重要的作用,应该在需求早期阶段明确.提出了一个基于逻辑时钟的CPS时间需求一致性分析框架.首先,构建了CPS软件的时间需求概念模型,提供时间需求和功能需求的基本概念,并给出了概念模型的形式化语义;然后,在模型制导下,从CPS的交互环境特性和约束中提取出其软件时间需求规约.基于形式化语义,定义了时间需求规约的一致性特性.为了支持形式化验证,将时间需求规约转换成NuSMV模型,用CTL公式表述要检测的特性,并使用NuSMV工具实施了一致性检测.
    2012,23(1):32-45 , DOI: 10.3724/SP.J.1001.2012.04091
    [摘要] (19820) [HTML] (1) [PDF 408.86 K] (38937)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2010,21(5):899-915
    [摘要] (18819) [HTML] (0) [PDF 972.65 K] (20372)
    摘要:
    首先归纳了AADL(architecture analysis and design language)的发展历程及其主要建模元素.其次,从模型 驱动设计与实现的角度综述了AADL 在不同阶段的研究与应用,总结了研究热点,分析了现有研究的不足,并对 AADL 的建模与分析工具、应用实践进行了概述.最后,探讨了AADL 的发展与研究方向.
    2009,20(3):524-545
    [摘要] (18424) [HTML] (0) [PDF 1.09 M] (32322)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2009,20(1):124-137
    [摘要] (18265) [HTML] (0) [PDF 1.06 M] (29000)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2009,20(2):350-362
    [摘要] (18062) [HTML] (1) [PDF 1.39 M] (48759)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2004,15(8):1208-1219
    [摘要] (17874) [HTML] (0) [PDF 948.49 K] (21813)
    摘要:
    随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,网络蠕虫成为恶意代码研究中的首要课题.首先综合论述网络蠕虫的研究概况,然后剖析网络蠕虫的基本定义、功能结构和工作原理,讨论网络蠕虫的扫描策略和传播模型,归纳总结目前防范网络蠕虫的最新技术.最后给出网络蠕虫研究的若干热点问题与展望.
    2009,20(11):2965-2976
    [摘要] (17390) [HTML] (0) [PDF 442.42 K] (22897)
    摘要:
    研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.
    2009,20(5):1226-1240
    [摘要] (17246) [HTML] (0) [PDF 926.82 K] (23625)
    摘要:
    对几种智能规划方法中利用的逻辑演绎与推理技术予以分析,分别介绍利用命题逻辑的基于可满足性的规划方法与规划系统,利用模态逻辑与析取推理的Conformant规划方法与规划系统,利用非单调逻辑的规划方法和利用模糊描述逻辑的Flexible规划方法,并结合国际规划竞赛和相关论文等的实验结论说明上述方法的有效性和可行性.最后,提出目前基于自动推理技术的智能规划方法所面临的挑战、可能的处理方法以及与之相关的研究热点与趋势.
    2003,14(10):1717-1727
    [摘要] (17151) [HTML] (0) [PDF 839.25 K] (23089)
    摘要:
    传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到这些信息的用户.传感器网络是计算机科学技术的一个新的研究领域,具有十分广阔的应用前景,引起了学术界和工业界的高度重视.介绍了传感器网络及其数据管理的概念和特点,探讨了传感器网络及其数据管理的研究问题,并综述了传感器网络及其数据管理的研究现状.
    2014,25(4):839-862 , DOI: 10.13328/j.cnki.jos.004558
    [摘要] (16606) [HTML] (5461) [PDF 1.32 M] (28719)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2000,11(11):1460-1466
    [摘要] (15716) [HTML] (1) [PDF 520.69 K] (17174)
    摘要:
    入侵检测是近年来网络安全研究的热 点.首先说明入侵检测的必要性,并给出入侵检测的概念和模型,概述了多种入侵检测方法及 体系结构.最后,讨论了该领域当前存在的问题及今后的研究方向.
    2013,24(8):1786-1803 , DOI: 10.3724/SP.J.1001.2013.04416
    [摘要] (15375) [HTML] (0) [PDF 1.04 M] (27966)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2012,23(5):1148-1166 , DOI: 10.3724/SP.J.1001.2012.04195
    [摘要] (15297) [HTML] (0) [PDF 946.37 K] (23816)
    摘要:
    随着云计算的发展,云数据库的重要性和价值日益显现.介绍了云数据库的特性、影响、相关产品.详细讨论了云数据库领域的研究问题,包括数据模型、系统体系架构、事务一致性、编程模型、数据安全、性能优化和测试基准等.最后讨论了云数据库未来的研究方向.
    2009,20(10):2729-2743
    [摘要] (15292) [HTML] (0) [PDF 1.12 M] (16866)
    摘要:
    基于多跳的无线传感器网络,越靠近sink的传感器节点因需要转发更多的数据,其能量消耗就越快,从而在sink周围形成了一种称为“能量洞”的现象.“能量洞”问题会导致整个网络由于内部节点能量过早耗尽而结束寿命,同时,网络中离sink较远的节点仍有大量能量剩余.研究“能量洞”现象,基于改进的分级环模型,总结出调节各环内节点的数据传输距离是实现网络节能的有效方法.证明搜索各区域最优的传输距离是一个多目标优化问题,即是NP难问题.从而提出一种基于蚁群优化的分布式算法,各区域根据其节点分布情况自适应地探索近似最优的传输距离,延长网络寿命.模拟实验结果表明,该算法在较短的时间内能够收敛到合理的解,并且得到的网络寿命接近于理想情况下的最优时间,与现有的类似算法相比,该算法提供了更长的网络寿命,并能适用于非均匀节点分布情况.
    2002,13(7):1228-1237
    [摘要] (15135) [HTML] (0) [PDF 500.04 K] (21201)
    摘要:
    近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的软件体系结构概念之后,给出了软件体系结构的定义.通过总结软件体系结构领域的若干研究活动,提出了软件体系结构研究的两大思路,并从7个方面介绍了软件体系结构研究进展.探讨了软件体系结构研究中的不足之处,并分析其原因.作为总结,给出了软件体系结构领域最有前途的发展趋势.
    2006,17(7):1588-1600
    [摘要] (15024) [HTML] (0) [PDF 808.73 K] (21639)
    摘要:
    在无线传感器网络体系结构中,网络层的路由技术至关重要.分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,成为当前重点研究的路由技术.分析了无线传感器网络分簇路由机制,着重从簇头的产生、簇的形成和簇的路由角度系统地描述了当前典型的分簇路由算法,并比较和分析了这些算法的特点和适用情况.最后结合该领域当前研究现状,指出分簇路由算法未来的研究重点.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2003,14(7):1282-1291
    [摘要] (39170) [HTML] (0) [PDF 832.28 K] (87715)
    摘要:
    集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术.在简要介绍传感器网络体系结构的基础上,分析和展望了一些有价值的应用领域.结合已有研究,总结并详细阐述了包括低功耗路由技术和介质访问控制方法等在内的热点研究问题.最后,针对应用需求,提出了几点研究设想.
    2008,19(1):48-61
    [摘要] (30311) [HTML] (0) [PDF 671.39 K] (69400)
    摘要:
    对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.
    2011,22(1):71-83 , DOI: 10.3724/SP.J.1001.2011.03958
    [摘要] (31700) [HTML] (0) [PDF 781.42 K] (65924)
    摘要:
    云计算代表IT 领域向集约化、规模化与专业化道路发展的趋势,是IT 领域正在发生的深刻变革.但它在提高使用效率的同时,为实现用户信息资产安全与隐私保护带来极大的冲击与挑战.当前,安全成为云计算领域亟待突破的重要问题,其重要性与紧迫性已不容忽视.分析了云计算对信息安全领域中技术、标准、监管等各方面带来的挑战;提出云计算安全参考框架及该框架下的主要研究内容;指出云计算的普及与应用是近年来信息安全领域的重大挑战与发展契机,将引发信息安全领域又一次重要的技术变革.
    2010,21(8):1834-1848
    [摘要] (22654) [HTML] (0) [PDF 682.96 K] (65086)
    摘要:
    对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
    2009,20(1):54-66
    [摘要] (21070) [HTML] (0) [PDF 1.41 M] (58830)
    摘要:
    网络簇结构是复杂网络最普遍和最重要的拓扑属性之一,具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点.揭示网络簇结构的复杂网络聚类方法对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用.综述了复杂网络聚类方法的研究背景、研究意义、国内外研究现状以及目前所面临的主要问题,试图为这个新兴的研究方向勾画出一个较为全面和清晰的概貌,为复杂网络分析、数据挖掘、智能Web、生物信息学等相关领域的研究者提供有益的参考.
    2009,20(2):271-289
    [摘要] (29642) [HTML] (0) [PDF 675.56 K] (52819)
    摘要:
    进化多目标优化主要研究如何利用进化计算方法求解多目标优化问题,已经成为进化计算领域的研究热点之一.在简要总结2003年以前的主要算法后,着重对进化多目标优化的最新进展进行了详细讨论.归纳出当前多目标优化的研究趋势,一方面,粒子群优化、人工免疫系统、分布估计算法等越来越多的进化范例被引入多目标优化领域,一些新颖的受自然系统启发的多目标优化算法相继提出;另一方面,为了更有效的求解高维多目标优化问题,一些区别于传统Pareto占优的新型占优机制相继涌现;同时,对多目标优化问题本身性质的研究也在逐步深入.对公认的代表性算法进行了实验对比.最后,对进化多目标优化的进一步发展提出了自己的看法.
    2009,20(5):1337-1348
    [摘要] (29823) [HTML] (0) [PDF 1.06 M] (51516)
    摘要:
    针对云计算这样一个范畴综述了当前云计算所采用的技术,剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案.云计算包含两个方面的含义:一方面是底层构建的云计算平台基础设施,是用来构造上层应用程序的基础;另外一方面是构建在这个基础平台之上的云计算应用程序.主要是针对云计算的基础架构的研究与实现状况给出综述,对于云计算的应用也有所涉及.云计算有3个最基本的特征:第1个是基础设施架构在大规模的廉价服务器集群之上;第二是应用程序与底层服务协作开发,最大限度地利用资源;第3个是通过多个廉价服务器之间的冗余,通过软件获得高可用性.云计算达到了两个分布式计算的重要目标:可扩展性和高可用性.可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理.高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行.通过此文可以了解云计算的当前发展状况以及未来的研究趋势.
    2014,25(9):1889-1908 , DOI: 10.13328/j.cnki.jos.004674
    [摘要] (12970) [HTML] (7759) [PDF 550.98 K] (49306)
    摘要:
    首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.
    2010,21(3):427-437
    [摘要] (34566) [HTML] (0) [PDF 308.76 K] (48794)
    摘要:
    主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足.
    2009,20(2):350-362
    [摘要] (18062) [HTML] (1) [PDF 1.39 M] (48759)
    摘要:
    全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想、帮助读者了解这个研究领域.首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点.
    2021,32(2):349-369 , DOI: 10.13328/j.cnki.jos.006138
    [摘要] (10935) [HTML] (13793) [PDF 2.36 M] (46110)
    摘要:
    小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这3大类小样本学习模型与算法的研究进展;将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强这3类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络这3类;总结了目前常用的小样本数据集和代表性的小样本学习模型在这些数据集上的实验结果;随后对小样本学习的现状和挑战进行了概述;最后展望了小样本学习的未来发展方向.
    2016,27(1):45-71 , DOI: 10.13328/j.cnki.jos.004914
    [摘要] (31388) [HTML] (6667) [PDF 880.96 K] (46063)
    摘要:
    Android是目前最流行的智能手机软件平台,报告称,2014年,Android的销售量占到全球份额81%的绝对优势,首次达到10亿部.其余如苹果、微软、黑莓与火狐等则远远落在后面.与此同时,Android智能手机的日益流行也吸引了黑客,导致Android恶意软件应用的大量增加.从Android体系结构、设计原则、安全机制、主要威胁、恶意软件分类与检测、静态分析与动态分析、机器学习方法、安全扩展方案等多维角度,对Android安全的最新研究进展进行了总结与分析.
    2004,15(10):1493-1504
    [摘要] (9973) [HTML] (2) [PDF 937.72 K] (45297)
    摘要:
    多年来计算机图形处理器(GP以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战.
    2013,24(11):2476-2497 , DOI: 10.3724/SP.J.1001.2013.04486
    [摘要] (11756) [HTML] (0) [PDF 1.14 M] (45055)
    摘要:
    概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.
    2022,33(7):2464-2481 , DOI: 10.13328/j.cnki.jos.006585
    [摘要] (2021) [HTML] (4443) [PDF 2.00 M] (44646)
    摘要:
    基于线性抽象的符号传播方法在神经网络验证中具有重要地位.针对这类方法,提出了多路径回溯的概念.现有方法可看作仅使用单条回溯路径计算每个神经网络节点的上下界,是这一概念的特例.使用多条回溯路径,可以有效地改善这类方法的精度.在数据集ACAS Xu,MNIST和CIFAR10上,将多路径回溯方法与使用单条回溯路径的DeepPoly进行定量比较,结果表明,多路径回溯方法能够获得明显的精度提升,而仅引入较小的额外时间代价.此外,在数据集MNIST上,将多路径回溯方法与使用全局优化的Optimized LiRPA比较,结果表明,该方法仍然具有精度优势.
    2018,29(5):1471-1514 , DOI: 10.13328/j.cnki.jos.005519
    [摘要] (7799) [HTML] (8406) [PDF 4.38 M] (41907)
    摘要:
    计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
    2012,23(1):1-20 , DOI: 10.3724/SP.J.1001.2012.04100
    [摘要] (23498) [HTML] (0) [PDF 1017.73 K] (41870)
    摘要:
    近年来,上下文感知推荐系统已成为推荐系统研究领域最为活跃的研究领域之一.如何利用上下文信息进一步提高推荐系统的推荐精确度和用户满意度,成为上下文感知推荐系统的主要任务.从面向过程的角度对最近几年上下文感知推荐系统的研究进展进行综述,对其系统框架、关键技术、主要模型、效用评价以及应用实践等进行了前沿概括、比较和分析.最后,对上下文感知推荐系统有待深入的研究难点和发展趋势进行了展望
    2020,31(7):2245-2282 , DOI: 10.13328/j.cnki.jos.006037
    [摘要] (3965) [HTML] (8200) [PDF 967.02 K] (41856)
    摘要:
    超声诊断是甲状腺、乳腺癌首选影像学检查和术前评估方法.但良/恶性结节的超声表现存在重叠,仍欠缺定量、稳定的分析手段,严重依赖操作者的经验.近年来,基于计算机技术的医疗影像分析水平快速发展,超声影像分析取得了一系列里程碑式的突破,为医疗提供有效的诊断决策支持.以甲状腺、乳腺两类超声影像为对象,梳理了计算机视觉、图像识别技术在医学超声图像上的学术进展,以超声影像自动诊断涉及的一系列关键技术为主线,从图像预处理、病灶区定位及分割、特征提取和分类这4个方面对近年来主流算法进行了详尽的综述分析,从算法分析、数据和评估方法等方面进行多维度梳理.最后讨论了具体面向这两种腺体的超声图像计算机分析存在的问题,并对此领域的研究趋势和发展方向进行了展望.
    2015,26(1):62-81 , DOI: 10.13328/j.cnki.jos.004701
    [摘要] (42913) [HTML] (9343) [PDF 1.04 M] (41592)
    摘要:
    网络抽象促使软件定义网络(software-defined networking,简称SDN)的产生.SDN将数据平面与控制平面解耦合,简化了网络管理.首先从SDN诞生发展的背景入手,梳理了SDN的体系结构,包括数据层、控制层和应用层,并按照SDN的层次结构深入阐述其关键技术,特别分析了一致性、可用性和容错性等特性.然后,论述了SDN在不同应用场景下的最新研究成果.最后,展望未来研究工作.
    2012,23(4):962-986 , DOI: 10.3724/SP.J.1001.2012.04175
    [摘要] (20192) [HTML] (0) [PDF 2.09 M] (39450)
    摘要:
    云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB 级甚至EB 级,导致数据失效成为一种常态行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.
    2012,23(1):32-45 , DOI: 10.3724/SP.J.1001.2012.04091
    [摘要] (19820) [HTML] (1) [PDF 408.86 K] (38937)
    摘要:
    在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40 年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce 为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce 的优秀思想改造自身,而以MapReduce 为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
    2005,16(5):857-868
    [摘要] (20969) [HTML] (2) [PDF 489.65 K] (38159)
    摘要:
    作为一种全新的信息获取和处理技术,无线传感器网络可以在广泛的应用领域内实现复杂的大规模监测和追踪任务,而网络自身定位是大多数应用的基础.介绍了无线传感器网络自身定位系统和算法的性能评价标准和分类方法,着重综述了近年来该领域具有代表性的算法及系统的原理和特点,并指出未来的研究方向.
    2013,24(1):77-90 , DOI: 10.3724/SP.J.1001.2013.04339
    [摘要] (12191) [HTML] (0) [PDF 0.00 Byte] (37228)
    摘要:
    任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向.
    2011,22(1):115-131 , DOI: 10.3724/SP.J.1001.2011.03950
    [摘要] (14780) [HTML] (0) [PDF 845.91 K] (36349)
    摘要:
    Internet 流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3 个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.
    2017,28(4):959-992 , DOI: 10.13328/j.cnki.jos.005143
    [摘要] (27951) [HTML] (10946) [PDF 3.58 M] (36146)
    摘要:
    大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术,可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露出移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据,可以使一些复杂的问题得到解决并实现更高的效率.对轨迹大数据中数据处理关键技术进行了综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法,包括噪声滤波、轨迹压缩等;其次,归纳轨迹索引与查询技术以及轨迹数据挖掘已有的研究成果,包括模式挖掘、轨迹分类等;总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术,如处理框架、数据可视化;也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现;最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.
    2010,21(2):344-358
    [摘要] (9346) [HTML] (0) [PDF 1.01 M] (34418)
    摘要:
    将现有入侵容忍、自毁技术与自律计算相结合,提出了一种基于SM-PEPA(semi-Markov performance evaluation process algebra)的关键任务系统自律可信性模型以支持形式化分析和推理.该模型具有一定程度的自管理能力,采用分级处理的方式应对各种程度的可信性威胁,满足了关键任务系统对可信性的特殊需求.在此基础上,从稳态概率角度提出了一种自律可信性度量方法.最后,结合具体实例对模型参数对自律可信性的影响进行了初步分析.实验结果表明,增大关键任务系统可信性威胁检测率和自恢复成功率,可在较大范围内提高系统的自律可信 特性.
    2011,22(6):1299-1315 , DOI: 10.3724/SP.J.1001.2011.03993
    [摘要] (12718) [HTML] (0) [PDF 987.90 K] (32895)
    摘要:
    由于属性基加密(attribute-based encryption,简称ABE)机制以属性为公钥,将密文和用户私钥与属性关联,能够灵活地表示访问控制策略,从而极大地降低了数据共享细粒度访问控制带来的网络带宽和发送结点的处理开销.因此,ABE 在细粒度访问控制领域具有广阔的应用前景.在对基本ABE 机制及其两种扩展:密钥-策略ABE(KP-ABE)和密文-策略ABE(CP-ABE)进行深入研究、分析后,针对ABE 中的CP-ABE 机制访问结构的设计、属性密钥撤销、ABE 的密钥滥用、多授权机构等难点问题进行了深入探讨和综合分析,对比了现有研究工作的功能及开销.最后讨论了ABE 未来需进一步研究的问题和主要研究方向.
    2009,20(3):524-545
    [摘要] (18424) [HTML] (0) [PDF 1.09 M] (32322)
    摘要:
    通过软件开发实践,人们逐步地认识到软件产品的质量在很大程度上依赖于产品开发时所使用的过程.软件过程建模是通过特定的方法对软件过程进行抽象、表示和分析以增加对软件过程的理解,同时,可执行的(enactable)软件过程模型可以直接指导实际软件开发活动,进而规范软件开发行为并最终提高软件质量.为了系统地了解软件过程建模方法研究的现状和最新进展,采用系统评价(systematic review)方法对该领域最近10年的主要研究进行了概括和分析.从一系列的相关研究中,选出来自20 个会议和7 种期刊的72 篇文献,作为系统评价的依据.该系统评价回答了如下关于软件过程建模方法的3 个问题,以便从总体上概括和把握该领域的研究:1) 软件过程建模方法主要基于什么范式;2) 软件过程建模方法研究的主要目的集中在哪些方面;3) 软件过程建模方法的研究有哪些新的趋势.同时,在仔细回顾和分析软件过程建模领域研究现状的基础上,给出了一种多维度的集成化软件过程建模方法.该方法有助于解决过程建模领域所面临的主要问题.
    2014,25(1):37-50 , DOI: 10.13328/j.cnki.jos.004497
    [摘要] (11740) [HTML] (7227) [PDF 929.87 K] (32204)
    摘要:
    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.
    2018,29(10):2966-2994 , DOI: 10.13328/j.cnki.jos.005551
    [摘要] (11587) [HTML] (9035) [PDF 610.06 K] (31202)
    摘要:
    近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景.
    2013,24(4):825-842 , DOI: 10.3724/SP.J.1001.2013.04369
    [摘要] (9958) [HTML] (0) [PDF 1.09 M] (30624)
    摘要:
    蜜罐是防御方为了改变网络攻防博弈不对称局面而引入的一种主动防御技术,通过部署没有业务用途的安全资源,诱骗攻击者对其进行非法使用,从而对攻击行为进行捕获和分析,了解攻击工具与方法,推测攻击意图和动机.蜜罐技术赢得了安全社区的持续关注,得到了长足发展与广泛应用,并已成为互联网安全威胁监测与分析的一种主要技术手段.介绍了蜜罐技术的起源与发展演化过程,全面分析了蜜罐技术关键机制的研究现状,回顾了蜜罐部署结构的发展过程,并归纳总结了蜜罐技术在互联网安全威胁监测、分析与防范等方向上的最新应用成果.最后,对蜜罐技术存在的问题、发展趋势与进一步研究方向进行了讨论.
    2018,29(10):3068-3090 , DOI: 10.13328/j.cnki.jos.005607
    [摘要] (10863) [HTML] (11329) [PDF 2.28 M] (30044)
    摘要:
    设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
    2004,15(11):1583-1594
    [摘要] (10296) [HTML] (0) [PDF 1.57 M] (29920)
    摘要:
    在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式.研究了随机性和模糊性之间的关联性,统一用熵作为客观事物和主观认知中不确定状态的度量,用超熵来度量不确定状态的变化,并利用熵和超熵进一步研究了混沌、分形和复杂网络中的不确定性,以及由此带来的种种进化和变异,为实现不确定性人工智能找到了一种简单、有效的形式化方法,也为包括形象思维在内的不确定性思维的自动化打下了基础.不确定性人工智能是人工智能进入21世纪的新发展.这个由多学科交叉渗透构成的新学科,必将使得机器能够具备人脑一样的不确定性信息和知识的表示能力、处理能力和思维能力.
    2011,22(3):381-407 , DOI: 10.3724/SP.J.1001.2011.03934
    [摘要] (11413) [HTML] (0) [PDF 614.69 K] (29648)
    摘要:
    互联网的普及和万维网的兴起,引发了软件技术的变革,催生了新的软件形态——网络化软件,为大众用户提供多样化、个性化的按需服务.随着应用领域的不断扩展和用户群的日益庞大,其规模与复杂度正以超越人类处理能力的速度增长,使得软件工程不得不面临一系列的挑战.为了科学地认识和理解这类规模庞大的人工复杂系统,从网络化-服务化-社会化的三维视角出发,对其基础设施、应用服务和大众交互三方面的复杂网络特性实证研究进行了综述分析,并系统论述了网络化软件中隐含的“小世界”和“无尺度”复杂网络特性对软件工程今后研究的影响和启示.软件工程与其他学科的交叉汇聚,将迸发新的观点和思想,为网络化软件的研究提供新的思维方式和方法论,有望实现软件工程理论、方法和关键技术的创新,从而推动我国软件服务业的快速发展.
    2019,30(2):440-468 , DOI: 10.13328/j.cnki.jos.005659
    [摘要] (10630) [HTML] (10126) [PDF 3.27 M] (29647)
    摘要:
    近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
    2010,21(7):1605-1619
    [摘要] (10798) [HTML] (0) [PDF 856.25 K] (29345)
    摘要:
    随着Internet规模的迅速扩大,复杂性和不确定性也随之增加,基于融合的网络态势感知必将成为网络管理的发展方向.在分析现有网络管理不足以及发展需求的基础上,介绍了网络态势感知的起源、概念、目标和特点.首先,提出了一个网络态势感知研究框架,介绍了研究历程,指出了研究重点以及存在的问题,并将现有评估方法分为3类:基于数学模型的方法、基于知识推理的方法、基于模式识别的方法.然后详细讨论了模型、知识表示和评估方法这3方面的研究内容,总结存在的共性问题,着重评价了每种评估方法的基本思路、评估过程和优缺点,并进行了对比分析.随后介绍了网络态势感知在安全、传输、生存性、系统评价等领域的应用研究.最后指出了网络态势感知的发展方向,并从问题体系、技术体系和应用体系3方面作了总结.
    2018,29(7):2092-2115 , DOI: 10.13328/j.cnki.jos.005589
    [摘要] (11871) [HTML] (9069) [PDF 2.52 M] (29198)
    摘要:
    区块链是一种源于数字加密货币比特币的分布式总账技术,其发展引起了产业界与学术界的广泛关注.区块链具有去中心化、去信任、匿名、数据不可篡改等优势,突破了传统基于中心式技术的局限,具有广阔的发展前景.介绍了区块链技术在信息安全领域的研究现状和进展.首先,从区块链的基础框架、关键技术、技术特点、应用模式、应用领域这5个方面介绍了区块链的基本理论与模型;然后,从区块链在当前信息安全领域研究现状的角度出发,综述了区块链应用于认证技术、访问控制技术、数据保护技术的研究进展,并对比了各类研究的特点;最后,分析了区块链技术的应用挑战,对区块链在信息安全领域的发展进行了总结与展望,希望对未来进一步的研究工作有一定的参考价值.
    2009,20(1):124-137
    [摘要] (18265) [HTML] (0) [PDF 1.06 M] (29000)
    摘要:
    大量具备短距离通信能力的智能设备的出现推动了无线自组网应用的迅速发展.但在许多实际应用环境中,节点移动、网络稀疏或信号衰减等各种原因通常导致形成的网络大部分时间不连通.传统的移动自组织网络传输模式要求通信源和目标节点之间存在至少一条完整的路径,因而无法在这类环境中运行.机会网络利用节点移动形成的通信机会逐跳传输消息,以"存储-携带-转发"的路由模式实现节点间通信,这种完全不同于传统网络通信模式的新兴组网方式引起了研究界极大的兴趣.首先介绍机会网络的概念和理论基础,并给出了当前机会网络的一些典型应用,然后详细阐述了机会网络研究的热点问题,包括机会转发机制、移动模型和基于机会通信的数据分发和检索等,并简要叙述了机会网络的通信中间件、协作和安全机制以及机会网络新的应用等其他研究问题,最后进行总结并展望了机会网络未来一段时间内的研究重点.
    2005,16(1):1-7
    [摘要] (23732) [HTML] (0) [PDF 614.61 K] (28778)
    摘要:
    在4个方面对软件工程技术的发展进行一些思索:(1) 从事物发展规律的角度,揭示软件工程技术发展历程;(2) 从软件本质特征的角度,浅析虚拟机各抽象层次的构造;(3) 从软件开发的本质,提出了软件工程学科研究的内容,并研究了软件工业化生产模式;(4) 以Internet的出现为背景,探索了软件技术的发展趋势.
    2014,25(4):839-862 , DOI: 10.13328/j.cnki.jos.004558
    [摘要] (16606) [HTML] (5461) [PDF 1.32 M] (28719)
    摘要:
    大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
    2006,17(9):1848-1859
    [摘要] (13817) [HTML] (0) [PDF 770.40 K] (27990)
    摘要:
    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
    2016,27(11):2855-2869 , DOI: 10.13328/j.cnki.jos.004932
    [摘要] (3865) [HTML] (4077) [PDF 1.85 M] (27977)
    摘要:
    随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
    2013,24(8):1786-1803 , DOI: 10.3724/SP.J.1001.2013.04416
    [摘要] (15375) [HTML] (0) [PDF 1.04 M] (27966)
    摘要:
    针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL 数据库系统.针对基于key-value 数据模型的NoSQL 数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash 的多级缓存机制、基于MapReduce 的数据处理策略和新一代数据管理系统等;最后给出了研究展望.
    2023,34(2):625-654 , DOI: 10.13328/j.cnki.jos.006696
    [摘要] (4829) [HTML] (7410) [PDF 3.04 M] (27910)
    摘要:
    源代码缺陷检测是判别程序代码中是否存在非预期行为的过程,广泛应用于软件测试、软件维护等软件工程任务,对软件的功能保障与应用安全方面具有至关重要的作用.传统的缺陷检测研究以程序分析为基础,通常需要很强的领域知识与复杂的计算规则,面临状态爆炸问题,导致检测性能有限,在误报漏报率上都有较大提高空间.近年来,开源社区的蓬勃发展积累了以开源代码为核心的海量数据,在此背景下,利用深度学习的特征学习能力能够自动学习语义丰富的代码表示,从而为缺陷检测提供一种新的途径.搜集了该领域最新的高水平论文,从缺陷代码数据集与深度学习缺陷检测模型两方面系统地对当前方法进行了归纳与阐述.最后对该领域研究所面临的主要挑战进行总结,并展望了未来可能的研究重点.
    2005,16(10):1743-1756
    [摘要] (11299) [HTML] (0) [PDF 545.62 K] (27809)
    摘要:
    论述了可证明安全性理论在安全方案与安全协议的设计与分析中的应用,内容主要包括:什么是可证明安全性,可证明安全性理论涉及到的一些基本概念,RO(random oracle)模型方法论的基本思想及其在公钥加密和数字签名等方案中的应用研究进展,标准模型下可证明安全性理论在公钥加密和数字签名等方案中的应用研究进展,以及可证明安全性理论在会话密钥分配协议的设计与分析中的应用研究进展.
    2012,23(8):2058-2072 , DOI: 10.3724/SP.J.1001.2012.04237
    [摘要] (11214) [HTML] (0) [PDF 800.05 K] (27777)
    摘要:
    分布式拒绝服务(distributed denial of service,简称DDoS)攻击是当今互联网的重要威胁之一.基于攻击包所处网络层次,将DDoS 攻击分为网络层DDoS 攻击和应用层DDoS 攻击,介绍了两类攻击的各种检测和控制方法,比较了处于不同部署位置控制方法的优劣.最后分析了现有检测和控制方法应对DDoS 攻击的不足,并提出了DDoS 过滤系统的未来发展趋势和相关技术难点.
    2020,31(7):2127-2156 , DOI: 10.13328/j.cnki.jos.006052
    [摘要] (7781) [HTML] (9526) [PDF 802.56 K] (27731)
    摘要:
    机器学习已成为大数据、物联网和云计算等领域的核心技术.机器学习模型训练需要大量数据,这些数据通常通过众包方式收集,其中含有大量隐私数据,包括个人身份信息(如电话号码、身份证号等)、敏感信息(如金融财务、医疗健康等信息).如何低成本且高效地保护这些数据是一个重要的问题.介绍了机器学习及其隐私定义和隐私威胁,重点对机器学习隐私保护主流技术的工作原理和突出特点进行了阐述,并分别按照差分隐私、同态加密和安全多方计算等机制对机器学习隐私保护领域的研究成果进行了综述.在此基础上,对比分析了机器学习不同隐私保护机制的主要优缺点.最后,对机器学习隐私保护的发展趋势进行展望,并提出该领域未来可能的研究方向.
    2021,32(2):496-518 , DOI: 10.13328/j.cnki.jos.006140
    [摘要] (7673) [HTML] (12486) [PDF 2.20 M] (27558)
    摘要:
    深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而近年来,深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法来帮助机构或社区去识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等诸多的局限性,远远落后于假视频的生成技术.并且不同学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.
    2003,14(9):1621-1628
    [摘要] (14383) [HTML] (0) [PDF 680.35 K] (27396)
    摘要:
    推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目的日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居.实验结果表明,该算法可以有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系统的推荐质量.
    2013,24(2):295-316 , DOI: 10.3724/SP.J.1001.2013.04336
    [摘要] (10771) [HTML] (0) [PDF 0.00 Byte] (27392)
    摘要:
    在新的应用模式下,传统层次结构数据中心网络在规模、带宽、扩展性和成本方面存在诸多不足.为了适应新型应用的需求,数据中心网络需要在低成本的前提下,满足高扩展性、低配置开销、健壮性和节能的要求.首先,概述了传统数据中心网络体系结构及其不足,并指出了新的需求;其次,将现有方案划分为两类,即以网络为中心和以服务器为中心的方案;然后,对两类方案中的代表性结构进行了详细的综述和对比分析;最后指出了数据中心网络未来的发展方向.
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号