2026, 37(8):1-19. DOI: 10.13328/j.cnki.jos.007592
摘要:软件缺陷定位是软件工程领域的重要问题. 近年来, 基于大语言模型的缺陷定位方法在缺陷定位任务中展现出较好前景. 现有方法仅为大语言模型维护单一决策路径, 导致搜索范围有限, 缺陷定位效果不够理想. 针对此问题, 提出一种基于并行探索的大模型缺陷定位增强方法PRIME. 通过设计缺陷位置的并行探索机制提高大语言模型的搜索范围, 并结合节点重要性评估方法对大语言模型预测的多个候选缺陷位置进行排序, 形成优化后的缺陷定位结果. 通过与其他缺陷定位方法的对比分析以及全面的消融实验和参数影响分析, 验证所提方法可以有效增强大语言模型的缺陷定位性能. PRIME在Top-1指标上较现有方法的提升幅度超过18%, 其在MAP和MRR指标上的性能提升分别可达15%和25%.
2026, 37(8):1-27. DOI: 10.13328/j.cnki.jos.007593
摘要:基于大语言模型的代码生成智能体正在深刻地变革软件开发范式. 相较于之前的代码生成技术, 代码生成智能体展现出3大核心特征: 首先是自主性, 智能体能独立执行从任务分解到编码、调试的完整工作流; 其次是任务范围的广泛性, 其能力从生成代码片段扩展至覆盖软件开发的全生命周期; 最后是工程实践性的增强, 研究重心从模型算法创新转向流程管理、系统可靠性与工具集成等工程挑战. 近年来, 这一技术方向发展迅猛, 展现出巨大的应用潜力, 相关研究呈爆发式增长. 为此, 对基于大语言模型的代码生成智能体领域进行系统性的综述. 追溯该技术自诞生以来的发展脉络, 全面梳理并从方法论的视角对其核心技术(涵盖单智能体与多智能体系统)进行归纳和分类. 此外, 还总结代码生成智能体在软件开发全周期中的各项应用, 整理主流的评估基准与指标, 并盘点代表性的工具. 最后, 通过分析关键挑战, 展望该领域未来的长期核心研究方向.
2026, 37(8):1-25. DOI: 10.13328/j.cnki.jos.007594
摘要:在现代软件系统, 尤其是云计算和微服务系统中, 根因分析是保障系统稳定性和高效运行的关键技术. 大语言模型由于其强大的自然语言处理和数据分析能力, 为根因分析提供了新的解决方案. 基于大语言模型的智能体在大语言模型的基础上, 为根因分析带来了更高的自动化程度和更精准的问题定位能力. 然而, 尽管已有相关研究探讨了大语言模型在根因分析中的应用, 但关于大语言模型智能体在根因分析的研究仍然处于早期阶段. 聚焦于大语言模型智能体在云计算和微服务系统根因分析的研究现状进行全面的分析和总结. 主要内容包括: (1)概述基于大语言模型的智能体框架构成和根因分析中的数据使用; (2)从信息获取、根因定位和效果评估这3个主要流程系统地分析大语言模型智能体在根因分析中的应用方式; (3)探讨大语言模型智能体技术在根因分析任务中面临的主要挑战和未来的发展方向.
2026, 37(8):1-37. DOI: 10.13328/j.cnki.jos.007595
摘要:嵌入式系统建模是基于模型的软件开发的重要组成, 体系结构分析与设计语言(architecture analysis and design language, AADL)因其形式化表达软硬件结构与交互关系的能力, 广泛用于架构设计. 大语言模型(large language model, LLM)为从自然语言需求生成架构模型提供了新路径. 然而, 现有模型在需求语义理解、AADL组件边界识别与连接关系建构等方面仍存在显著不足, 限制了其实用性与生成质量. 为解决上述问题, 提出一种面向嵌入式系统的智能建模方法——SmartGen-AADL, 整体方法基于多智能体协同机制构建, 融合语义解析、结构识别与提示增强生成等关键技术, 实现从自然语言需求到结构化AADL模型的高质量转换. 方法核心包括3个阶段: 首先, 系统通过结构化智能体完成系统架构文档中系统架构的识别与标准化需求语句的提取; 随后, 子问题智能体基于条目级分析与组件交互挖掘, 实现对需求粒度的细化与交互关系的显式建模; 最后, 构件生成智能体在语义提示中融合结构引导与基于检索增强生成(retrieval-augmented generation, RAG)的相似组件检索结果, 引导LLM生成符合AADL语法规范的组件代码. 为支撑上述流程, 构建了“条目化需求-AADL组件”知识库以及“系统架构文档-AADL架构”语义对齐数据集. 在15个嵌入式系统应用场景上的实验结果表明, 相较于仅依赖简单提示工程的方法, 所提多智能体协同建模方法在4个主流大语言模型上均展现出显著优势. 其中, 在DeepSeek-r1模型上的提升最为突出: 组件代码错误率平均降低34.37%, FBERT语义相似度平均提升6.21%, 结构匹配度提升超过20%, 人工评分整体提高约0.7分. 进一步的消融实验结果显示, 子问题识别机制增强了对建模粒度的控制能力; 系统结构树构建提供了组件组织与层级拓扑信息; 检索增强生成机制为模型提供了外部知识支撑并降低了幻觉率; 通信连接识别确保了模型的接口完备性与交互闭环, 四者协同促进了自然语言到AADL建模语言对齐与模型一致性的显著提升.
2026, 37(8):1-17. DOI: 10.13328/j.cnki.jos.007596
摘要:大语言模型(large language model, LLM)在通用任务中已展现出卓越的性能, 但其在专业领域中的可信性、鲁棒性与可用性仍缺乏系统化评估. 以软件测试教材编写为代表性应用场景, 围绕100个核心测试概念与方法精心构建了700个测试问题, 并选取5个代表性LLM, 系统评估了其在阅读理解、问答及文本生成方面的能力. 实验结果表明, LLM在大多数问题上整体表现优良, 在答案的准确性、完整性和流畅性方面均达到较高水准; 然而, 在涉及研究现状与复杂概念时, 仍存在幻觉与推理偏差等可靠性问题. 进一步分析显示, 大模型生成的内容在知识覆盖度与教育性上较传统教材具有较为明显的优势, 能够为软件测试教材的修订与教学提供有效支持. 不仅系统揭示了LLM在专业领域知识处理中的具体能力边界与典型缺陷, 也为基于问答驱动的智能化评估方法在专业教育与应用中的推广提供了实证依据与方法参考.
2026, 37(8):1-28. DOI: 10.13328/j.cnki.jos.007597
摘要:大语言模型(large language model, LLM)在软件开发技术问答任务中展现出强大潜力, 为代码知识获取和理解提供了新途径. 然而, 在以Linux内核为代表的复杂系统软件领域, LLM在代码实现、关键机制理解、演化历史追溯及设计决策分析等方面的真实能力仍缺乏系统验证. 现有评测基准多针对通用任务, 存在领域深度不足、难度逐渐饱和及评测问题与工程实践存在偏差等局限, 难以保障特定领域开发知识问答的客观性、准确性和全面性. 为客观评估LLM在复杂系统软件中的知识问答能力, 研究提出一种LLM问答能力评测基准数据集构建方法, 并构建面向Linux内核的高质量问答评测基准LKQABench, 同时设计一种多裁判协同的代码知识问答评测方法MJ-CCE. LKQABench基于开发者社区的真实技术问答数据, 经过语义分析和人工审核修订, 构建202个标准问答对, 覆盖Linux内核主要模块和不同认知维度. MJ-CCE方法定义多个裁判大模型的协同评分与投票机制, 从关键知识点覆盖度、事实正确性与表达清晰度等维度对回答进行多维度评估. 在LKQABench上对主流大模型的实证研究表明, 当前大模型能较好回答内核实现的单点知识问题, 但在涉及跨主题知识整合、深度推理及版本演化关联的问题中, 存在知识点遗漏、逻辑链条不完整等不足. 研究不仅揭示了大模型在软件开发知识问答中的能力边界, 也为其在该领域的持续优化提供了实证数据支撑.
2026, 37(8):1-18. DOI: 10.13328/j.cnki.jos.007598
摘要:文本协议交互抽取旨在从自然语言形式的说明文档中识别并提取协议有关的交互信息, 其可用于在协议代码实现前抽取模型验证协议的正确性、从协议规格描述构造测试用例等. 当前从文本中抽取协议主要采用深度学习、大语言模型等技术, 深度学习方法依赖大规模的高质量数据集, 且适用范围受限于训练数据集, 存在迁移困难的问题. 现有的大语言模型方法存在提示模板和示例构造较为简单、处理流程欠优化的局限. 针对以上问题, 提出一种增强的基于文本表达特征分析的大语言模型协议交互抽取方法. 首先, 从真实的协议描述案例出发, 总结出协议描述文本中存在的常见语言表达特征; 然后, 提取能够体现这些特征的典型协议描述案例, 提炼用于协议交互抽取的处理规则; 进一步地, 融合案例与规则, 提出一套规则回溯思维链方法; 最后, 使用多路推理和自我验证技术优化任务处理流程. 在多个协议数据集上的实验表明, 所提方法在协议交互的抽取精确率和召回率等方面均优于基线方法, 证实了所提方法的有效性.

