摘要:随着近年来机器学习方法在自然语言处理领域的应用越发广泛, 自然语言处理任务的安全性也引起了研究者们重视. 现有研究发现, 向样本施加细微扰动可能令机器学习模型得到错误结果, 这种方法称之为对抗攻击. 文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进. 然而, 目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略, 对抗攻击成功率提升有限, 且对样本进行高侵入性修改容易导致样本质量下降. 如何更简单、更高效地提升对抗攻击效果, 并输出高质量对抗样本已经成为重要需求. 为解决此问题, 从改进对抗攻击过程的新角度, 设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA)及稀释池构建算法(dilution pool construction algorithm, DPCA). SSDA是一种可以自由嵌入经典对抗攻击过程中的新过程, 它利用DPCA构建的稀释池先对输入样本进行稀释, 再进行对抗样本生成. 在未知文本数据集与自然语言模型的情况下, 不仅能够提升任意文本对抗攻击方法的攻击成功率, 还能够获得相较于原方法更高的对抗样本质量. 通过对不同文本数据集、稀释池规模、自然语言模型, 以及多种主流文本对抗攻击方法进行对照实验, 验证了SSDA对文本对抗攻击方法成功率的提升效果以及DPCA构建的稀释池对SSDA稀释能力的提升效果. 实验结果显示, SSDA稀释过程能够比经典对抗攻击过程发现更多模型漏洞, 且DPCA能够帮助SSDA在提升成功率的同时进一步提升对抗样本的文本质量.