摘要:在大规模图像检索任务中,图像哈希技术通常依赖大量人工标注数据来训练深度哈希模型,但高昂的人工标注成本限制了其实际应用.为缓解对人工标注的依赖,现有研究尝试利用网络用户提供的文本作为弱监督信息,引导模型从图像中挖掘和文本关联的语义信息.然而,用户标签中普遍存在噪声,限制了这些的方法的性能.多模态预训练基础模型(如CLIP)具备较强的图像-文本对齐能力.受此启发,本文利用CLIP来优化用户标签,并提出一种CLIP引导标签优化的弱监督哈希方法(CLIP-guided Tag Refinement Hashing, CTRH).该方法包含三个主要内容:标签置换模块,标签赋权模块和标签平衡损失函数.标签置换模块通过微调CLIP挖掘图像关联的潜在标签.标签赋权模块利用优化后的文本和图像进行跨模态全局语义交互,学习判别性的联合表示.针对用户标签的分布不平衡问题,本文设计了一种标签平衡损失,通过动态加权增强模型对难样本的表征学习.在MirFlickr和NUS-WIDE两个通用数据集上与最先进的方法对比验证了所提方法的有效性.