本文由“大数据治理的理论与技术”专题特约编辑杜小勇教授、杨晓春教授和童咏昕教授推荐.
随着海量数据的涌现和不断积累, 数据治理成为提高数据质量、最大化数据价值的重要手段. 其中, 数据错误检测是提高数据质量的关键步骤, 近年来引起了学术界及工业界的广泛关注. 目前, 绝大多数错误检测方法只适用于单数据源场景. 然而在现实场景中, 数据往往不集中存储与管理. 不同来源且高度相关的数据能够提升错误检测的精度. 但由于数据隐私安全问题, 跨源数据往往不允许集中共享. 鉴于此, 提出了一种基于联邦学习的跨源数据错误检测方法FeLeDetect, 以在数据隐私保证的前提下, 利用跨源数据信息提高错误检测精度. 为了充分捕获每一个数据源的数据特征, 首先提出一种基于图的错误检测模型GEDM, 并在此基础上设计了一种联邦协同训练算法FCTA, 以支持在各方数据不出本地的前提下, 利用跨源数据协同训练GEDM. 此外, 为了降低联邦训练的通信开销和人工标注成本, 还提出了一系列优化方法. 最后, 在3个真实数据集上进行了大量的实验. 实验结果表明: (1) 相较于5种现有最先进的错误检测方法, GEDM在本地场景和集中场景下, 错误检测结果的
With the emergence and accumulation of massive data, data governance has become an important manner to improve data quality and maximize data value. Error detection is crucial for improving data quality, which has attracted a surge of interests from both industry and academia. Various detection methods tailored for a single data source have been proposed. Nevertheless, in many real-world scenarios, data is not centrally stored and managed. Different sources of correlated data can be employed to improve the accuracy of error detection. Unfortunately, due to privacy/security issues, cross-source data is often not allowed to be integrated centrally. To this end, this study proposes FeLeDetect, a cross-source data error detection method based on federated learning. First, a graph-based error detection model (GEDM) is presented to capture sufficient data features from each data source. Then, the study investigates a federated co-training algorithm (FCTA) to collaboratively train GEDM over different data sources without privacy leakage. Furthermore, the study designs a series of optimization methods to reduce the communication cost during the federated learning and the manual labeling efforts. Extensive experiments on three real-life datasets demonstrate that GEDM achieves an average improvement of 10.3% F1-score in the local scenario and 25.2% F1-score in the centralized scenario, outperforming all the five existing state-of-the-art competitors for a single data source; and FeLeDetect further enhances local GEDM in terms of F1-score by 23.2% on average.
随着移动设备、物联网设备的普及以及互联网技术的飞速发展, 海量数据不断涌现和积累. 通过对海量数据的分析与挖掘, 可以获取潜在的数据价值. 错误检测往往是数据分析流程中的第一步[
数据错误的原因多种多样, 例如人为输入的错别字、整合不同来源数据时造成的不一致等. 常见的错误类型包括错别字、数据缺失、格式错误、违反数据一致性规则等. 在现实场景中, 数据错误往往是异质且稀疏的[
为了便于理解,
跨源数据集示例
然而, 若将DBLP与ACM传输至同一数据中心, 合并为一联合数据集, 如
集中式联合数据集
(1) 如何表征不同粒度的数据特征? 如上文所述, 真实场景下, 由于数据错误的异质性, 导致其难以统一表征. 一种有效应对错误异质性的方法是利用机器学习技术, 将错误检测视作二分类问题: 给定一个数据集和一些训练标签, 通过学习错误数据单元与正确数据单元的特征, 以预测各个数据单元取值是否错误. 所以, 如何有效表征不同粒度的数据单元特征, 对高精度的错误检测至关重要.
(2) 如何保证跨源错误检测中的数据隐私安全? 如
(3) 如何减少跨源数据错误检测的通信代价? 在跨源错误检测过程中, 不同数据源之间需要进行频繁的信息交换以获取必要的跨源信息, 由此造成的通信开销不容忽视. 因此, 如何在保证错误检测精度的同时, 尽可能地降低跨源错误检测过程所需的通信开销也是一大挑战.
为了应对上述挑战, 本文提出了一种基于联邦学习的跨源错误检测方法FeLeDetect. 首先, 考虑到图结构能够有效地表示关系型数据特征[
本文工作的主要贡献可以总结为以下4点.
(1) 提出了一种基于联邦学习的跨源数据错误检测方法FeLeDetect. 该方法利用跨源数据, 在隐私保护的前提下, 大大提高了数据错误检测的精度.
(2) 设计了一种基于图的错误检测模型GEDM. 该模型能够捕获每个数据源不同粒度的丰富数据特征, 以支持高质量的错误检测结果.
(3) 提出了一种信息无损的联邦协同训练算法FCTA, 以协同训练部署在不同数据源的模型GEDM, 确保跨源数据的隐私安全. 此外, 本文还提出了若干优化策略以降低联邦训练的通信开销.
(4) 在3个真实数据集上进行了充分的实验评估, 实验结果表明, 相较于5种现有先进的错误检测方法, GEDM与FeLeDetect有效地提高了错误检测的精度.
本节介绍相关工作. 第1.1节回顾错误检测的相关工作. 第1.2节介绍联邦学习的相关工作.
数据错误检测是提高数据质量的关键流程. 传统的错误检测方法可以分为定量方法和定性方法两类: 定量方法[
联邦学习[
本节介绍本文工作的基础知识. 第2.1节介绍数据错误与错误检测的基本概念. 第2.2节介绍联邦学习的相关知识. 第2.3节给出本文所研究问题的具体定义.
给定一个含错误数据的关系表
错误检测的目的是识别出关系表中所有的错误数据, 即
在现实世界中, 不同组织/机构所持有的数据往往各自定义各自管理. 不同来源的数据形成孤岛, 难以流通共享. 由于行业竞争、隐私安全以及复杂的管理机制等, 即便是同一公司不同部门间的数据集成都面临巨大阻力[
本文研究的跨源错误检测与纵向联邦学习研究的场景高度相关. 正如
本文关注关系型数据的错误检测问题.
• 一方面, 跨源数据可以提升错误检测的质量. 如
• 另一方面, 数据隐私是一个亟待解决的全球性问题. 为此, 本文研究了隐私保护下跨源数据错误检测问题.
由于不允许跨源数据的集中共享, 本文利用联邦学习技术进行跨源数据错误检测. 正如上文所述, 双方各自持有的数据可以视作由联合数据集
本节介绍基于图的错误检测模型GEDM. 第3.1节介绍多关系图模型构建. 第3.2节提出了一种基于图的错误检测模型GEDM, 该模型能够捕获每个数据源中不同粒度的丰富特征.
近年来研究表明[
EMBDI与MRG图构建对比示例
• 其一, 利用该模型对关系表进行转化建模会产生结构复杂的大规模图, 其包含了大量的节点和边. 存储大图需要耗费大量的存储资源, 同时, 对于后续过程中基于图的训练也是极大的挑战.
• 其二, 该图模型并未考虑边的语义信息. 例如, 连接元组节点和属性节点的边与连接属性节点和单元值节点的边在语义上并不相同, 而该图模型并未区分这些不同语义的边.
为了解决这两点不足, 本文利用多关系图模型MRG[
错误检测模型GEDM框架
• 在模型训练(或错误检测)阶段, GEDM先将训练数据集
• 接着, 利用图神经网络提取3个不同维度的数据特征: 元组级特征、属性级特征以及属性值级特征(简称为值级特征).
• 最后, 使用一个二分类器判断每一个数据单元取值是否错误.
鉴于在第3.1节已经介绍了MRG多关系图构建的过程, 下面仅介绍基于图的特征提取和二分类器模块.
• 基于图的特征学习
将数据表转化为图之后, 需要对图中每个节点和边进行特征表示, 以捕获原数据表中丰富的数据特征. 近年来, 图神经网络(GNN)[
➢ 元组级节点卷积操作: 在MGGCN的第
其中,
➢ 值级节点卷积操作: 在MGGCN的第
其中,
➢ 属性级边卷积操作: 在MGGCN的第
其中,
• 二分类器
经过若干层MGGCN的堆叠, 得到每个元组/值级节点以及属性级边的最终特征向量表示. 对于原关系数据表中的某数据单元
其中,
本节介绍联邦错误检测方法FeLeDetect. 首先介绍FeLeDetect的框架, 其次介绍FeLeDetect的技术细节, 最后提出了若干优化方法以减少联邦训练过程中的通信开销和人工标注成本.
基于第3节提出的错误检测模型GEDM, 本节提出了基于联邦学习的跨源错误检测方法FeLeDetect. 给定两个数据参与方
FeLeDetect在数据持有方
跨源错误检测方法FeLeDetect
以数据参与方
输入: 训练集
输出: 训练后的模型参数
1利用MRG模型将数据集
2
3 产生种子
4
5 接收由
6 初始化本地模型GEDM的参数
7
8
9
10
11 执行协同训练算法FCTA正向传播, 得到
12 分类
13 利用标签集
14
算法1的输入为训练数据集
值得注意的是, 协同训练结束后, 需要进行协同错误检测. 具体而言, 双方将各自的数据集
在FeLeDetect中, 数据交换发生在特征学习阶段. 以数据持有方
其中,
第
输入: MGGCN第(
输出: MGGCN第
1 将
2 接收由参与方
3 计算
4 计算
5 计算
6
算法2以MGGCN网络第(
值得注意的是, 由于协同训练可以视作在数据参与双方分别构建了虚拟图
• 数据信息分析
首先给出数据信息的定义.
为了便于分析协同训练算法FCTA捕获数据信息的情况, 这里引入3个错误检测场景.
(1) 本地场景(L): 数据参与双方仅使用本地数据进行错误检测.
(2) 联邦场景(F): 数据参与双方利用FeLeDetect进行联邦错误检测, 此过程不涉及原始数据交换.
(3) 集中场景(C): 数据参与双方先将各自的数据传输至一个数据中心, 而后在合并后的数据上进行错误检测.
接着证明FCTA在更新属性级边的特征向量时, 保证跨源数据信息无损. 如上所述, 属性级边利用公式(5)进行更新. 每次更新仅依赖自身上一次的更新结果. 所以在联邦场景下, 无需任何数据交换即可保证信息无损.
最后证明FCTA在更新值级节点的特征向量时无信息损失. 在集中场景下, GEDM基于合并数据集
• 数据隐私分析
由于隐私保护是跨源数据错误检测问题的一大挑战, 确保FCTA在数据交换过程中没有隐私泄露风险至关重要. 具体来说, FCTA涉及两种类型的数据交换.
(1) 双方初始特征向量的交换. 由于双方各节点和边的初始特征向量是随机初始化的, 其不包含任何与原始数据相关的信息, 因而无法通过初始特征向量推测出原始数据. 这使得交换初始特征向量没有隐私泄露的风险.
(2) 经过第
综上, FCTA的数据交换机制保证了跨源数据的隐私安全.
在FeLeDetect协同训练GEDM期间, 需要频繁交换不同数据参与方的中间结果, 这给网络通信带来了很大的压力. 本文从3个方面提出了不同的优化技术以减少通信代价. 同时, 针对有监督学习中存在的人工标注代价问题, 本文也提出了一种自动化标注策略以减少训练集中所需的人工标注成本.
• 数据去重
在多关系图里, 某些不同的元组级节点与相同的值级节点相连, 这将造成某些相同数据的多次交换. 如
• 量化压缩
由于矩阵
• 降频传输
在FeLeDetect协同训练GEDM的过程中, 需要进行多代(epoch)的训练以使得神经网络模型收敛. 一代意味着使用全部训练数据对模型(包括MGGCN和二分类器)进行一次训练, 每代训练过程中又包含多个迭代轮次(iteration). 在每个轮次中, MGGCN都需要交换每层网络的中间结果. 然而, 某个轮次的中间结果(如
• 标注策略
由于本文将错误检测问题视作二分类问题, 因此, 二分类器需要带标签的训练数据以学习如何对数据单元进行分类. 然而, 数据标注需要领域专家的参与, 该过程耗费大量的人力成本, 因而往往成为实际应用中的瓶颈. HoloDetect[
假设两个数据持有方
由于上述过程采用了替换加密技术, 故
本节在真实数据集上进行实验评估, 主要目的是: (1) 证明GEDM的有效性与先进性; (2) 验证FeLeDetect的检测精度优于仅使用单源数据的各种本地检测方法, 且与集中场景下GEDM的检测精度相当; (3) 验证通信优化策略的有效性. 此外, 实验还测试了GEDM和FeLeDetect的运行时间以评估其效率, 验证了FeLeDetect在不同错误率及错误类型分布下的有效性, 并测试了FeLeDetect的可扩展性. 第5.1节介绍本文的实验数据.第5.2节介绍实验设置与评价指标. 第5.3节介绍实验的实现细节. 第5.4节给出实验结果, 并对实验结果进行分析.
本文使用3个公开的真实数据集进行实验测试.
实验数据集
数据集 | 规模 | 数据错误数量 | 错误类型 | |
D-A | DBLP | 2224×4 | 444 | SE, FI |
ACM | 2224×4 | 444 | SE, MV | |
Flights | Flights1 | 2445×4 | 1 879 | SE, MV, FI |
Flights2 | 2445×4 | 2 972 | SE, MV, VAD | |
Adult | Adult1 | 97864×4 | 19 481 | SE |
Adult2 | 97864×4 | 19 535 | SE |
DBLP-ACM数据集(简记为D-A)[
Flights数据集[
Adult数据集来自UCI机器学习库(
由于存在真实错误的数据集通常没有真值(ground truth), 因此无法评估错误检测算法的有效性[
实验选择了5种不同类型的现有错误检测方法作为基准: (1) DBoost[
实验设置了3种不同场景.
(1) 本地场景(local, L), 每个数据持有方仅通过本地数据进行错误检测. 实验在本地场景下, 对本文提出的模型GEDM以及5个基准模型进行了测试.
(2) 联邦场景(federated, F), 数据持有方无须进行原始数据交换, 协同训练错误检测模型. 在联邦场景下, 对本文提出的FeLeDetect错误检测方法进行实验, 并证明其先进性.
(3) 集中场景(centralized, C), 所有数据持有方先将各自数据汇聚至一个数据中心, 而后基于合并数据集进行错误检测. 该设置是为了验证联邦场景下FeLeDetect方法与集中场景下GEDM方法的检测精度相当. 在集中场景下, 对本文提出的GEDM和5种基准模型分别进行了测试.
实验采用不同的评价指标对所提出的方法进行全面评估, 报告了:
(1) 精确率
(2) 召回率
(3)
(4) 模型训练时间
(5) 模型训练的通信代价
FeLeDetect方法实现中需使用PyTorch库[
本节在3个数据集上对GEDM和FeLeDetect进行全面评估, 并与前述5种基准方法对比.
• GEDM的有效性与效率
首先, 在本地场景(L)与集中场景(C)下, 对比GEDM与其他5种基准方法的错误检测效果, 并使用精确率
不同错误检测方法在不同检测场景下的结果精度
本地错误检测场景 | ||||||||||||||||||
检测方法 | D-A | Flights | Adult | |||||||||||||||
DBLP | ACM | Flights1 | Flights2 | Adult1 | Adult2 | |||||||||||||
dBoost | 0.17 | 1.00 | 0.29 | 0.33 | 0.20 | 0.25 | 0.78 | 0.87 | 0.82 | 0.72 | 0.49 | 0.58 | 0.63 | 0.36 | 0.45 | 0.23 | 0.90 | 0.36 |
NADEEF | 0.44 | 0.21 | 0.28 | 0.50 | 0.21 | 0.29 | 0.08 | 0.12 | 0.09 | 0.40 | 1.00 | 0.57 | 0 | 0 | 0 | 0 | 0 | 0 |
KATARA | 0.12 | 1.00 | 0.21 | 0 | 0 | 0 | 0.02 | 0.13 | 0.56 | 0.02 | 0.14 | 0.02 | 0.02 | 0.29 | 0.08 | 0.02 | 0.10 | 0.02 |
Meta | 0.45 | 0.22 | 0.29 | 1.00 | 0.01 | 0.01 | 1.00 | 0.87 | 0.70 | 0.68 | 0.68 | 1.00 | 0 | 0 | 1.00 | 0 | 0 | |
Raha | 0.57 | 0.32 | 0.42 | 0.65 | 0.63 | 0.64 | 0.98 | 0.87 | 0.92 | 0.71 | 0.70 | 0.70 | 0.50 | 0.83 | 0.62 | 0.74 | 0.93 | 0.82 |
0.68 | 0.33 | 0.78 | 0.80 | 1.00 | 0.87 | 0.71 | 0.73 | 0.76 | 0.75 | 0.86 | 0.90 | |||||||
集中错误检测场景 | ||||||||||||||||||
检测方法 | D-A | Flights | Adult | |||||||||||||||
DBLP | ACM | Flights1 | Flights2 | Adult1 | Adult2 | |||||||||||||
dBoost | 0.10 | 0.20 | 0.13 | 0.31 | 1.00 | 0.48 | 0.78 | 0.87 | 0.82 | 0.67 | 0.30 | 0.41 | 0.67 | 0.36 | 0.45 | 0 | 0 | 0 |
NADEEF | 0.10 | 1.00 | 0.17 | 0.10 | 1.00 | 0.17 | 0.38 | 0.41 | 0.40 | 0.40 | 1.00 | 0.57 | 0 | 0 | 0 | 0 | 0 | 0 |
KATARA | 0.12 | 1.00 | 0.21 | 0 | 0 | 0 | 0.02 | 0.13 | 0.06 | 0.02 | 0.01 | 0.01 | 0.05 | 0.29 | 0.08 | 0.02 | 0.10 | 0.02 |
Meta | 1.00 | 0.21 | 0.35 | 1.00 | 0.01 | 0.01 | 1.00 | 0.87 | 0.70 | 0.68 | 0.69 | 1.00 | 0 | 0 | 1.00 | 0 | 0 | |
Raha | 0.67 | 0.37 | 0.47 | 0.68 | 0.61 | 0.65 | 0.97 | 0.88 | 0.92 | 0.66 | 0.75 | 0.70 | 0.67 | 1.00 | 0.80 | 0.87 | 0.90 | 0.88 |
1.00 | 0.72 | 1.00 | 0.84 | 0.98 | 0.88 | 0.73 | 0.74 | 0.92 | 0.99 | 0.99 | 0.90 | |||||||
联邦错误检测场景 | ||||||||||||||||||
检测方法 | D-A | Flights | Adult | |||||||||||||||
DBLP | ACM | Flights1 | Flights2 | Adult1 | Adult2 | |||||||||||||
1.00 | 0.72 | 1.00 | 0.84 | 1.00 | 0.87 | 0.73 | 0.74 | 0.92 | 1.00 | 1.00 | 0.90 |
在精度方面, 首先可以看到, 在本地场景与集中场景下, GEDM的
在运行效率方面, 从
不同错误检测方法在不同检测场景下的检测时间
检测方法 | 本地错误检测场景 | 集中错误检测场景 | 联邦错误检测场景 | |||||||||
D-A | Flights | Adult | D-A | Flights | Adult | D-A | Flights | Adult | ||||
DBLP | ACM | Flights1 | Flights2 | Adult1 | Adult2 | |||||||
dBoost | 2.21 | 2.37 | 2.35 | 2.64 | 74.29 | 77.06 | 5.29 | 6.06 | 211.85 | − | − | − |
NADEEF | 0.13 | 1.05 | 1.06 | 1.30 | 1.76 | 2.11 | 1.98 | 1.42 | 2.97 | − | − | − |
KATARA | 9.28 | 9.35 | 9.62 | 9.64 | 40.02 | 40.02 | 14.70 | 15.45 | 100.72 | − | − | − |
Meta | 2.20 | 2.16 | 2.18 | 2.66 | 14.69 | 17.90 | 4.41 | 3.10 | 29.04 | − | − | − |
Raha | 14.97 | 15.91 | 14.44 | 13.73 | 1059.06 | 1266.30 | 27.04 | 31.58 | 2397.48 | − | − | − |
− | − | − | ||||||||||
− | − | − | − | − | − | − | − | − | 9.43 | 9.46 | 386.9 |
• FeLeDetect的有效性与效率
考虑到隐私保护, 跨源数据往往不允许被传输至公共数据中心进行集成. 因此, 集中场景下的数据错误检测受到很大的阻碍. 鉴于此, 针对单源数据的错误检测方法只能在某个数据持有方本地进行, 且无法获取到与该数据源相关的其他数据源的信息. 在联邦场景(F)下, 将本文提出的FeLeDetect方法与本地场景(L)和集中场景(C)下的各基准方法(包括GEDM)进行对比.
在精度方面, 由
在运行效率方面, 从
由于数据去重可以在不影响检测效果的前提下减少联邦训练过程中数据传输的通信量, 因此, 这里只探究量化压缩与降频传输对联邦通信量以及检测效果的影响.
首先, 实验在{32, 16, 8, 4, 2, 1}之间变化压缩参数
通信量随不同压缩比特数/传输阈值的变化
错误检测精度随不同压缩比特数/传输阈值变化
• FeLeDetect通信优化实验
接着, 将压缩参数
• 补充实验
接下来, (1) 进一步给出了GEDM以及联邦错误检测方法FeLeDetect在不同数据集下的训练时间
(2) 验证了FeLeDetect在不同错误率及错误类型比的数据集下的通用性; 以及(3) FeLeDetect的可扩展性.
首先,
GEDM在本地场景(L)和集中场景(C)/FeLeDetect在联邦场景(F)的训练时间
数据集 | GEDM (L) | GEDM (C) | FeLeDetect (F) | |
D-A | DBLP | 270.28 | 633.75 | 1 443.04 |
ACM | 286.64 | |||
Flights | Flights1 | 67.02 | 65.86 | 525.84 |
Flights2 | 61.69 | |||
Adult | Adult1 | 1 023.32 | 1 711.02 | 4 474.41 |
Adult2 | 1 005.63 |
接着, 以数据集D-A为例, 验证错误检测方法FeLeDetect在不同错误率及不同错误类型比的数据集下的通用性. 正如第1节所述, 现实世界中数据错误是稀疏的. 因此, 在默认错误类型比(80%)条件下, 将数据集的错误率从3%变化至9%, 并测试FeLeDetect的
FeLeDetect在不同错误率/错误类型比下的错误检测
数据集 | 错误率 | 错误类型比 | |||||||
3% | 5% | 7% | 9% | 80% | 60% | 40% | 20% | ||
D-A | DBLP | 0.78 | 0.84 | 0.83 | 0.85 | 0.83 | 0.88 | 0.89 | 0.89 |
ACM | 0.89 | 0.91 | 0.93 | 0.97 | 0.90 | 0.91 | 0.94 | 0.97 |
最后验证FeLeDetect的可扩展性. 本实验选取数据集Adult, 并变化其数据集规模.
FeLeDetect的训练时间
数据规模| |
||
20 000 | 818.25 | 39.45 |
40 000 | 1 518.05 | 99.66 |
60 000 | 2 237.33 | 187.97 |
80 000 | 3 407.48 | 299.29 |
97 864 | 4 369.12 | 386.97 |
皮尔逊相关系数 | 0.99 | 0.99 |
从
本文提出了一种基于联邦学习的跨源数据错误检测方法FeLeDetect.
• 首先, 本文设计了一种基于图的错误检测模型GEDM以充分捕获每个数据源不同粒度的数据特征.
• 其次, 本文提出了一种信息无损的联邦协同训练算法FCTA, 在保证数据隐私的前提下, 协同训练部署在不同数据源的错误检测模型GEDM; 并在此基础上进一步设计了一系列优化方法, 以降低联邦训练过程中的通信开销以及人工标注成本.
• 最后, 在公开数据集上进行了充分的实验, 验证了: (1) GEDM在本地场景和集中场景下的优越性;
(2) FeLeDetect在GEDM的基础上进一步提高了错误检测的精度; (3) 本文提出的通信优化算法大大降低了联邦训练过程中的通信代价.
由于真实的错误数据集往往缺少真实值(ground truth), 因此难以评估错误检测算法的有效性. 未来, 我们计划收集、标注并公开含真实错误的基准数据集, 以便于错误检测任务的进一步研究.
Ilyas IF, Chu X. Trends in cleaning relational data: Consistency and deduplication. Foundations and Trends in Databases, 2015, 5(4): 281−393.
Guo ZM, Zhou AY. A survey of data quality and data cleaning research. Ruan Jian Xue Bao/Journal of Software, 2002, 13(11): 2076−2082 (in Chinese with English abstract).
Dasu T, Loh JM. Statistical distortion: Consequences of data cleaning. Proc. of the VLDB Endowment, 2012, 5(11): 1674−1683.
Wu E, Madden S. Scorpion: Explaining away outliers in aggregate queries. Proc. of the VLDB Endowment, 2013, 6(8): 553−564.
Prokoshyna N, Szlichta J, Chiang F, Miller RJ, Srivastava D. Combining quantitative and logical data cleaning. Proc. of the VLDB Endowment, 2015, 9(4): 300−311.
Elmagarmid AK, Ipeirotis PG, Verykios VS. Duplicate record detection: A survey. IEEE Trans. on Knowledge and Data Engineering, 2006, 19(1): 1−16.
Naumann F, Herschel M. An introduction to duplicate detection. Synthesis Lectures on Data Management, 2010, 2(1): 1−87.
Fan W, Li J, Ma S, Tang N, Yu W. Towards certain fixes with editing rules and master data. The VLDB Journal, 2012, 21(2): 213−238.
Krishnan S, Wang J, Wu E, Franklin MJ, Goldberg K. Activeclean: Interactive data cleaning for statistical modeling. Proc. of the VLDB Endowment, 2016, 9(12): 948−959.
Chen Y, Qin X, Wang J, Yu C, Gao W. Fedhealth: A federated transfer learning framework for wearable healthcare. IEEE Intelligent Systems, 2020, 35(4): 83−93.
Wu C, Wu F, Lyu L, Huang Y, Xie X. Communication-efficient federated learning via knowledge distillation. Nature Communications, 2022, 13(1): 1−8.
Yang Q, Liu Y, Chen TJ, Tong YX. Federated machine learning: Concept and applications. ACM Trans. on Intelligent Systems and Technology, 2019, 10(2): 1−19.
Wu ZH, Pan SR, Chen FW, Long GD, Zhang CQ, Philip SY. A comprehensive survey on graph neural networks. IEEE Trans. on Neural Networks and Learning Systems, 2020, 32(1): 4−24.
Li X, Dong XL, Lyons K, Meng W, Srivastava D. Truth finding on the deep Web: Is the problem solved? Proc. of the VLDB Endowment, 2012, 6(2): 97−108.
Abedjan Z, Chu X, Deng D, Fernandez RC, Ilyas IF, Ouzzani M, Papotti P, Stonebraker M, Tang N. Detecting data errors: Where are we and what needs to be done? Proc. of the VLDB Endowment, 2016, 9(12): 993−1004.
Ge CC, Gao YJ, Miao XY, Yao B, Wang HB. A hybrid data cleaning framework using markov logic networks. IEEE Trans. on Knowledge and Data Engineering, 2022, 34(5): 2048−2062.