数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望.
Data annotation is a key part of the effective operation of most artificial intelligence algorithms. The better the annotation accuracy and quantity, the better the performance of the algorithm. The development of the data annotation industry boosts employment in many cities and towns in China, prompting China to gradually become the center of world data annotation. This study summarizes its development, including origin, application scenarios, classifications, and tasks; lists the commonly used annotation data sets, open source data annotation tools and commercial annotation platforms; proposes the data annotation specification including roles, standards, and processes; gives an example of data annotation in a sentiment analysis. Then, this paper describes the models and characteristics of state-of-the-art algorithms for evaluating annotation results, and compares their advantages and disadvantages. Finally, this paper prospects research focuses and development trends of data annotation from four aspects:tasks, tools, annotation quality, and security.
近年来, 作为人工智能(artificial intelligence, 简称AI)的核心技术, 深度学习在图像、语音、文本处理等领域取得了大量关键性突破.尤其在2016年和2017年, 由Google公司开发的AlphaGo围棋机器人, 利用深度学习技术完善了围棋算法, 分别战胜围棋界的世界冠军李世石和柯洁, 震惊了整个科技界[
人工智能是机器产生的智能, 在计算机领域是指根据对环境的感知, 做出合理的行动并获得最大收益的计算机程序[
2007年, 斯坦福大学教授李飞飞等人开始启动ImageNet项目, 该项目主要借助亚马逊的劳务众包平台Mechanical Turk(AMT)来完成图片的分类和标注, 以便为机器学习算法提供更好的数据集[
数据标注示例
Example of data annotation
数据标注产业的发展, 促进了人工智能的蓬勃兴起, 其主要的应用行业和不同行业的标注场景总结如下.
(1) 自动驾驶[
(2) 智能安防[
(3) 智慧医疗:人工智能和大数据分析技术应用于医疗行业, 可以深入洞察医学知识和数据, 帮助医生和患者解决在医学影像、新药研发、肿瘤与基因、健康管理等领域所面临的影像识别困难、药物研发成本巨大、癌症治疗效果不佳等难题[
(4) 工业4.0:利用标注数据训练和验证机器人应用程序的计算机视觉模型, 从而使模型对工业环境内的各类障碍物、机械设备和机器人有更加精确的感知[
(5) 新零售:将人工智能和机器学习应用于新零售行业, 可以通过商品销售数据以及用户的真实反馈促进电子商务的销售, 提高用户的个性化体验以及预测客户需求[
(6) 智慧农业:依托精准的数据标注实现对农作物的定位以及对其成熟度和生长状态的识别, 实现农作物智能采摘并解决精准农药撒播问题[
本节详细比较了不同数据标注分类方法的概念和优缺点, 见
数据标注分类
Classification of data annotation
分类方式 | 分类方法 | 概念 | 优点 | 缺点 |
标注 |
图像标注 | 图像标注和视频标注 |
使人脸识别和自动驾驶等 |
相对复杂, 耗时 |
语音标注 | 需要人工将语音内容转录为 |
帮助人工智能领域中的 |
算法无法直接理解语音 |
|
文本标注 | 与音频标注有些相似, 都需要 |
减少了文本识别行业和 |
人工识别过程繁杂 | |
标注的 |
结构化 |
数据标签必需在规定的标签候选 |
标签候选集将标注类别描述 |
遇到具有二义性 |
非结构化 |
标注者在规定约束内, 自由组织 |
给标注者足够的自由, 可以 |
给数据存储和使用带来 |
|
半结构化 |
标签值是结构化标注, 而标签域 |
标注灵活性强, |
对标注者的要求高, |
|
标注者 |
人工标注 | 雇用经过培训的标注员进行标注 | 标注质量高 | 标注成本高, 时间长, 效率低 |
机器标注 | 标注者通常是智能算法 | 标注速度快, 成本相对较低 | 算法对涉及高层语义的 |
如
图像标注包括图像标注和视频标注, 因为视频也是由连续播放的图像所组成[
文本标注示例
Example of text annotation
下面第1.4节中提到的标框标注就是典型的半结构化标注, 如在豆瓣影评上对某部电影进行评价或在小组会议上发表自己的观点等都属于非结构化标注, 而对电影类型进行标注就属于结构化标注.人工标注和机器标注比较好理解, 这里就不再举例.除了
常见的数据标注任务包括分类标注、标框标注、区域标注、描点标注和其他标注等.下面介绍每一种任务的具体内容[
1) 分类标注.分类标注是从给定的标签集中选择合适的标签分配给被标注的对象[
分类标注
Classification annotation
2) 标框标注.标框标注就是从图像中选出要检测的对象[
多边形拉框
Polygonal frame
四边形拉框
Quadrilateral frame
3) 区域标注.与标框标注相比, 区域标注的要求更加精确[
区域标注
Region annotation
4) 描点标注.描点标注是指将需要标注的元素(比如人脸、肢体)按照需求位置进行点位标识, 从而实现特定部位关键点的识别[
描点标注
Point annotation
5) 其他标注.数据标注的任务除了上述4种以外, 还有很多个性化的标注任务.例如, 自动摘要就是从新闻事件或者文章中提取出最关键的信息, 然后用更加精炼的语言写成摘要[
随着人工智能、机器学习等行业对标注数据的海量需求, 许多企业和研究机构纷纷推出了带标注的公开数据集.为了提高数据标注效率, 一些标注工具和平台也应运而生[
本文将标注数据集划分为图像、视频、文本和语音标注数据集这4大类,
部分常用的标注数据集
Partial common annotation datasets
类别 | 数据集名称 | 用途 | 大小 | 来源/机构 | 开放 |
图像 |
ImageNet | 图像分类、 |
~1TB | http://www.image-net.org/about-stats]]> | 是 |
COCO | 图像识别、 |
~40G | http://mscoco.org/]]> | 是 | |
PASCAL VOC | 图像分类、 |
~2GB | http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html]]> | 是 | |
Open Image | 图像分类、定位、检测 | ~1.5GB | https://storage.googleapis.com/openimages/web/index.html]]> | 是 | |
Flickr30k | 图片描述 | 30MB | http://shannon.cs.illinois.edu/DenotationGraph/data/index.html]]> | 是 | |
视频 |
Youtube-8M | 理解和识别 |
1PB | https://research.google.com/youtube8m/]]> | 受限 |
Kinetics | 动作理解 |
~1.5TB | https://deepmind.com/research/open-source/open-source-datasets/kinetics/]]> | 是 | |
AVA | 人类动作识别 | - | https://research.google.com/ava]]> | 是 | |
UCF101 | 视频分类、 |
6.5GB | http://crcv.ucf.edu/papers/UCF101_CRCV-TR-12-01.pdf]]> | 是 | |
文本 |
Yelp | 文本情感分析 | ~2.66GB | https://www.yelp.com/dataset/challenge]]> | 是 |
IMDB | 文本情感分析 | 80.2MB | http://ai.stanford.edu/~amaas/data/sentiment/]]> | 是 | |
Multi-Domain |
文本情感分析 | 52MB | http://www.cs.jhu.edu/~mdredze/datasets/sentiment/]]> | 是 | |
Sentiment 140 | 文本情感分析 | 80MB | http://help.sentiment140.com/]]> | 是 | |
语音 |
LibriSpeech | 训练声学模型 | ~60GB | http://www.openslr.org/12/]]> | 是 |
AudioSet | 声学事件检测 | 80MB | https://research.google.com/audioset/]]> | 是 | |
FMA | 语言识别 | ~1 000GB | https://github.com/mdeff/fma]]> | 是 | |
VoxCeleb | 语音识别、 |
150MB | http://www.robots.ox.ac.uk/~vgg/data/voxceleb/]]> | 是 |
通常, 商用的数据标注工具一般是由众包标注平台来提供.数据标注众包模式[
无论是开源的标注工具还是商用的数据标注平台, 它们至少要包含以下内容[
1) 进度条:用于指示数据标注的进度.一方面方便标注人员查看进度, 另一方面也利于统计.
2) 标注主体(指需要标注的对象):可以根据标注形式进行设计, 一般可以分为单个标注(指对某一个对象进行标注)和多个标注(指对多个对象进行标注)的形式[
3) 数据导入、导出功能.
4) 收藏功能:针对模棱两可的数据, 可以减少工作量并提高工作效率.
5) 质检机制:通过随机分发部分已标注过的数据, 检测标注人员的可靠性.
在选择数据标注工具时, 需要考虑标注对象(如图像、视频、文本等)、标注需求(如画框、描点、分类等)和不同的数据集格式[
部分开源的数据标注工具
Partial open source data annotation tools
名称 | 简介 | 运行平台 | 标注形式 | 导出数据格式 |
LabelImg | 著名的图像标注工具 | Windows, |
矩形 | XML格式 |
LabelMe | 著名的图形界面标注工具, |
Windows, |
多边形、矩形、圆形、多段线、线段、点 | VOC和COCO格式 |
RectLabel | 图像标注 | Mac | 多边形、矩形、多段线线段、点 | YOLO、KITTI、COCO1与CSV格式 |
VOTT | 微软发布的基于Web方式本地部署 |
Windows, |
多边形、矩形、点 | TFRecord、CSV、VoTT格式 |
LabelBox | 适用于大型项目的标注工具, 基于 |
- | 多边形、矩形、线、点、嵌套分类 | JSON格式 |
VIA | VGG(visual geometry group)的图像 |
- | 矩形、圆、椭圆、多边形、点和线 | JSON格式 |
COCO UI | 用于标注COCO数据集的 |
- | 矩形、多边形、点和线 | COCO格式 |
Vatic | Vatic是一个带有目标跟踪的 |
Linux | - | VOC格式 |
BRAT | 基于Web的文本标注工具, |
Linux | - | ANN格式 |
DeepDive | 处理非结构化文本的标注工具 | Linux | - | NLP格式 |
Praat | 语音标注工具 | Windows, Unix, |
- | JSON格式 |
精灵标注助手 | 多功能标注工具 | Windows, |
矩形、多边形和曲线 | XML格式 |
传统手工数据标注中的用户角色可以分为3类[
1) 标注员:负责标注数据, 通常由经过一定专业培训的人员来担任.在一些特定场合或者对标注质量要求极高的行业(例如医疗), 也可以直接由模型训练人员(程序员)或者领域专家来担任.
2) 审核员:负责审核已标注的数据, 完成数据校对和数据统计, 适时修改错误并补充遗漏的标注.这个角色往往由经验丰富的标注人员或权威专家来担任.
3) 管理员:负责管理相关人员, 发放和回收标注任务.
数据标注过程中的各个角色之间相互制约, 各司其职, 每个角色都是数据标注工作中不可或缺的一部分.此外, 已标注的数据往往用于机器学习和人工智能中的算法, 这就需要模型训练人员利用人工标注好的数据训练出算法模型.而产品评估人员则需要反复验证模型的标注效果, 并对模型是否满足上线目标进行评估.
本节根据标注对象本身的特征和标注需求来阐述数据标注要遵循的质量标准[
1) 图像标注的质量标准
机器学习中图像识别的训练是根据像素点进行的, 因此, 图像标注的质量好坏取决于像素点的判定准确性.标注像素点越接近标注物的边缘像素, 标注质量就越高, 标注难度也就越大; 反之, 则标注质量较差, 标注难度较小.按照100%准确率的图像标注要求, 标注像素点与标注物的边缘像素点的误差应该在1个像素以内[
2) 语音标注的质量标准
在进行语音标注时, 标注员需要时刻关注语音数据发音的时间轴与标注区域的音标是否同步.所以, 标注与发音时间轴的误差要控制在1个语音帧以内.如果误差超过1个语音帧, 则很容易标注到下一个发音, 从而产生更多的噪声数据.
3) 文本标注的质量标准
由于文本标注中的任务较多, 不同任务的质量标准各有不同.例如, 中文分词的质量标准是标注好的分词与词典中的词语一致, 不存在歧义.情感标注的质量标准则要求对标注句子的情感分类级别正确.多音字标注的质量标准是借助专业性工具(如字典)来标注一个字的全部读音; 而语义标注的质量标准是标注清楚词语或句子的真实语义.
本节以众包模式下的数据标注为例, 提出了一个完整的数据标注流程, 如
数据标注基本流程
Basic process of data annotation
随着电子商务、社交网络和移动互联网的蓬勃发展, 互联网上出现了大量带有情感色彩的文本数据.针对文本数据的情感分析, 能够帮助政府部门及企事业单位更好地理解用户的观点, 并及时解决出现的各类问题, 以进一步提高服务质量[
词语、句子和文章是文本情感分析中的3个级别[
情绪文本的分析和挖掘涉及到文本数据标注中的多项任务, 下面将对这些任务进行阐述.
1) 中文分词
中文分词是将一个汉字序列切分为一个个单独的词, 中文分词是汉语文本处理的基础.例如, 要判断句子A=“今天是国庆节, 可是我们还要加班.”的情感, 首先要将其切分为一个个单词, 如果采用自动分词, 其结果为
“今天/是/国庆节/, /可是/我们/还/要/加班/.”
如果采用基于字标注的分词方法, 则其结果为
“今/B天/E是/S国/S庆/M节/E/, S/可/S是/E我/B们/E还/S要/S加/S班/E./S”,
其中, B表示词首, M表示词中, E表示词尾, S代表单独成词.它们形成了4个构词位置.
2) 词性标注
词性标注是将词划分为对应的语法分类, 以表达这个词在上下文中的含义.词的语法分类主要为名词、动词、形容词、量词、代词、副词、连词、助词等.上述句子A的词性标注结果如
词性标注示例
Examples of part-of-speech annotation
其中, n, v, conj, p和adv分别代表句子中的名词、动词、连词、代词和副词, w表示标点符号, wp代表断句.
3) 情感标注
句子A中并没有明确表示情绪的词, 不过联系上下文可知, 句子表达的情绪是“低落”.为了判断句子A所表达的情绪, 我们可以使用一些中文情感极性词典进行分析, 比如来源于台湾大学的NTUSD和知网的情感极性字典.但是本例中如果只依靠中文情感极性词典, 计算机就很难准确判断句子A所反映的真实情绪.因此, 事先要采用人工标注的方法来对一些带情绪的语句进行情感标注.通常, 人类的基本情绪可以划分为6种, 即快乐、愤怒、悲伤、恐惧、惊讶和嫉妒.为了正确识别情绪, 每一类情绪都要有对应的标注数据, 然后利用这些带情绪标注的数据集来训练情绪分类模型.情绪分类算法可以采用
本文按照数据标注对象, 将数据标注结果评估算法分为图像(含视频)、文本和语音这3类标注结果评估算法, 下面按照时间顺序对这3类评估算法进行简要概述.
目前, 比较常用的图像标注质量评估算法[
由于MV算法把大多数人认为正确的标签作为最终标签且简单易用, 所以常被其他众包质量评估算法当作基准算法.但是在现实生活中, 大多数人认为正确的并不总是正确.为了解决这个问题, Dawid等人[
上述3种算法中的MV算法和EM算法主要用于标注者质量未知的情况下.它们可以检测并剔除低质量的标注者, 检测到的低质量标注者越多, 则说明标注质量越差.
常用的文本标注质量评估算法有6种.
1) Papineni等人提出的BLEU(bilingual evaluation understudy)[
2) Yew提出的ROUGE(recall-oriented understudy for gisting evaluation)[
3) Lavie等人提出的METEOR[
4) Vedantam等人提出的CIDEr(consensus-based image description evaluation)算法[
5) Anderson等人提出的SPICE(semantic propositional image caption evaluation)算法[
6) Demartini等人提出的ZenCrowd算法[
目前, 语音标注质量评估算法主要有词错误率(word error rate, 简称WER)算法[
其中,
SER算法被用来识别句子中是否出现词识别错误, 其计算公式如下:
SEN(error number of sentence)是指句子识别错误的个数, 也就是说, 如果句子中出现一个词识别错误, 那么这个句子被认为识别错误, STN(total number of sentence)指句子总数.SER的值越高, 就代表语音标注的质量越差; 反之, 则表示语音标注的质量较好.最后,
各数据标注质量评估算法对比
Comparison of evaluation algorithms for data annotation quality
分类 | 算法名称 | 优点 | 缺点 |
图像标注 |
MV算法 | 简单易用, 常用作其他众包 |
没有考虑到每个标注任务、标注者的不同可靠性 |
EM算法 | 在一定意义下可以收敛到局部最大化 | 数据缺失比例较大时, 收敛速度比较缓慢 | |
RY算法 | 将分类器与Ground-truth结合起来进行学习 | 需要对标注专家的特异性和敏感性强加先验 | |
文本标注 |
BLEU算法 | 方便、快速、结果有参考价值 | 测评精度易受常用词干扰 |
ROUGE算法 | 参考标注越多, 待评估数据的相关性就越高 | 无法评价标注数据的流畅度 | |
METEOR算法 | 评估时考虑了同义词匹配, |
长度惩罚, 当被评估的数据量 |
|
CIDEr算法 | 从文本标注质量评估的相关性 |
对所有匹配上的词都同等对待 |
|
SPICE算法 | 从图的语义层面对图像标注进行评估 | 图的语义解析方面还有待进一步完善 | |
ZenCrowd算法 | 将算法匹配和人工匹配结合, 在一定 |
无法自动为定实体选择最佳数据集 | |
语音标注 |
WER算法 | 可以分数字、英文、中文等情况分别来看 | 当数据量大时, 性能会特别差 |
SER算法 | 对句子的整体性评估 |
句错误率较高, 一般是 |
随着人工智能的兴起, 深度学习、增强学习、机器学习等人工智能领域对数据标注的需求度越来越高, 数据标注的重要性也不断凸显.但是其在发展过程中也面临着一些挑战和问题, 具体内容如下所示.
● 挑战 1:不同的行业应用对数据标注的任务存在一定的差异性, 现有的标注任务还不够细化, 无法满足行业的新技术需求.
现有的标注任务主要分为5大类, 不过随着人工智能技术的普及, 一些行业对数据标注提出了更高的需求.例如智能安防是数据标注的一个典型应用行业, 常用的标注任务为图像标注中的人脸标注和行人标注.人脸标注可用于识别住户或来访者的身份, 行人标注用来统计一定区域里的人群数量, 并判断该区域是否出现过于拥挤的现象, 以避免出现踩踏事件.但是随着技术的进步, 居民对智能安防系统提出了更高的需求, 希望能从以往的被动防御走向主动预警.为此, 现有的标注任务已经不能满足这一需求, 需要出现更加专业和更加细化的标注内容.
● 挑战 2:尽管数据标注工具能够在一定程度上帮助标注员完成标注任务, 但是整体的标注效率仍然较为低下.
在图像标注工作中, 传统的人工标注方法是由标注员根据标注需求, 并借助相关工具在图片上完成诸如分类、画框、注释和标记等工作.比如在COCO+Stuff数据集中[
● 挑战 3:现有数据标注平台普遍采用众包模式来分配标注任务、造成标注结果的质量层次不齐, 影响算法模型的准确性.
人工智能应用对数据标注的质量要求非常高, 然而数据标注质量的参差不齐, 成为人工智能企业最为苦恼的事情.现阶段, 数据标注主要依靠人力来完成, 当标注员面临复杂的标注任务或者百万级的标注数据量时就会产生巨大的心理压力; 再加上数据标注工作本身的重复性高、标注时间紧迫以及缺少严格的质量审核流程, 就会造成标注任务的合格率低、标注不完备[
● 挑战 4:基于众包模式的数据标注任务会造成用户数据缺乏安全性, 并面临隐私泄露的风险.
一些金融机构和政府部门格外关注外包标注数据的安全性, 但是一些互联网企业为了降低标注成本, 会将用户私人社交内容标注工作层层转包给其他国家的合同工.据路透社报道, Facebook将部分的数据标注工作外包给了印度公司WiPro, 该公司雇用了260多名工人, 按照5个类别对用户发布的私人帖子进行标注.鉴于Facebook之前在数据安全上的表现, 数据标注的外包行为引起了许多用户的担忧, 进而引发了用户对隐私信息泄露的忧虑
综上, 在新环境和新技术下, 数据标注的研究方向在于:
(1) 针对特定的行业需求, 研究如何细化本行业的标注任务;
(2) 开发人工标注+机器辅助标注并存的半自动化标注工具, 同时, 逐步提高机器标注的占比并减少人工标注的比例;
(3) 研究提高数据标注质量的技术和方法;
(4) 研究能够保证数据标注安全性和隐私性的技术和措施.
下面简要介绍各研究热点所涉及的相关理论和技术.
随着人工智能技术在一些行业的广泛应用, 这些行业原有的数据标注任务已经不再满足业务需求.以智能安防为例, 为了促进智能安防系统从传统的被动防御走向智能化的主动预警, 一些新的数据标注任务也应运而生.例如, 当一个神情紧张或者头戴面罩的小偷手握一根棍子准备翻越小区外墙企图实施盗窃行为时, 安防系统应该马上启动报警系统, 并及时向安防人员发出警告, 以保障住户的财产安全.实现异常情况预警的新标注任务, 包括表情标注、危险品标注和行为标注, 利用这些数据标注就能帮助安防系统识别紧张的表情、违法的面罩和违规的翻越行为以及可能的凶器——棍子.从技术角度来看, 新标注任务为异常行为的识别与建模提供了高质量的训练数据, 也有利于提高模型训练的准确性.因此, 针对特定的行业需求细化标注任务, 将是今后数据标注的一个发展趋势.
随着AI技术的发展, 数据标注工具需要从只支持人工标注逐渐转化为人工标注+AI辅助标注的方法.其基本思路为:基于以往的标注, 可以通过AI模型对数据进行预处理, 然后由标注人员在此基础上做一些校正.以图像标注为例, 标注工具首先通过预训练的语义分割模型来处理图像, 并生成多个图像片段、分类标签及其置信度分数.置信度分数最高的片段用于对标签的初始化, 呈现给标注者.标注者可以从机器生成的多个候选标签中为当前片段选择合适的标签, 或者对机器未覆盖到的对象添加分割段.AI辅助标注技术的应用, 能够极大地降低人力成本并使标注速度大幅提升.目前, 已经有一些数据标注公司开发了相应的半自动化工具, 但是从标注比例来看, 机器标注占30%左右, 而人工标注占比达到70%左右.因此, 数据标注工具的发展趋势是开发以人工标注为主机器标注为辅的半自动化标注工具, 同时减少人工标注的比例, 并逐步提高机器标注的占比.
为了改善数据标注的质量, 可以从以下3个层面开展相关研究.
● 方法 1.现有的众包工作大多集中在标签推理和激励机制的设计上[
● 方法 2.针对被标注数据数量过大的情况, 可以采取自动识别和概率统计[
● 方法 3.将学习人群模型[
此外, 如何将人类经验与学习规则充分结合以获取符合算法需求的高质量标注数据, 如何对标注人员进行规范培训, 如何制定标准的审核流程和控制标注质检的成本, 如何从非专家提供的大量噪声标签中推断出真正的标签等, 都是目前数据标注质量需要尽快解决的问题和研究的方向.
为了保证数据标注平台中数据的安全性和隐私不被泄露, 可以考虑采取数据治理、数据分割、数据安全传输和区块链等技术.数据治理是指对数据采集、数据清洗、数据标注到数据交付生命周期的每个阶段进行识别、度量、监控、预警等一系列管理活动, 并通过改善和提高组织的管理水平确保数据在一个可控环境下使用.数据分割是指将涉密的待标注数据拆分成多个部分, 分别指派给没有关联的不同团队, 并且用数据接口的方式来传输数据, 避免客户的数据被直接打包并互相传送, 以便尽可能地提高安全性.待标注的数据在分发和交付时都会涉及到数据传输, 为了解决数据传输过程中存在的被盗、暴露和复制等安全性问题, 就需要设计和开发出一个安全的标注数据传输框架, 该框架需要提供数据加密、数据压缩和自动数据发送等功能[
数据标注的准确性决定了人工智能算法的有效性, 因此, 数据标注不仅需要有系统的方法、技术和工具, 还需要有质量保障体系.本文概述了数据标注的发展, 指明了数据标注目前存在的标注效率低下、标注结果的质量层次不齐、数据标注缺乏安全性以及标注任务还不够细化等问题.此外, 本文还分析了数据标注未来的研究方向:(1)半自动化数据标注工具的研发; (2)数据标注质量的改善; (3)数据标注中的安全性与隐私保护; 以及(4)细化数据标注任务.
人工智能的终极目标是让“人工智能自主学习, 自主标记, 而不依赖人类对人工智能的标注与训练”[
Xuan Z. Hidden "foxconn" labor-intensive industry in artificial intelligence industry. Internet Weekly, 2018, 675(21):28-29(in Chinese).
轩中.人工智能行业中隐藏的"富士康"式劳动密集型产业.互联网周刊, 2018, 675(21):28-29.
Bengio Y. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2009, 2(1):1-127.
Corea F. How AI is changing the insurance landscape. In: Applied Artificial Intelligence: Where AI Can Be Used in Business. 2019. 5-10.
Alonso O. Challenges with label quality for supervised learning. Journal of Data and Information Quality, 2015, 6(1):1-3.
Brendel W, Rauber J, Bethge M, et al. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In: Proc. of the Int'l Conf. on Learning Representations. 2018. 1-12.
http://image-net.org/about-stats]]>
Kornblith S, Shlens J, Le QV, et al. Do better ImageNet models transfer better? In: Proc. of the Computer Vision and Pattern Recognition. 2019. 2661-2671.
Zhu J, Kaplan R, Johnson J, et al. HiDDeN: Hiding data with deep networks. In: Proc. of the European Conf. on Computer Vision. 2018. 682-697.
Wang C, Blei DM, Li F, et al. Simultaneous image classification and annotation. In: Proc. of the Computer Vision and Pattern Recognition. 2009. 1903-1910.
Bearman A, Russakovsky O, Ferrari V, et al. What's the point: Semantic segmentation with point supervision. In: Proc. of the European Conf. on Computer Vision. 2016. 549-565.
Debattista J, Auer S, Lange C, et al. Luzzu-A methodology and framework for linked data quality assessment. Journal of Data and Information Quality, 2016, 8(1):1-32.
Reitan EH, Saib SH. Computer graphics in an automatic aircraft landing system. In: Proc. of the National Computer Conf. 1976. 689-700.
Kodali RK, Jain V, Bose S, et al. IoT based smart security and home automation system. In: Proc. of the Int'l Conf. on Computing Communication and Automation. 2016. 1286-1289.
Syed L, Jabeen S, Manimala S, et al. Data science algorithms and techniques for smart healthcare using IoT and big data analytics: Towards smarter algorithms. In: Proc. of the Smart Techniques for a Smarter Planet. 2019. 211-241.
https://ieeexplore.ieee.org/document/7996801]]>
https://appen.com/blog/how-ai-driving-innovation-ecommerce-retail/]]>
Zhang Y, Lu Y. Research on the problems and strategies of rural E-commerce in the age of internet + agriculture. In: Proc. of the Semantics Knowledge and Grid. 2018. 257-260.
Christen P, Gayler RW, Tran K, et al. Automatic discovery of abnormal values in large textual databases. Journal of Data and Information Quality, 2016, 7(1):1-31.
Sivarajah U, Kamal MM, Irani Z, et al. Critical analysis of big data challenges and analytical methods. Journal of Business Research, 2017, 70:263-286.
Guo XM, Ma LL, Su K, et al. Research on automatic evaluation method of metadata quality of data repositories based on sematic annotation. Computer Applications and Software, 2018, 35(6):29-33, 88(in Chinese with English abstract).
郭晓明, 马良荔, 苏凯, 等.基于语义标注的数据资源库元数据质量自动评估方法研究.计算机应用与软件, 2018, 35(6):29-33, 88.
Khashabi D, Khot T, Sabharwal A, Clark P, Etzioni O, Roth D. Question answering via integer programming over semi-structured knowledge. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence. 2016. 1145-1152.
Ling H, Gao J, Kar A, et al. Fast interactive object annotation with Curve-GCN. Computer Vision and Pattern Recognition, 2019, 1:5257-5266.
Barbosa L, Carvalho BW, Zadrozny B, et al. Pooling hybrid representations for Web structured data annotation. arXiv: 1610. 00493, 2016.
Jing K. Review of evaluation of social tagging system. Jiangsu Science & Technology Information, 2018, 35(11):8-10(in Chinese with English abstract).
敬凯.社会化标注系统评价研究述评.江苏科技信息, 2018, 35(11):8-10.
Zhang L, Wang T, Liu Y, et al. A semi-structured information semantic annotation method for Web pages. Neural Computing and Applications, 2019, (5):1-11.
Cai L, Liang Y, Zhu YY, et al. History and development tendency of data quality. Computer Science, 2018, 45(4):1-10(in Chinese with English abstract).
蔡莉, 梁宇, 朱扬勇, 等.数据质量的历史沿革和发展趋势.计算机科学, 2018, 45(4):1-10.
Egorow O, Lotz A, Siegert I, et al. Accelerating manual annotation of filled pauses by automatic pre-selection. In: Proc. of the Int'l Conf. on Companion Technology. 2018. 263-286.
Zheng G, Mukherjee S, Dong XL, et al. OpenTag: Open attribute value extraction from product profiles. In: Proc. of the Knowledge Discovery and Data Mining. 2018. 1049-1058.
Barthelmess P, Kaiser EC, Huang X, et al. Collaborative multimodal photo annotation over digital paper. In: Proc. of the Int'l Conf. on Multimodal Interfaces. 2006. 4-11.
http://www.jos.org.cn/1000-98255047.htm[doi:10.13328/j.cnki.jos.005047]]]>
http://www.jos.org.cn/1000-98255047.htm[doi:10.13328/j.cnki.jos.005047]]]>
Vielhauer C, Schott M, Kratzer C, et al. Nested object watermarking:Transparency and capacity evaluation. Electronic Imaging, 2008, 6819:1-18.
Luo L, Yang Z, Yang P, et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition. Bioinformatics, 2018, 34(8):1381-1388.
Pearson J, Robinson S, Jones M, et al. PaperChains: Dynamic sketch+voice annotations. In: Proc. of the Conf. on Computer Supported Cooperative Work. 2015. 383-392.
Ceolin D, Groth PT, Maccatrozzo V, et al. Combining user reputation and provenance analysis for trust assessment. Journal of Data and Information Quality, 2016, 7(1):1-28.
Levinson J, Askeland J, Becker J, et al. Towards fully autonomous driving: Systems and algorithms. In: Proc. of the 2011 IEEE Intelligent Vehicles Symp. 2011. 163-168.
Hillier LW, Graves T, Fulton RS, et al. Generation and annotation of the DNA sequences of human chromosomes 2 and 4. Nature, 2005, 434(7034):724-731.
Gambhir M, Gupta V. Recent automatic text summarization techniques:A survey. Artificial Intelligence Review, 2017, 47(1):1-66.
Liu C, Su T, Yu L, et al. Self-correction method for automatic data annotation. In: Proc. of the Asian Conf. on Pattern Recognition. 2017. 911-916.
Uijlings JR, Konyushkova K, Lampert CH, et al. Learning intelligent dialogs for bounding box annotation. In: Proc. of the Computer Vision and Pattern Recognition. 2018. 9175-9184.
Wang C. Image annotation refinement using random walk with restarts. In: Proc. of the ACM Multimedia. 2016. 647-650.
Parmar BR, Jarrett TR, Burgon NS, et al. Comparison of left atrial area marked ablated in electroanatomical maps with scar in MRI. Journal of Cardiovascular Electrophysiology, 2014, 25(5):457-463.
Perrott DR, Marlborough K. Minimum audible movement angle:Marking the end points of the path traveled by a moving sound source. The Journal of the Acoustical Society of America, 1989, 85(4):1773-1775.
Best-Rowden L, Jain AK. Longitudinal study of automatic face recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017, 40(1):148-162.
Müller RH, Clegg DL. Automatic paper chromatography. Annals of the New York Academy of Sciences, 1949, 53(5):1108-1118.
Sikos LF. RDF-powered semantic video annotation tools with concept mapping to linked data for next-generation video indexing:A comprehensive review. Multimedia Tools and Applications, 2017, 76(12):14437-14460.
Willis CG, Law E, Williams AC, et al. CrowdCurio:An online crowdsourcing platform to facilitate climate change studies using herbarium specimens. New Phytologist, 2017, 215(1):479-488.
Dolmaya JM. Analyzing the crowdsourcing model and its impact on public perceptions of translation. Translator, 2012, 18(2):167-191.
Aktas A, Alexa C, Andreev V, et al. Measurement of inclusive jet production in deep-inelastic scattering at high and determination of the strong coupling. Physics Letters B, 2007, 653:134-144.
Chen K, Chang C, Wu C, et al. Quadrant of euphoria:A crowdsourcing platform for QoE assessment. IEEE Network, 2010, 24(2):28-35.
Kohler T. Crowdsourcing-based business models:How to create and capture value. California Management Review, 2015, 57(4):63-84.
Chalam KV, Jain P, Shah VA, et al. Evaluation of Web-based annotation of ophthalmic images for multicentric clinical trials. Indian Journal of Ophthalmology, 2006, 54(2):479-488.
Tang J, Li H, Qi G, et al. Image annotation by graph-based inference with integrated multiple/single instance representations. IEEE Trans. on Multimedia, 2010, 12(2):131-141.
Zhou H, Gao B, Wu J, et al. Adaptive feeding:Achieving fast and accurate detections by adaptively combining object detectors. Computer Vision and Pattern Recognition, 2017, 1:3523-3533.
Jongejan B. Automatic annotation of head velocity and acceleration in Anvil. In: Proc. of the Language Resources and Evaluation. 2012. 201-208.
Tulasi RL, Rao MS, Ankita K, et al. Ontology-based automatic annotation: An approach for efficient retrieval of semantic results of Web documents. In: Proc. of the 1st Int'l Conf. on Computational Intelligence and Informatics. 2017. 57-63.
Xie C, Mao X, Huang J, et al. KOBAS 2.0: A Web server for annotation and identification of enriched pathways and diseases. In: Proc. of the Nucleic Acids Research. 2011. 316-322.
Liu P, Zhang Y. Data Annotation Engineering. Beijing:Tsinghua University Press, 2019(in Chinese).
刘鹏, 张燕.数据标注工程.北京:清华大学出版社, 2019.
Berriel RF, Rossi FS, De Souza AF, et al. Automatic large-scale data acquisition via crowdsourcing for crosswalk classification: A deep learning approach. In: Proc. of the Computers and Graphics. 2017. 32-42.
Boselli R, Cesarini M, Mercorio F, et al. An AI planning system for data cleaning. In: Proc. of the European Conf. on Machine Learning. 2017. 349-353.
Li R, Lin Z, Lin HL, et al. Text emotion analysis:A survey. Journal of Computer Research and Development, 2018, 55(1):30-52(in Chinese with English abstract).
李然, 林政, 林海伦, 等.文本情绪分析综述.计算机研究与发展, 2018, 55(1):30-52.
Lei LY. Research on fine-grained sentiment analysis base on Chinese[MS. Thesis]. Hengyang: University of South China, 2014(in Chinese with English abstract).
雷龙艳.中文微博细粒度情绪识别研究[硕士学位论文].衡阳: 南华大学, 2014.
Cai L, Pan J, Wei BL, et al. Visualization analysis for spatio-temporal pattern of hotspots and sentiment change towards microblog check-in data. Miniature Microcomputer System, 2018, 39(9):1889-1894(in Chinese with English abstract).
蔡莉, 潘俊, 魏宝乐, 等.签到数据的热点区域时空模式与情感变化的可视化分析.小型微型计算机系统, 2018, 39(9):1889-1894.
Cao W. Research of the algorithm of region-value annotation in crowdsouring[MS. Thesis]. Nanjing: Nanjing University of Finance and Economics, 2017(in Chinese with English abstract).
曹伟.众包域值标注算法研究[硕士学位论文].南京: 南京财经大学, 2017.
Gennari R, Tonelli S, Vittorini P, et al. Challenges in quality of temporal data-Starting with gold standards. Journal of Data and Information Quality, 2015, 6(2):2-3.
Xu TZ, Xu ZY. Combination method of Fisher theory and the majority of voting for data fusion. Science and Technology Information, 2009, 27:445, 488(in Chinese with English abstract).
徐太征, 徐中宇.Fisher理论和多数投票法相结合的数据融合算法.科技信息, 2009, 27:445, 488.
Wang Y, Rao Y, Zhan X, et al. Sentiment and emotion classification over noisy labels. In: Proc. of the Knowledge Based Systems. 2016. 207-216.
Snow R, O'Connor B, Jurafsky D, et al. Cheap and fast-But is it good? Evaluating non-expert annotations for natural language tasks. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2008. 254-263.
Sorokin A, Forsyth D. Utility data annotation with Amazon Mechanical Turk. In: Proc. of the 2008 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition Workshop on Internet Vision, 2008. 1-8.
Gupta R. Modeling multiple time series annotations as noisy distortions of the ground truth:An expectation-Maximization approach. IEEE Trans. on Affective Computing, 2018, 9(1):76-89.
Zeng J, Liu Z, Cao X, et al. Fast online EM for big topic modeling. IEEE Trans. on Knowledge and Data Engineering, 2016, 28(3):675-688.
Wang W, Zhou Z. Crowdsourcing label quality:A theoretical analysis. Science in China Series F:Information Sciences, 2015, 58(11):1-12.
Dawid AP. Skene AM. Maximum likelihood estimation of observer error-rates using the EM algorithm. Journal of the Royal Statistical Society, 1979, 28(1):20-28.
Raykar VC, Yu S, Zhao LH, et al. Supervised learning from multiple experts: Whom to trust when everyone lies a bit. In: Proc. of the 26th Int'l Conf. on Machine Learning. Quebec, 2009. 889-896.
Raykar VC, Yu S, Zhao LH, et al. Learning from crowds. Journal of Machine Learning Research, 2010, 11(2):1297-1322.
Yu H, Chen Y. Clustering ensemble method using three-way decisions based on spark. Journal of Zhengzhou University (Natura Science Edition), 2018, 50(1):23-29(in Chinese with English abstract).
于洪, 陈云.基于Spark的3支聚类集成方法.郑州大学学报(理学版), 2018, 50(1):20-26.
Vogel T, Heise A, Draisbach U, et al. Reach for gold:An annealing standard to evaluate duplicate detection results. Journal of Data and Information Quality, 2014, 5(1):1-25.
Papineni K, Roukos S, Ward T, et al. Bleu: A method for automatic evaluation of machine translation. In: Proc. of the Meeting of the Association for Computational Linguistics. 2002. 311-318.
Lavie A, Agarwal A. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments. In: Proc. of the Workshop on Statistical Machine Translation. 2007. 228-231.
Jiang YH, Ding L, Li JE, et al. Abstractive summarization model considering hybrid lexical features. Journal of Hebei University of Science and Technology, 2019, 40(2):152-158(in Chinese with English abstract).
江跃华, 丁磊, 李娇娥, 等.融合词汇特征的生成式摘要模型.河北科技大学学报, 2019, 40(2):152-158.
Jin F, Huang M, Lu Z, et al. Towards automatic generation of gene summary. In: Proc. of the North American Chapter of the Association for Computational Linguistics. 2009. 97-105.
Plaza L. A semantic graph-based approach to biomedical summarization. Artificial Intelligence in Medicine, 2011, 53(1):1-14.
Campr M, Ježek K. Comparing semantic models for evaluating automatic document summarization. In: Proc. of the Text Speech and Dialogue. 2015. 252-260.
Kang SZ, Hong MA, Huang RY. An opinion and MRW based sentiment summarization framework. Acta Electronica Sinica, 2017, 45(12):3005-3011.
Lin C. ROUGE: A package for automatic evaluation of summaries. In: Proc. of the Meeting of the Association for Computational Linguistics. 2004. 74-81.
Vedantam R, Zitnick CL, Parikh D, et al. CIDEr: Consensus-based image description evaluation. In: Proc. of the Computer Vision and Pattern Recognition. 2015. 4566-4575.
Chen T, Liao Y, Chuang C, et al. Show, adapt and tell: Adversarial training of cross-domain image captioner. arXiv: 1705.00930, 2017.
Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic propositional image caption evaluation. In: Proc. of the European Conf. on Computer Vision. 2016. 382-398.
Cui Y, Yang G, Veit A, et al. Learning to evaluate image captioning. In: Proc. of the Computer Vision and Pattern Recognition. 2018. 5804-5812.
Demartini G, Difallah DE, Cudremauroux P. ZenCrowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking. In: Proc. of the Int'l Conf. on World Wide Web. ACM, 2012. 469-478.
Zhang J, Sheng VS, Wu J, et al. Multi-class ground truth inference in crowdsourcing with clustering. IEEE Trans. on Knowledge and Data Engineering, 2016, 28(4):1080-1085.
Ruckhaus E, Vidal M, Castillo S, et al. Analyzing linked data quality with LiQuate. In: Proc. of the European Semantic Web Conf. 2014. 488-493.
Ruiz N, Federico M. Phonetically-oriented word error alignment for speech recognition error analysis in speech translation. In: Proc. of the Automatic Speech Recognition and Understanding. 2016. 296-302.
Augello A, Cuzzocrea A, Pilato G, et al. An innovative similarity measure for sentence plagiarism detection. In: Proc. of the Int'l Conf. on Computational Science and Its Applications. 2016. 552-566.
Spiccia C, Augello A, Pilato G, et al. Semantic word error rate for sentence similarity. In: Proc. of the IEEE Int'l Conf. on Semantic Computing. 2016. 266-269.
Escudero JP, Novoa J, Mahu R, et al. An improved DNN-based spectral feature mapping that removes noise and reverberation for robust automatic speech recognition. arXiv: 1803.09016, 2018.
Andriluka M, Uijlings JR, Ferrari V, et al. Fluid annotation: A human-machine collaboration interface for full image annotation. In: Proc. of the ACM Multimedia. 2018. 1957-1966.
Yang B, Kaul M, Jensen CS. Using incomplete information for complete weight annotation of road networks. IEEE Trans. on Knowledge and Data Engineering, 2014, 26(5):1267-1279.
Marcheggiani D, Sebastiani F. On the effects of low-quality training data on information extraction from clinical reports. Journal of Data and Information Quality, 2017, 9(1):1-25.
Maccartney B, Galley M, Manning CD, et al. A phrase-based alignment model for natural language inference. In: Proc. of the Empirical Methods in Natural Language Processing. 2008. 802-811.
Gururangan S, Swayamdipta S, Levy O, et al. Annotation artifacts in natural language inference data. In: Proc. of the NAACLHLT. 2018. 107-112.
Wang Z, Xu Y, Suo B, et al. A provenance storage method based on parallel database. In: Proc. of the Int'l Conf. on Information Science and Control Engineering. 2015. 63-66.
Liu C, Su T, Yu L, et al. Self-correction method for automatic data annotation. In: Proc. of the Asian Conf. on Pattern Recognition. 2017. 911-916.
Skala W, Wohlschlager T, Senn S, et al. MoFi:A software tool for annotating glycoprotein mass spectra by integrating hybrid data from the intact protein and glycopeptide level. Analytical Chemistry, 2018, 90(9):5728-5736.
Zhu J, Zhang H, Guo J, et al. Data distributions automatic identification based on SOM and support vector machines. In: Proc. of the Int'l Conf. on Machine Learning and Cybernetics. 2002. 340-344.
Wang J. A review of China's statistical data quality research. In: Proc. of the 20162nd Fortune Today Forum. 2016. 393-394(in Chinese with English abstract).
王晶.中国统计数据质量研究综述.见: 2016年第2届今日财富论坛.2016.393-394.
Yang Y, He H, Wang D, et al. A framework to data delivery security for big data annotation delivery system. In: Proc. of the Mobile Adhoc and Sensor Systems. 2018. 532-536.
Verhulst SG. Where and when AI and CI meet:Exploring the intersection of artificial and collective intelligence towards the goal of innovating how we govern. AI and Society, 2018, 33(2):293-297.
Ratner A, Varma P, Hancock B, et al. Weak supervision: A new programming paradigm for machine learning. In: Proc. of the Stanford AI Lab Blog. 2019.
Shetty R, Fritz M, Schiele B. Adversarial scene editing: Automatic object removal from weak supervision. arXiv: 1806.01911, 2018.
Zhou Y, Nelakurthi AR, He J. Unlearn what you have learned: Adaptive crowd teaching with exponentially decayed memory learners. arXiv: 1804.06481, 2018.