主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
高菲,宋韶旭,王建民.多区间速度约束下的时序数据清洗方法.软件学报,2021,32(3):7-0
多区间速度约束下的时序数据清洗方法
Time Series Data Cleaning under Multi-Speed Constraints
投稿时间:2020-07-19  修订日期:2020-11-06
DOI:10.13328/j.cnki.jos.006176
中文关键词:  时间序列  多区间速度约束  数据清洗  动态规划
英文关键词:time series  multi-speed constraints  data cleaning  dynamic programming
基金项目:国家重点研发计划项目(2019YFB1705301);国家自然科学基金项目(62072265,61572272,71690231)
作者单位E-mail
高菲 清华大学 软件学院, 北京 100084  
宋韶旭 清华大学 软件学院, 北京 100084
大数据系统软件国家工程实验室, 北京 100084
北京信息科学与技术国家研究中心, 北京 100084 
sxsong@tsinghua.edu.cn 
王建民 清华大学 软件学院, 北京 100084
大数据系统软件国家工程实验室, 北京 100084
北京信息科学与技术国家研究中心, 北京 100084 
 
摘要点击次数: 126
全文下载次数: 87
中文摘要:
      为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前需要对数据进行相应的数据清洗修复.现存的平滑修复方法会导致大量原本正确的数据点过度修复为异常值,而基于约束的顺序依赖方法以及SCREEN方法等也因为约束条件较为单薄而无法对复杂的数据情况进行精确修复.本文基于最小修复原则进一步提出了多区间速度约束下的时间序列数据修复方法,并采用动态规划方法来求解最优修复路径.具体来说,本文提出了多个速度区间来对时序数据进行约束,并根据多速度约束对各数据点形成一系列修复候选点,进而基于动态规划方法从中选取最优修复解.为验证上述方法的可行性和有效性,本文采用一个人工数据集,两个真实数据集以及一个带有真实错误的数据集在不同的异常率及数据量下对上述方法进行实验.由实验结果可知,相较于其他现存的修复方法,本文方法在修复结果及时间开销方面均有着较好的表现.进一步,本文对多个数据集通过聚类及分类精确率的验证来表明数据质量问题对后续数据分析及人工智能的影响至关重要,本方法可以提升数据分析及人工智能结果的质量.
英文摘要:
      As the basis of data management and analysis, data quality issues have increasingly become a research hotspot in related fields. Further more, data quality can optimize and promote big data and artificial intelligence technology. Generally, physical failures or technical defects in data collection and recorder will cause certain anomalies in collected data. These anomalies will have a significant impact on subsequent data analysis and artificial intelligence processes, thus data should be processed and cleaned accordingly before application. Existing repairing methods based on smoothing will cause a large number of originally correct data points being over-repaired into wrong values. And the constraint-based methods such as Sequential Dependency and SCREEN cannot accurately repair data under complex conditions since the constraints are relatively simple. We further propose a time series data repairing method under multi-speed constraints based on the principle of minimum repairing. Then we use dynamic programming to solve the problem of data anomalies with optimal repairing. Specifically, we propose multiple speed intervals to constrain time series data, and form a series of repairing candidate points for each data point according to the speed constraints. Then we select the optimal repair solution from these candidates based on the dynamic programming method. In order to verify the feasibility and effectiveness of this method, we use an artificial data set, two real data sets and another real data set with real anomalies for experiments under different rates of anomalies and data sizes. It can be seen from the experimental results that, compared with the existing methods based on smoothing or constraints, our method has better performance in terms of RMS error and time cost. In addition, the verification of clustering and classification accuracy with several data sets shows the impact of data quality on subsequent data analysis and artificial intelligence. Our method can improve the quality of data analysis and artificial intelligence results.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利