基于EM算法数据单变量缺失处理方法研究
作者:黄铉
来源:《科技传播》2015年第20期
摘 要 数据分析方法大都针对完整数据,而实际上由于一些原因,观测数据常存在缺失。本文采用EM算法对正态分布下的随机缺失数据的参数进行估计。实验结果表明EM算法对正态分布下的单变量缺失数据有效果,但缺失数据比例过大时该方法处理欠佳,对大比例变量缺失的情况有待研究。
关键词 EM;缺失数据;正态分布
中图分类号 TP39 文献标识码 A 文章编号 1674-6708(2015)149-0153-02
近年来数据库及计算机技术的发展推动了数据挖掘技术广泛地应用于各个领域。目前,对数据进行处理的各种数据挖掘方法几乎都是以假设数据完整为前提条件。然而实际情况是数据库里的数据往往不完整,数据缺失的情况时常发生。引起数据缺失的原因很多,比如:传感器故障、数据传输中断、监测方式改变又或者人为因素等。如果直接对包含缺失数据的数据集进行分析,结果会产生偏差会直接影响到后续的决策,因此对数据进行分析前对缺失数据的处理尤为重要。
目前国内外学者针对缺失数据的研究很多,也取得了一定的成果。其中,Rubin(1976)将缺失机制分为三类:完全随机缺失(MCAR)是指变量出现缺失值的可能性与模型中其他变量无关,与该变量自身也无关,完全随机缺失机制中缺失数据的分布与完整数据分布一致。随机缺失(MAR)是指变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关。对于随机缺失机制,缺失数据可以通过完整数据来估计。非随机缺失(MNAR)是指变量的缺失值仅与自身相关。单变量缺失是指数据集中只有某个变量出现信息不完整的情况,此时对缺失值处理首要考虑数据缺失机制,不同的缺失机制有不同的处理方法。比如成列删除或者成对删除的方法,如果数据为MCAR,减少的样本其实是原样本的一个随机样本,因此删除后对剩下的数据进行处理是无偏差的;但如果数据为MAR,那么这种处理方法则会产生有偏差的估计值。 本文主要研究数据单变量随机缺失的情况。
实验结果表明采用EM算法对不完整的数据进行处理可以用已知数据的条件期望代替缺失数据。通过比较可见EM方法对缺失数据处理比不考虑缺失数据直接进行计算精度高,因而这种方法处理缺失数据是有效果的,但通过不同缺失值得情况对比分析,对于正态分布数据,当缺失数据比例低于30%时EM方法处理效果良好,当缺失数据比例不断增大缺失数据较多的时候,对缺失数据参数估计效果欠佳。EM方法可以达到收敛到后验密度函数的稳定点,但不保证结果是收敛到极大值点;另外初始值的选择对结果有一定影响,不同的初始值得到不同的估计结果,因此选择不同的初始值进行迭代可以减轻初值对结果的影响。如果增大数据个数EM
龙源期刊网 http://www.qikan.com.cn
算法估算精度会提高,同时也会造成计算复杂度提高,需要更多次迭代才能收敛,因此这种方法对大数据处理不适用。 参考文献
[1]Paul D. Allison 缺失数据.格致出版社.
[2]庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004,19(5):29-32. [3]胡玄子.数据处理中缺失数据填充方法的研究[J].湖北工业大学学报,2013,28(5):82-84.
[4]吕王勇.基于EM算法的对数正态分布参数估计[J].理论新探,2007(6):21-23. [5]陈晓林,汪四水.一类混合正态分布参数估计的EM算法和数据扩张[J].苏州大学学报,2007,23(3).
因篇幅问题不能全部显示,请点此查看更多更全内容