Computer Engineering andApplications计算机工程与应用 一种不完备决策表的属性约简算法 王 帅,徐章艳,曾艳燕 WANG Shuai,XU Zhangyan,ZENG Yanyan 广西师范大学计算机科学与信息工程学院,广西桂林54 1 004 School of Computer Science and Information Engineering,Guangxi Normal University,Guilin,Guangxi 54 1 004,China WANG Shuai,XU Zhangyan,ZENG Yanyan.One attribute reduction algorithm for incomplete decision ta・ ble.Computer Engineering and Applications,2012,48(14):130-133. Abstract:For an incomplete decision table,the definition of discernibiliy tobject pair set and the corresponding def- inition of attribute reduction are introduced。It is proved that the definition of attribute reduction is equivalent to the one based on generalized decision—making.Under this condition,an algorithm based on the definition of discernibili— y tobject pair set is proposed.Through discernibility degree K(c )and complete degree P(cf)as heuristic informa— tion,combining with quick sorting,the time complexiy tof he tnew algorithm is cut down to o ̄cll ).Compared with the traditional algoritm Dq hc )and Dq c ),the time complexiy its effectively reduced.An example is used to illustrate the advantage and convenience of the new algoritm.h Key words:rough set;incomplete decision table;discernibility object pair set;attribute reduction 摘要:对于不完备决策表,给出了区分对象对集和基于区分对象对集约简的定义,并证明出基于区分对象对 集的属性约简定义等价于基于广义决策的属性约简定义。在此基础上,提出一种基于区分对象对集的新算 法。新算法以区分度K(c )和完备度P(c )为启发信息,结合基数排序,使得算法最终时间复杂度为o ̄cIIU1 ), 相比传统的算法时间复杂度oGcI )和o(l]cl 110 ),时间复杂度有效降低。通过实例说明了新算法的_rE确性 和有效性。 关键词:粗糙集;不完备决策表;区分对象对集;属性约简 文章编号:1002.8331(2012)14—0130.04 文献标识码:A 中图分类号:TP18 1概述 粗糙集理论”堤:波兰科学家Pawlak于1 982提出 的一种新型数学工具。目前在机器学习、过程控制、 模式识别与数据挖掘等领域都取得成功的应用 。 简,文献[7]提出一种基于知识粒度的不完备信息系 统的属性约简,这些算法的时间复杂度均为 odcI。lUl ),文献[8]提出基于属性重要度的属性约简 算法,文献[9]提出一种基于同可区分度的属性约简 算法,文献【1O]提出一种基于差别矩阵的属性约简算 法,这些算法时间复杂度均为o ̄JcI IOl )。 本文在相容关系的模型下,提出基于区分对象 经典的粗糙集理论基于完备信息系统,而在现实生 活中,信息的不完备现象广泛存在。目前,已有专家 学者对经典粗糙集理论在不完备信息系统下进行扩 充,例如文献[3]提出的容差关系,文献[4]等人提出的 非对称相似关系,文献[5]提出的限制容差关系等,文 献[6]提出一种基于信息量的不完备信息系统属性约 对集的属性约简定义,并证明其等价于基于广义决 策的属性约简。然后给出一种启发式的属性约简算 法,新算法以区分度K(c )和完备度P(c )作为启发信 基金项目:国家自然科学基金(No.60963008);广西自然科学基金(No.2011GxNsFAol8163);广西研究生教育创新计划项目。 作者简介:王帅(1986一),男,硕士研究生,主要研究方向为粗糙集理论及应用、数据挖掘;徐章艳(1972一),男,博士,教授,主要研 究方向为粗糙集、模糊集、数据挖掘;曾艳燕(1987一),女,硕士研究生,主要研究方向为粗糙集理论及应用、数据挖掘。 E-mail:happywang86@1 26.corn 收稿日期:2011-09.28 修回日期:2011-12.22 DOI:10.3778/j.issn.1002—8331.2012.14.027 王帅,徐章艳,曾艳燕:一种不完备决策表的属性约简算法 息,结合基数排序,算法的时间复杂度为OGCll ̄ )。 最后通过实例说明新算法的正确性和有效性。 2基本概念 定义1五元组S= ,C,D,V,f)是一个决策 表,其中【,= ,X 一,X }表示对象的非空有限集合, 称为论域;C=(c ,C 一,C )表示条件属性的非空有 限集;D表示决策属性的非空有限集且cnD=(2); =a∈CUD U , 是属性口的值域;f.Ux cuD 是一个信息函数,它对一个对象的每一个属性赋予 一个信息值,即Va∈CUD,X∈U,有.厂 ,a)∈ 。 在五元组中,若至少有一个属性a∈C,使得 包含空值(用 表示),即至少有一个屙陛a∈C,存在 —个X∈U,使得厂 ,a)= ,则称之为不完备决策表。 定义2不完备决策表 =(【,,C,D,V,f)中,令 B C,定义 上的容差关系 : ( ={( , ∈Ux Vb∈B,f ,b) ,b)vf(x,6)= vfO,,6)= )。 ( ) 表示在 下与X具有容差关系的全体对象集为: { ∈ ( , ∈丁( )}。 定义3t 在不完备决策表 =(己,,C,D,V,f)中, 令B C,对任意X∈U,定义不完备决策表中的广 义决策函数a )={厂 , b,∈ ( }。 定义4对不完备决策表 = ,C,D,V,. , Vb∈ C,若 ( = -{61( ),则称b在B中是可 省的(不必要的);否则称b在 中是不可省的(必要 的)。对VB C,若其任一元素相对于B都是必要 的,则称 是独立的。 定义5 在不完备决策表.Sf= ,C,D,V,f)中, 令 c,aB )=ac( )且Vb∈B= aB—f ( )≠a ( ), 则称 为不完备决策表的一个属性约简(基于广义 决策的属性约简定义)。 定义6在不完备决策表S= ,C,D,V,f)中, 对V c,定义:RB={<t, ,> xj∈U,3b∈B有 f(xf, ≠厂( ,,b)Af(x ,b)≠ 人-厂(xj,6)≠ ,且厂( ,, Oc( )},称< ,xj>为区分对象对,称 为由条件属 性集 得到的区分对象对集。 定义7在不完备决策表 : ,C,D,V,. 中, V c若R =尺c,且Vb∈B, 口㈨≠ c,贝0称 是不完备决策表的一个属性约简(基于区分对象对 集的属性约简定义)。 3两种属性约简的等价性分析 引理在不完备决策表 = ,C,D,V,f)中, Vx∈U,B C。贝0有 ( ) ( 。 证明由定义知命题成立。 定理1在不完备决策表 = ,C,D,V,f)中, VB C若R口= c,则有 ( =ac( )。 证明假设有 ( ≠a ( ,则至少存在一个决 策属性d,使得d∈a ( )^d仨ac( ),由广义决策定 义可知,必存在一个对象xj,使得-厂( d)∈a ( )且 ( ,, ) Oc( ),古炙 ( )≠ ( ),贝0—— 芭3a∈C—B, 使得f(x ,口)≠ ^ ( f, )≠ ^-厂( f, ) 厂( f, )。又因 -厂( ,, ) Oc j),故< , ,>∈ c,另一方面,由于 厂( ,, ∈ ( f),故<誓, ,> R口,这与R日= c相矛 盾,故假设不成立,从而有a ( =a ( 成立。 定理2在不完备决策表 =( ,C,D,V,f)中, VB C,若 ( =ac( ,则有RB: c。 证明假设R ≠ c,由引理知: ( ) ), 则至少存在< f,x,>∈Rf但< ,X > R8。因为 < , ,>∈R ,则根据区分对象对集的定义知: l厂 ,d)硭ac( f)N.3 ∈C勰l厂 ,口)≠木^ ( ,,日)≠木^ f(x , ( ,, ),从而有 ( )≠ ( ,)。又因为 < , ,> R ,厂 ,, ) ac( 则必定不存在b∈B,使 得f(x ,b)≠ vf%,6)≠ vf(xf,b)≠厂 ,,6),即 ,∈ ( f)。故有 ( ,, )∈ ( ),从而得a口( f)≠ac( f), 这与a ( )= ( )相矛盾,故假设不成立,从而若 ( =ac( ),贝 R口= c。 定理3基于区分对象对集的属性约简定义与基 于广义决策屙『生约简的定义等价。 证明由定理1和定理2可得。 注定理3说明基于区分对象对集的属性约简定 义与基于广义决策屙l生约简定义是等价的,这样就可 以将基于广义决策屙f生约简建立在区分对象对集上。 4基于区分对象对集的属性约简算法 4.1算法思想 定义8在不完备决策表 = ,C,D,V,f)中,对 Vc ∈C,E(ci)={yb'∈U,f ,Cf)≠ ),P(cf)=IE(cf)I, x(c )=I{ylVx, ∈E(c ),f(x,ci) ( ,c )}I;其中I I表 示集合 的元素数目。对Vc ∈C,称P(c )为条件 属性C 的完备度,X(c )为条件属性C 的区分度。 由定义可知:K(c,)越大,对应的条件属性所区 Computer Engineering andApplications计算机工程与应用 分的对象越多,区分能力越强。P(c )表示条件属性 若有多个X(c )相等,则对相等的K(c )比较其对应 X(c )+尸(c )大小,对应的属性序列为c c …,c ; 令Red={cj1);Rc=(2j。 步骤3用基数排序得到U/0 ( )={a , :,…,m}, 其中任意 ={ 1, ,,…, ,}。 步骤4 for(inti:1;f m;i++) for(intj=i+1; m; ++) C 下,取值确定的对象个数。当X(c )相同时,P(c ) 越大,代表当前属性下,对象条件属性取值确定的个 数越多,完备程度越高,越符合现实意义。 本文以K(c )和P(c )作为启发信息进行属性约 简。首先依据K(c )大小,对条件属性进行排序;其 次当出现K(c )相同的情况时,再对相同的K(c ),依 据P(c )对条件属性进行排序。 4.2算法描述 算法1求不完备决策表的容差类 )和广义 决策函数 ( ) 输入不完备决策表 = ,C,D,V,f) 输出容差类 ( )和广义决策函数a。( f),_∈U (f=1,2,…, ) 骤1 ( ,):{ },Oc( )={厂( , )}。 步骤2 for(i=1;f ,z;f++) for(j=1;/ ; ++) if ,X )=true) ( f)=Tc( f)U{ ,) 8c( )=c3c )U{f(xj, )} 步骤3输出 ( )和 ( )。 算法2求启发信息K(c ),P(c ) 输入不完备决策表 =( ,C,D,V,f) 输出启发信息K(c P(c ) 步骤1令B(c )=(2j,K(c )=0,P(cf)=0。 步骤2 for(int i=1;f r;i++) for(intj=1; ; ++) if(f(xj,c )≠ ) {P(cf)++; if(f(xj,c )诺 (cf)) B(c )= (cj)U{f(xj,Ci)); K(c,)++;} 步骤3输出启发信息K(c P(c )。 算法3基于区分对象对集的属性约简算法 输入不完备决策表 = C,D, ,己厂={ , X2,…,X ),C={c1,C2,…,C } 输出不完备决策表的属性约简Red 步骤1由算法1得到容差类T(xf),广义决策函 数 ( )(f=1,2,…, 。 步骤2由算法2得到启发信息K(c ),P(c ),先按照 K(c )从大到小排序得到:K(cf)1≥ (c … (c ),; if(f(xf,Oil)≠厂( ,,cn)Af(xf,Cil)≠ A / ,,Cf1)≠爿cAU( ,, Oc( )) Rc=一 {< f, ,>} 步骤5 for(int :2; ; ++) {if(R = ,跳转至步骤6; else Red=RedU{c 2}; 对 f中任一区分对象对< ^,X,>,若f(x^,elk)≠ f(xf,C )八f(x^,C*)≠女ix,f(xf,Cik)≠ ,贝0 Rc=Rc一 {< ,Xf>}。 步骤6输出属性约简Red。 4.3算法分析 4.3.1算法正确性分析 算法3的第3步求的区分对象对集为 c1。。,,并 非R 。因为 中的对象对在条件属性C 下只有 两种情况:(1)在条件属性C 下能够区分;(2)在条件 属性C 上不能区分,则必定能在C—C 中的条件属 性内区分开来。除此之外,没有其他可能。因此直 接求得R ,既可以加快算法计算效率,又可以减 少存储空间。由算法3的第5步得知,算法的终止条 件为R =(2j,此时Rc= ,从而算法是正确的。 4-3.2算法复杂度分析 算法1时间复杂度为oOcll ̄ ),算法2的时间复杂 度为oocII ,算法3中步骤3的时间复杂度为oq , 步骤4的时间复杂度为0qa 一1O1D+l02IdOl一 一 la21)+…+l 一1lla D O(1al}2+la2r+…+la r)=Dq ), 步骤5由步骤4知。 _{c,}D≤o(Ic ̄ ),最多循环 lCI一1次,故步骤5的时间复杂度为ooql泖)。故算 法总的时间复杂度为OdCl lOl )。 5实例分析 为更好地说明新算法的实效性,以文献[3]中的 不完备决策表为例进行分析说明。 由算法1计算 ( )(j=1,2,…,6)的结果如下: c| 1)={ 1}; ( 2)={ 2,X6} 王帅,徐章艳,曾艳燕:一种不完备决策表的属性约简算法 表1t 小汽车决策表 注:cl代表Price;c2代表Mileage;c3代表Size; c4代表Max-speed。 3)={ 3}; x4)={ 4, 5} ( 5)={ 5, 4, 6}; ( 6)={ 6, 2, 5} ac( 1)=Oc( 2)={good) c 3)={poor) c 4)=0c(jf5)=Oc 6)={good,excel} 由算法2可得:K(c1)--2,P(c1)=4;K(c2)=2, P(c2)=2;K(c3)=2,P(c3)=6;K(c4)=2,P(c4)=5。 由算法3的步骤2得:由于K(c )= (c )= (c )= K(c4)=2;则依据P(cf)进一步判断:K(c1)+尸(c】)=6; K(c2)+P(c2)=4;K(c3)+P(c3):8;K(c4)+P(c4)=7。 依据K(c )+P(c )进行排序,得对应的条件属性序列 为c3,c4,c1,c2。由步骤3求得U/Oc )={a1,a2,a3); a1={ l, 2};a2={ 3};a3={ 4, 5, 6}。由步骤4得 Rc㈧={< 1, 5>,< 2, 5>}。 由步骤5得Red={c3,C4} 时,R =(z)。算法终止,从而属性约简为{C ,C }。 实例说明:计算过程中,不仅运用区分度K(c ) 体现条件属性区分能力,还运用P(c )体现条件属性 完备度,充分利用条件属性的信息;在计算 ,时,若 按常规计算,得 c={< 1, 3>,< 1,X5>,< 2, 3>, < 2, 5>,< 3, 4>,< 3, 5>,< 3, 6>}。其实根据 启发信息,在条件属性序列已定的情况下,直接计算 Rc㈧={< 1, 5>,< 2, 5>},可以大大减 问。 6结论 为降低基于广义决策表的属性约简算法的时间 复杂度,本文提出了基于区分对象对集的属性约简 定义。然后证明区分对象对集的屙陛约简和基于广 义决策的属性约简的等价性,给出基于区分对象对 集的属性约简的新算法,该算法具有以下优点: (1)以区分度K(c )作为启发信息,体现出条件 属性的区分能力。 (2)当区分度相同时,运用完备度P(c ),进一步 挖掘出条件屙陛的现实意义。 (3)构造区分对象对集过程中,利用基数排序和 等价关系,有效提高算法效率。 进一步工作,研究其他模型下的属性约简高效 算法。 参考文献: [1]Pawlak Z.Rough sets[J].Intenrational Journal of Computer and Information Science,1982,11(5):341—356. [2]徐章艳,刘作鹏,杨炳儒,等.一个复杂度为max(O(ICIl ̄), O(1cl lU/C1))的快速属性约简算法[J】_计算机学报,2006, 29(3):391—399. [3]Kryszkiewicz M.Rough set approach to incomplete in— formation system[J].Information Science,1998,112:39—49. [4]Stefanowski J,Tsoukias A.Incomplete information tables nad rough classiifcation[J].Computational Intelligence, 2001,7(3):545.566. [5王国胤.5]Rough集理论在不完备信息系统中的扩充[J].计算 机研究与发展,2002,39(10):1238—1243. [6】黄兵,周献中,张蓉蓉.基于信息量的不完备信息系统属性 约简[J].系统工程理论与实践,2005,25(4):55.60. [7]李秀红,史开泉.一种基于知识粒度的不完备信息系统的 屙『生约简算法[J].计算机科学,2006,33(11):169.199. [8]曾晓辉,文展.不完备信息系统的屙I生约简[J].计算机工程, 2009,35(24):185.187. [9]滕书华,昝德才,孙即祥,等.基于同可区分度的属性约简 算法[J].模式识别与人工智能,2010,23(5):630.638. [10]舒文豪,徐章艳,钱文斌,等.不完备决策表的差别矩阵属 性约简算法[J].计算 .工程与应用,201 l,47(24):103.105. [1 1]Kryszkiewicz M.Rules in incomplete information sys— tems[J].Information Sciences,1999,113(2):271.292.