决策支持系统案例.ppt
决策支持系统可提升团队决策效率 #生活技巧# #领导力技巧# #决策支持系统#
《决策支持系统案例.ppt》由会员分享,可在线阅读,更多相关《决策支持系统案例.ppt(184页珍藏版)》请在知学网上搜索。
1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,决策支持系统,案例,层次分析模型的决策应用,层次分析法,(Analytic Hierarchy Process,,,AHP),是美国运筹学家、匹兹堡大学萨第(,T.L.Saaty,)教授于,20,世纪,70,年代提出的一种系统分析
2、方法,,80,年代初引进我国,是一种定性与定量分析相结合的多目标属性决策分析方法。,运用层次分析法进行决策的过程包括建立层次结构模型、构造判断模型等内容。具体而言,层次分析法分析过程包括步:,建立层次结构模型;,决定各层指标的权重,将同一层的指标与上一层中某个指标进行两两成对比较,采用定性和定量标度其重要程度,构造出判断模型,计算出各层指标的权重,并通过计算判断矩阵的一致性来验证权重是否合理;,计算出待选方案的相对权重并排序,完成决策。,层次分析模型,层次分析法的基本步骤,建立层次结构模型;,构造判断矩阵;,层次单排序及一致性检验;,层次总排序及一致性检验。,2024/10/16,4,多级递阶
3、结构一般可以分成三层,即目标层,准则层和方案层。,目标层:,解决问题要想达到的目标。,准则层:,针对目标,评价各方案时所考虑的各个子目标(因素或准则),可以逐层细分。,方案层:,解决问题的方案。,分解法:目的,分目标,(,准则,),指标,(,子准则,),方案,解释结构模型化方法,(ISM,法,),建立层次结构模型,2024/10/16,5,层次结构往往用结构图形式表示,图中标明上一层次与下一层次要素之间的联系。,如果上一层的每一要素与下一层次所有要素均有联系,称为,完全相关结构。,如果上一层每一要素都有各自独立的、完全不相同的下层要素,称为,完全独立性结构,由上述两种结构结合的,混合结构,20
4、24/10/16,6,判断矩阵是层次分析法的基本信息,也是计算各要素权重的重要依据。,建立判断矩阵,假设,在准则,H,下要素,的权重分别为,即,判断矩阵,2024/10/16,7,表示以判断准则,H,的角度考虑要素,对 的相对重要程度。,对于准则,H,,对下一层的,n,个要素,进行两两比较,来确定矩阵的元素值,满足:,2024/10/16,8,判断矩阵中的元素 是表示两个要素的相对重要性的数量尺度,称做判断尺度,其取值如表所示。,选择,19,之间的整数及其倒数作为 取值的主要原因是,它符合人们进行比较判断时的心理习惯,实验心理学表明,普通人在对一组事物的某种属性同时作比较、并使判断基本保持一致
5、时,所能够正确辨别的事物最大个数在,5,9,。,的判断尺度,2024/10/16,9,标度,含义,1,两个要素相比,具有同样重要性,3,两个要素相比,前者比后者稍微重要,5,两个要素相比,前者比后者明显重要,7,两个要素相比,前者比后者强烈重要,9,两个要素相比,前者比后者极端重要,2,,,4,,,6,,,8,上述相邻判断的中间值,倒数,两个要素相比,后者比前者的重要性标度,判断矩阵标度定义,2024/10/16,10,在应用层次分析法进行系统评价和决策时,需要知道,A,i,关于,H,的相对重要度,也就是,A,i,关于,H,的权重,相对重要度及判断矩阵的最大特征值的计算,(,单排序,),202
6、4/10/16,11,由于判断矩阵,A,的最大特征值所对应的特征向量即为,W,,为此,可先求出判断矩阵的最大特征值所对应的特征向量,再经过归一化处理,即可求出,A,i,关于,H,的相对重要度,求,A,的最,大特征值,和其,对应的,特征向量,单,位,化,权重,向量,W,2024/10/16,12,(a),求和法,(,算术平均法,),A,的元素按列归一化,将归一化后的各列相加,将相加后的向量归一化,2024/10/16,13,(,b,)方根法,(,几何平均法,),A,的元素按行相乘,开,n,次方,归一化,2024/10/16,14,(c),特征根方法,由正矩阵的,Perron,定理可知 存在且唯一
7、,,W,的分量均为正分量,可以用幂法求出 及相应的特征向量,W,。该方法对,AHP,的发展在理论上有重要作用。,2024/10/16,15,求特征值:,2024/10/16,16,根据矩阵理论,判断矩阵在满足上述一致性的条件下,,n,阶矩阵具有唯一非零的、也是最大的特征值 ,其余特征值均为零。,W,是矩阵,A,的对应于特征值,n,的特征向量。,相容性(一致性)判断,2024/10/16,17,由于判断矩阵的三个性质中的前两个容易被满足,第三个,“,一致性,“,则不易保证。如判断矩阵,A,被判断为,A,有偏差,则称,A,为不相容判断矩阵,这时就有,若矩阵,A,完全相容,则有,max,=n,,否则
8、,max,n,这样就提示我们可以用,max,-n,的关系来度量偏离相容性的程度。,2024/10/16,18,度量相容性的指标为,C.I.,一般情况下,若,C.I.0.10,,就可认为判断矩阵,A,有相容性,据此计算的,W,是可以接受的,否则重新进行两两比较判断。,一致性检验:,2024/10/16,19,判断矩阵的维数,n,越大,判断的一致性将越差,为克服一致性判断指标随,n,增大而明显增大的弊端,于是引入修正值,R.I.,,见下表:,n,1,2,3,4,5,6,7,8,9,10,R.I.,0,0,0.52,0.89,1.12,1.26,1.36,1.41,1.46,1.49,R.I.,是同
9、阶平均随机一致性指标,2024/10/16,20,C.R.,作为衡量判断矩阵一致性的指标更为合理的,C.R.0.1,时,便认为判断矩阵具有满意的一致性,2024/10/16,21,最终归结为最低层(方案、措施、指标等)相对于最高层(总目标)相对重要程度的权值或相对优劣的次序。,综合重要度的计算,2024/10/16,22,考虑投资兴建一个旅游点,选择一个最理想的地点就是决策目标。现在有三个地点,D1,、,D2,、,D3,可供选择。评选的标准有六个,:,例题分析,A1:,古迹的吸引力;,A2:,名胜风光的条件;,A3:,费用程度;,A4:,生活条件;,A5:,交通条件;,A6:,接待工作的水平。
10、,2024/10/16,23,两两对比的判断矩阵列于下,试对此问题决策。,最佳地点,A1,A2,A3,A4,A5,A6,A1,1,1,4,3,3,4,A2,1,1,1/3,5,1,1/3,A3,1/4,3,1,7,1/5,1,A4,1/3,1/5,1/7,1,1/5,1/6,A5,1/3,1,5,5,1,3,A6,1/4,3,1,6,1/3,1,2024/10/16,24,A1,D1,D2,D3,D1,1,1/3,1/2,D2,3,1,3,D3,2,1/3,1,A2,D1,D2,D3,D1,1,9,7,D2,1/9,1,1/5,D3,1/7,5,1,A3,D1,D2,D3,D1,1,1,1,D
11、2,1,1,1,D3,1,1,1,A5,D1,D2,D3,D1,1,1/2,1,D2,2,1,2,D3,1,1/2,1,A6,D1,D2,D3,D1,1,6,4,D2,1/6,1,1/3,D3,1/4,3,1,A4,D1,D2,D3,D1,1,5,1,D2,1/5,1,1/5,D3,1,5,1,2024/10/16,25,层次分析法决策,首先,建立层次模型。有三层:总目标层是选择地点;中间层是三个目标;最底层是三种方案。各层判断矩阵已经给出,下面确定各层权重(用列向量表示)。,第一层到第二层:矩阵归一化然后每行相加归一化得到权重 。,2024/10/16,26,第二层到第三层:,A1-A6,与
12、各方案的权重分别为,一致性检验相关数据结果依次为,:,2024/10/16,27,各判断矩阵一致性检验系数均小于,0.1,,认为判断矩阵具有满意的一致性。,最后,各方案对总目标的权重为:,=,(,0.37 0.38 0.25,),第二个方案的权重最大,因此选择地点,D2,最佳。,。,2024/10/16,28,层次分析法在图书馆设备采购决策中的应用,某高校图书馆为了扩展读者培训的服务范围,提高服务档次,欲采购一批笔记本电脑用作培训用计算机,构建采购决策的层次结构模型。,判断模型,Web,挖掘与个性化决策支持,数据挖掘概念:数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中
13、的有用知识的高级过程。,数据挖掘涉及的学科领域和方法很多,有多种分类法。,数据挖掘分类法,根据挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序数据库、,DNA,数据库、多媒体数据库、异质数据库、遗产数据库以及,Web,数据库等;,根据挖掘方法分:机器学习方法、统计方法、神经网络方法和数据库方法等;,a.,机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。,数据挖掘分类法,b.,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。,
14、c.,神经网络方法可细分为:前向神经网络(,BP,算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。,数据挖掘分类法,根据挖掘任务分:可分为关联规则、分类、聚类、时间序列预测模型发现和时序模式发现等。,关联规则,案例:美国沃尔玛连锁店超市将尿布和啤酒赫然摆在一起出售。该举措使尿布和啤酒的销量双双增加。,沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的
15、发现是:,跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在,尿布与啤酒,背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有,30%,40%,的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,关联规则举例,关联规则定义,定义一:设 ,是,m,个不同的项目的集合,每个,i,k,称为一个项目。项目的集合,I,称为项集。其元素的个数称为项集的长度,长度为,k,的项集称为,k,-,项集。,上例中每个商品就是一个项目,项集为,I,=bread,
16、beer,cake,cream,milk,tea,,,I,的长度为,6,。,关联规则定义,定义二:每笔交易,T,是项集,I,的一个子集。对应每一个交易有一个唯一标识交易号,记作,TID,。交易全体构成了交易数据库,D,,,|,D,|,等于,D,中交易的个数。,上例中包含,10,笔交易,因此,|,D,|=10,。,关联规则定义,定义三:对于项集,X,,,设定,count(,X,T,),为交易集,D,中包含,X,的交易的数量,则项集,X,的支持度为:,support(,X,)=count(,X,T,)/|,D,|,上例中,X,=bread,milk,出现在,T1,,,T2,,,T5,,,T9,和,
17、T10,中,所以支持度为,0.5,。,关联规则定义,定义四:最小支持度是项集的最小支持阀值,记为,SUPmin,,代表了用户关心的关联规则的最低重要性。支持度不小于,SUPmin,的项集称为频繁集,长度为,k,的频繁集称为,k-,频繁集。如果设定,SUPmin,为,0.3,,,上例中,bread,milk,的支持度是,0.5,,所以是,2-,频繁集。,关联规则定义,定义五:关联规则是一个蕴含式:,R,:,XY,其中,XI,,,YI,,并且,XY=,。表示项集,X,在某一交易中出现,则导致,Y,以某一概率也会出现。用户关心的关联规则,可以用两个标准来衡量:支持度和可信度。,关联规则定义,定义六:
18、关联规则,R,的支持度是交易集同时包含,X,和,Y,的交易数与,|D|,之比。即:,support(XY)=count(XY)/|D|,支持度反映了,X,、,Y,同时出现的概率。关联规则的支持度等于频繁集的支持度。,关联规则定义,定义七:对于关联规则,R,,可信度是指包含,X,和,Y,的交易数与包含,X,的交易数之比。即:,confidence(XY)=support(XY)/support(X),可信度反映了如果交易中包含,X,,则交易包含,Y,的概率。一般来说,只有支持度和可信度较高的关联规则才是用户感兴趣的。,关联规则定义,定义八:设定关联规则的最小支持度和最小可信度为,SUPmin,和
19、,CONFmin,。规则,R,的支持度和可信度均不小于,SUPmin,和,CONFmin,,则称为强关联规则。关联规则挖掘的目的就是找出强关联规则,从而指导商家的决策。,关联规则举例,TID,网球拍,网球,运动鞋,羽毛球,1,1,1,1,0,2,1,1,0,0,3,1,0,0,0,4,1,0,1,0,5,0,1,1,1,6,1,1,0,0,关联规则举例,顾客购买记录的数据库,D,,包含,6,个事务。项集,I=,网球拍,网球,运动鞋,羽毛球,。考虑关联规则(频繁二项集):网球拍与网球,事务,1,2,3,4,6,包含网球拍,事务,1,2,6,同时包含网球拍和网球,,XY=3,D=6,,支持度,(X
20、 Y)/D=0.5,;,X=5,置信度,(X Y)/X=0.6,。若给定最小支持度,=0.5,,最小置信度,=0.6,,认为购买网球拍和购买网球之间存在关联。,关联规则的挖掘过程,关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组,(Frequent Itemsets),,第二阶段再由这些高频项目组中产生关联规则,(Association Rules),。,Apriori,算法,Apriori,算法是对于事务处理数据序进行频繁项集挖掘和关联规则的一种经典算法。算法从寻找单一频繁项集开始,逐渐往,K-,频繁项集扩展,只要项集出现的比例高于设定的最小支持度阈值,就一直
21、扩展卜去。这些频繁项集中满足置信度参数即为强关联规则,否则为弱关联规则。关联规则挖掘就是在频繁项集中找到所冇强关联规则。,Apriori,算法得到的关联规则可以确定在数据库中突出的总体趋势。,Apriori,算法的具体步骤,C,1,即,1-,项频繁项集候选集:扫描数据库,对每个单独的项进行计数得到,C,1,。,L,1,即,1-,项频繁项集:从,C,1,中删除支持度小于最小支持度的项得到,L,1,。,C,k+1,即,K+1,项频繁集候选集:,C,k+1,由,L,k,与自身连接得到,连接条件是参与连接的两个,K,项集前,K-1,项相同,第,K,项不同。,L,K+1,K+1,项频繁集,:,从,C,K
22、+1,中删除支持度小最小支持度的项,删除,C,K+1,中,K,项自己不在,L,K,中的项。,分类规则,数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多,包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中,基于决策树的分类方法与其它的分类方法比较起来,具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。,决策树算法,决策树,(Decision Tree,)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可
23、行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。,决策树的组成部分,决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。,1,状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。,1,结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。,决策树算法举例,决策树预备定
24、义,信息墒,熵是无序性(或不确定性)的度量指标。假如事件,A,的全概率划分是(,A1,A2,.,An,),每部分发生的概率是,(p1,p2,.,pn),,那信息熵定义为:,通常以,2,位底数,所以信息墒的单位是,bit,。,ID3,算法构造决策树,构造树的基本想法是随着树深度的增加,节点的熵迅速地降低。熵降低的速度越快越好,目标是得到一棵高度最矮的决策树。,例子中,在没有给定任何天气信息时,根据历史数据,我们只知道新的一天打球的概率是9/14,不打的概率是5/14。此时的熵为:,确定决策树的节点,4,个属性,outlook,,,temperature,,,humidity,,,windy,。首
25、先要决定哪个属性作树的根节点。,对每项指标分别统计:在不同的取值下打球和不打球的次数。,计算各属性的信息墒,计算当已知变量,outlook,的值时,信息熵为多少。,outlook=sunny,时,,2/5,的概率打球,,3/5,的概率不打球。,entropy=0.971,outlook=overcast,时,,entropy=0,outlook=rainy,时,,entropy=0.971,而根据历史统计数据,,outlook,取值为,sunny,、,overcast,、,rainy,的概率分别是,5/14,、,4/14,、,5/14,,所以当已知变量,outlook,的值时,信息熵为:,5/
26、14 0.971+4/14 0+5/14 0.971=0.693,系统熵就从,0.940,下降到了,0.693,,信息增溢,gain(outlook),为,0.940-0.693=0.247,得到根节点,同样可以计算出,gain(temperature)=0.029,,,gain(humidity)=0.152,,,gain(windy)=0.048,。,gain(outlook),最大(即,outlook,在第一步使系统的信息熵下降得最快),所以决策树的根节点就取,outlook,。,接下来要确定,N1,取,temperature,、,humidity,还是,windy?,在已知,outlo
27、ok=sunny,的情况,根据历史数据,我们作出类似,table 2,的一张表,分别计算,gain(temperature),、,gain(humidity),和,gain(windy),,选最大者为,N1,。,依此类推,构造决策树。当系统的信息熵降为,0,时,就没有必要再往下构造决策树了,此时叶子节点都是纯的,-,这是理想情况。最坏的情况下,决策树的高度为属性(决策变量)的个数,叶子节点不纯(这意味着我们要以一定的概率来作出决策)。,聚类,对数据进行分析的过程中,在考虑数据间的“距离”的同时,更侧重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这种分组基于如下的原理:最大的组
28、内相似性与最小的组间相似性。,聚类的一般步骤,聚类的一般步骤的细节如下:,(,1,)特征选择。必须适当地选择特征,尽可能多的包含任务关心的信息。在特征中,信息多余减少和最小化是主要目的。,(,2,)相似性度量。用于定量度量两个特征向量之间如何“相似”或“不相似”。一个简单的度量如欧氏距离经常被用来反应两个特征向量之间的非相似性。,(,3,)聚类算法。已经选择了合适的相似性度量,这步涉及到选择特定的聚类算法,用于揭示数据集中的聚类结构。,聚类的一般步骤,(,4,)结果验证。一旦用聚类算法得到结果,就需要验证其正确性。,(,5,)结果判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚
29、类结果,最后做出正确的结论。,聚类在图情领域中的应用,基于聚类的词表自动构建,UCINET,社会化网络分析软件,时序规则挖掘,时间序列,(Time series),是指按时间顺序取得的一系列观测值。时序数据挖掘就是从大量的时序数据中提取潜在的有用的知识。,时序关联规则,就是对时序数据库采用某种数据挖掘算法,得到具有时间约束的关联规则。与一般的布尔型关联规则最大的区别在于时序关联规则与时间或时态是密切相关的,.,除此之外,还可以把数据挖掘的概念,支持度、置信度等等一些相关概念运用到挖掘时序关联规则的过程中。,基本概念,基本概念,基本概念,例子,Web,日志时序关联规则挖掘模型,首先明确如何根据,
30、Web,日志提取出需要分析的页面序列。,Web,日志记录了每一天对某个网站服务器的访问情况,包括访问的时间、页面、停留时间。对于访问网站的每个用户,由其自己的,ocokie,来决定他访问了那些页面,这些页面是否可以通过其它页面的链接来访问。如果通过页面上的链接来访问其它页面,前后的页面就可以构成一个页面序列。可以将访问页面序列及其访问时间记录到数据库中作为,Web,时序关联规则挖掘的对象。,Step1,整理数据,以“天”作为时序数据的时间单位,每一天的数据将对应着数据库表中的一个元组。设置一个时间段,如,10,天、,30,天等等,把这个时间段称为一个“时间窗口”,窗口长度就是时间段的长度。时间
31、窗口从起始时间开始,每过一天,向后滑动一个单位,生成新的时间窗口。,Step2,计算窗口变化率,将某个页面访问序列在某个时间窗口的变化率计算出来,就可以将时序数据库转化为一般的关系数据库,而且关系的属性都是数值型的。,Step2计算窗口变化率,设一个数值序列,P=P1,P2,P3,,,Pn,,设时间窗口的大小为,i,in,P1,P2,P3,,,Pi,为第一个时间窗口,T1,中的元素,,P2,P3,,,Pi+1,为第二个时间窗口,Ti,中的元素,依此类推,Pn-i+1,Pn-i+2,Pn,为最后一个时间窗口(即第,n,一,i+1,个时间窗口),Tn-i+1,中的元素。要计算第,j,个时间窗口中属
32、性的变化率,按照下面的公式进行计算,:,监督学习,监督学习又称为分类(,Classification,)或者归纳学习(,Inductive Learning,)。,监督学习中一种典型的类型:学习一个目标函数从而用于预测实例的类属性值。,监督学习通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。这些类别通常表示一些现实世界中的预测或分类问题。,基本概念,一个用于学习的数据集就是一张关系表,表里的每条记录描述了一条“以往的经验”。在机器学习和数据挖掘的词汇中,一条数据记录又称作一个样例、一个实例、一个用例或者一个向量。一个数据集就是包括一系列样例的集合。,基
33、本概念,给出一个数据集,D,,机器学习任务的目标就是产生 一个联系属性值集合,A,和类标集合,C,的分类,/,预测函数(,Classification/Prediction Function,),这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数又被称为分类模型(,Classification Model,)、预测模型(,Predictive Model,),或者简称为分类器(,Classifier,)。分类其可以是任何形式的,决策树、规则集、贝叶斯模型或者一个超平面。,朴素贝叶斯分类,例 假设训练数据有两个属性,A,和,B,,类别,C,。计算所有必须的概率值学习一个朴素贝叶斯分类器
34、。,学习过程,由经验数据可以得出,P(C=t)=1/2 P(C=f)=1/2,P(A=m|C=t)=2/5 P(A=g|C=t)=2/5 P(A=h|C=t)=1/5,P(A=m|C=f)=1/5 P(A=g|C=f)=2/5 P(A=h|C=f)=2/5,P(B=b|C=t)=1/5 P(B=s|C=t)=2/5 P(B=q|C=t)=2/5,P(B=b|C=f)=1/5 P(B=s|C=f)=1/5 P(B=q|C=f)=2/5,预测,一个测试样例,A=m B=q C=,?,P(C=t)*P(A=m|C=t)*P(B=q|C=t)=1/2*2/5*2/5=2/25,P(C=f)*P(A=m
35、|C=f)*P(B=q|C=f)=1/2*1/5*2/5=1/25,C=t,的可能性更大,测试样例的预测类别就是,t,。,朴素贝叶斯文本分类,文本分类是指如何从训练文本中学习得到分类模型的问题,并且用获得的模型来对新的文档进行分类。,例如将新闻报道分为三个类别:,Sport,、,Politics,和,Science,,目标是学习一个分类器,能够将以后的新闻报道分门别类到这三个类别中。,朴素贝叶斯文本文档模型,一个文本文档包括一系列句子,每个句子又包含一连串的单词。朴素贝叶斯分类将每篇文档看作一个词汇(,word,)的集合。生成模型基于以下假设:,文档中的词汇都是独立于语境生成的。也就是说当给定
36、类别后,每个词汇的生成和别的词汇是相互独立的。,单词被生成的概率与它在文档中的位置无关。,文档的长度与类别无关。,根据以上假设,每个文档服从单词的二项分布。单词都是从一个给定的词典,V=w,1,,,w,2,,,w,|v|,中提取,,|V|,是词典中单词总数。,二项分布,说明,说明,无监督学习,如果数据的类别属性缺失,用户希望通过浏览数据来发现其中的某些内在结构。聚类,(Clustering),就是一种发现内在结构的技术。,聚类把全体数据实例组织成一些相似组,这些相似组被称为聚类,(Cluster),。处于相同聚类中的数据实例彼此相似,处于不同聚类中的实例则彼此不同。,聚类技术通常被称为无监督学
37、习。,聚类应用实例,聚类应用实例,聚类应用实例,分析,从以上的例子可以看到聚类需要一个相似度函数来度量两个数据点(对象)的相似程度,或者说利用一个距离函数,(Distance Function),来度量两个数据点之间的距离。,聚类的目的就是通过使用某个聚类算法和某个距离函数来发现数据中内在的分组结构。,距离函数,Web,使用日志挖掘,基于,web,的组织在日常运作中收集大量的点击流(,ClickStream,)和用户数据(,UserData,)。对这些数据的分析可以帮助这些组织决定客户的生命周期、设计产品和服务的交叉营销策略、评估促销活动的效果、优化,Web,应用程序的功能、为访问者提供更个性
38、化的内容以及为自己的,Web,空间找到最有效的逻辑结构。,概念,Web,使用记录挖掘是指自动发现和分析模式,这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其目标是捕捉、建模并分析用于与网站交互的行为模式和模型。,所发现的模式经常被表示成有着共同需求或兴趣的一群用户频繁访问的页面、对象或者资源的集合。,挖掘过程,数据收集和预处理,模式发现,模式分析,数据预处理阶段,确定数据的来源和类型,使用记录数据:,Web,服务器和应用服务器自动收集的日志数据是,Web,使用记录挖掘中首要的数据来源。用户对服务器的每一次访问相当于一个,HTTP,请求,在服务器访问日志里产生一条记录。每
39、条记录可包含请求的时间、客户端,IP,、所请求的资源、调用,Web,应用服务器所使用的参数、请求的状态、使用,HTTP,方法、用户代理,.,数据预处理阶段,确定数据的来源和类型,内容数据:一个站点的内容数据是已传送给用户的对象和关系的集合。这些数据由文字材料和图片组成,包括静态的,HTML/XML,页面、多媒体文件、由脚本动态生成的页面片段以及来自操作数据库的记录集合;嵌入在网站或单独页面中的含语义的或结构化的元数据;网站的领域本体也是内容数据的一部分,包括网页内容的概念层次等。,数据预处理阶段,确定数据的来源和类型,结构数据:结构数据展示了以设计者的角度所看到的网站的内容组织结构。通过超链接
40、建立页面间的连接结构;一个页面内容过标签形成的属性结构;一个站点的资源地图。,用户数据:包括注册用户统计信息、用户对各种对象的访问率、用户的购买记录或历史访问记录以及其他显式或隐式的用户兴趣描述。,数据预处理阶段,必要任务,数据的融合清理:数据融合是指将来自多个,Web,和应用服务器的日志文件合并。由于用户的行为分析基于来自多个相关网站的多个日志文件,因此这一步在站间,Web,使用数据挖掘中很必要。数据清理通常根据站点不同而不同,涉及对分析不重要的或无关的嵌入式对象的引用,包括,css,、图像或声音文件。,数据预处理阶段,必要任务,页面访问识别:页面访问的识别主要依赖于网站的页面结构、页面内容
41、以及基础站点领域知识。由于每个页面访问可以被看作表示特定“用户事件”的,Web,对象或资源的集合。一个静态单框架的站点,每个,HTML,文件就是一个页面访问;静态多框架站点,多个文件组成一个页面访问;对于动态站点,一个页面访问可能表示一些静态模版和应用程序服务器接受参数后生成的内容结合。为了给大量数据挖掘活动提供合适的框架,每个页面访问记录的属性包括页面访问的,ID,、静态页面访问类型以及其他元数据。,数据预处理阶段,必要任务,用户识别:由于一个用户可能多次访问同一个网站,服务器日志会为每个用户记录多个会话,因此大多数用来区分不同访问者的方法是使用客户端的,cookies,信息。以下例子是用户
42、,IP,加代理的用户识别方式。,数据预处理阶段,必要任务,会话识别:将每个用户的活动记录分成一个一个会话的过程,每个会话代表一次对站点的访问。会话识别的目的是从点击流数据中重构信息,以获得一个用户一次访问站点的真实行为序列。会话识别分为面向时间的探索方法和面向导航的探索方法。,h,1,探索法,h-ref,探索法,数据预处理阶段,必要任务,事务识别:一个事务是一个在语义上或功能上相关联的页面访问所组成的会话的子集或子序列。事务识别需要自动或半自动的将页面访问按照功能类型或者根据领域本体或概念层次而来的概念类别进行分类。,数据预处理阶段,必要任务,路径完善:客户端或代理端的缓存功能经常会导致对那些
43、被缓存的页面和对象的访问引用的丢失。例如,如果一个用户在同一个会话中返回到页面,A,,第,2,次对,A,的访问很有可能看到的是存在客户端缓存中的,A,的上一个版本,因此并没有请求向服务器发送。由于缓存而丢失的记录可以通过路径完善探索式的补全,路径完善依靠服务器日志上站点结构和引用信息完成。对于动态生成的页面,基于表单的应用程序使用,HTTPPOST,方法来处理所有或部分用户输入的参数。,数据预处理阶段,必要任务,数据整合:以上预处理任务最终形成用户会话的集合,每一个对应一个有限的页面访问序列。例如,在电子商务应用中,除了整合来自多渠道的用户数据(例如用户统计信息、用户访问率、购物历史记录),还
44、要包括产品属性和目录、购物车的改变、订单和发货信息等。,Web,使用记录挖掘的数据建模,页面权重的确定方法,依赖于使用相似用户模型给当前用户推荐的协同过滤中,权重可能基于用户在某些项目上的访问率。,可以表示一个页面访问在事务访问中存在不存在,这时权重的取值就是,0,和,1,。,可以是一个计算页面访问在用户的会话中持续时间的函数。,页面访问序列模型的矩阵表示,其他数据的整合,除了页面访问序列外,需要整合的数据还有其他知识来源,例如,Web,页面内容的语义信息。,每个页面访问,p,可以用一个,r,维特征向量表示,其中,r,是从全局词典中抽出的来自站点特征(词或概念)数量。,页面访问特征矩阵表示,用
45、户页面访问矩阵和页面访问特性矩阵的乘积的到一个新的矩阵,TFM,。这时一个用户事务被表示成一个内容特征向量,反映了用户在特定概念和话题上的兴趣。,内容增强型事务数据的应用,对内容增强型事务矩阵聚类发现,从用户导航行为所表明的具有不同思想但是拥有相同兴趣的用户。,如果内容特征包含与网站中的项目相关联的关系属性,发现的模式可以展示更深语义层次的用户兴趣。,Web,用法模式的发现和分析,会话和访问者分析,聚类分析和访问者分割,关联和相关度分析,序列和导航模式分析,基于,Web,事务的分类和预测,聚类分析和访问者分割,用户聚类,用户记录聚类是,Web,使用记录挖掘和,Web,分析中最普遍使用的分析任务
46、。用户聚类为了建立拥有相同浏览模式的用户的分组。这种知识在推断用户统计信息方面特别有用,例如在电子商务中进行市场划分或给具有相似兴趣的用户提供个性化的,Web,内容。更进一步的在用户分组上基于用户统计属性(例如年龄、性别、收入级别等)的分析可以发现有价值的商业智能。,K-means,算法思想,先从随机选取,k,个数据点作为初始的聚类中心。,然后计算每个数据点与各个种子聚类中心之间的距离,把每个数据点分配给距离它最近的聚类中心。聚类中心以及分配给他的数据点就代表一个聚类。,如果全部数据点都被分配了,每个聚类的聚类中心根据聚类中现有的数据点重新计算其平均距离。,以上循环退出条件:没有(或最小数目)
47、数据点被重新分配给不同的聚类;没有(或最小数目)聚类中心再发生变化;误差平方和局部最小。,关联与相关度分析实例,序列和导航模式分析,序列模式挖掘技术用来发现会话之间的模式,发现在一个按照时间顺序排列的会话或事务中存在于一个项目之后的另一个项目。例如,Web,销售商可以预测未来的访问模式,以帮助针对特定用户组的广告排放顺序。,观点挖掘,网络提供给用户表达观点的途径:用户既可以在商业网站发布产品评价,也可以在论坛、讨论组、博客等网络媒体上对几乎任何事物发表自己的意见。这些评价和意见通常被称为用户生成内容或者用户生成媒体。这些表述为很多实际应用提供了可测量的资源。,观点挖掘主要有文本评估和观点搜索及
48、观点欺诈。,文本评估,意见分类,基于特征的观点挖掘和摘要,比较性句子和比较关系挖掘,意见分类,基于意见短语的分类,该算法思想的基础是词性标注的自然语言处理技术。,词性是指根据词的句法和形态特征而定义的语言类别。英语语法中常见的词性类别有:名词、动词、形容词、副词、代词、介词、连词和感叹词。,对词性进行标注是将句子中的每个词都标上合适的词性。,算法步骤,第一步:抽取包含有形容词和副词的短语。这是因为形容词和副词是用户意见和观点很好的指示词。但有时采用单独的形容词并不足以确定它的语义倾向。因此需要抽取两个连续的词组成词对,其中一个词是形容词,/,副词,另一个词是上下文词汇。,例子,在句子“,thi
49、s camera produces beautiful pictures,”中,“,beautiful pictures,”由于满足第一个模式被抽取。,算法步骤,短语的语义倾向(,SO,),算法步骤,第三步:给定一个评审,算法计算评审中所有短语的平均,SO,。如果平均,SO,是正的,那么将该评审归为正面评价,否则,归为负面评价。,基于评分函数的意见分类,基于评分函数的意见分类,观点挖掘和摘要,用户可以针对任何事物的任何方面发表观点,例如,产品、个人、组织、时间、主题等。这些被评价的实体称作对象。对象包括一个组件集合和一个属性集合。因此,该对象根据部分隶属关系被层次化的分解,也就是说每个组件又有
50、它的子组件。,对象,定义(对象):一个对象,O,是指一个实体。它关联到一个有序对,,O,:,(T,,,A),。,一个特定的数码相机品牌就是一个对象。它有一系列组件,包括,lens,、,battery,、,view-finder,;还有一系列属性,,picture quality,、,size,、,weight,。同时电池组件有它自己的属性集合,,battery life,、,battery size,、,battery weight,。,可以将一个对象表示成一棵树。,例子,对一个相机(以上例子树的根结点)表达看法,,I do not like this camera,;或者对它的属性进行评价,
51、,the picture quality of this camera is poor,;可以对相机的一个组件发表看法,,the battery of this camera is bad,;对一个组件的属性发表看法,,the battery life of this camera is too short,。,采用特征来统一表示组件和属性。,显式和隐式特征,定义(显式和隐式特征):如果一个特征,f,出现在一个评估文本,r,中,那么被称为,r,的一个显示特征,如果,f,没有在,r,中出现,但是被暗指,那么将其称为,r,的一个隐式特征。,例子,Battery life,在,The battery
52、 life of this camera is too short,是显式特征。,Size,在,This camera is too large,中没有出现,但是被暗指,因此它是该句子的隐式特征。,某一特征的观点段,定义(某一特征的观点段),:,一个关于对象,r,的特征,f,的观点段是,r,中一组表达了关于,f,的正面或负面观点的连续句子。,The picture quality is good,but the battery life is short.,显式和隐式观点,定义(显式和隐式观点):一个关于特征,f,的显式观点是一个直接表达了正面或者负面观点的主观句子。一个关于特征,f,的隐式观
53、点是一个蕴含了正面或者负面观点的客观句子。,例如,,the picture quality of this camera is amazing,表达了一个显式的正面观点;,the earphone broke in two days,表达一个隐式的负面观点。,基于特征的摘要,例子,假设总结某一数码相机,,difital_camera_1,的评审摘要,对象特征的抽取,评审格式:,格式,1-,区分正面、负面以及细节的评审,对象特征的抽取,评审格式:,格式,2-,区分正面、负面的评审,对象特征的抽取,评审格式:,格式,3-,自由格式,格式,1,中正面和负面评价的特征抽取,特征抽取基于以下的规定:每个
54、正面和负面评价中的句子片段只包含一个特征。句子片段通过逗号、句号、分好、连字号、,&,、,and,、,but,分开。,例如,格式,2,、,3,中正面和负面评价的特征抽取,第一步:找到所有高频名词和名词短语,通过词性标注工具来识别。,第二步:利用意见词找到不频繁出现的特征。,第三步:观点倾向分类。,观点欺诈,观点欺诈指的是人们故意误导读者和自动观点挖掘系统的行为。,写欺诈性评审的目的主要有两个:推销某些目标对象;损害某些其他目标对象的声誉。,结构化数据抽取,Web,信息抽取是从网页中抽取出目标信息。,Web,上的结构话数据一般是从后台数据库获取的数据记录,按照一定的模版被展现在网页上。抽取结构化
55、的数据能够获取和整合来自多个来源(网站或者网页)的数据,以提供增值服务。,预备知识,富含数据的网页主要有两种:列表页;详情页。,列表页,每个列表页都包含有多个对象。一般从布局角度来看,可以在列表页上看到不同的数据区域(,Data Region,)。在每一个区域中,数据记录根据同一种模板被格式化。不同区域所采用的模板一般不同。,详情页,侧重描述一个对象。一般包括产品的所有细节,如名称、图片、价格和其他销售信息、产品描述、客户评价等。,网页格式,网页是用,HTML,标签写成的,其中包含纯文本、标签、指向多媒体文件及其他网页的链接。,包装器归纳的数据抽取方法,一个包装器归纳系统从一个标注好的训练样例
56、集合中学习数据抽取规则。标注一般是手工完成,包括标记训练网页或样例中用户希望抽取的数据项。然后将学习到的规则用于从其他相同标记编码或者有相同模版的网页中抽取目标数据。,网页建模,EC,树,包装器采用标注后的树形结构以便抽取规则的学习和数据的抽取。,一个网页可以看成是一个标志序列(例如文本、数字、,HTML,标签)。抽取是采用,EC,树(,Embedded Catalog Tree,)的结构进行。它对镶嵌在一张,HTML,网页中的数据进行建模。树根是包含整个网页标志序列,S,的文档,并且每一个孩子节点的内容都是父亲节点序列的一个子序列。,从网页中抽取节点,包装器使用网页的,EC,树描述和一组抽取
57、规则从网页中抽取一个相关节点。(说明:一个抽取任务是用户指定,不是系统自发挖掘的。),包装器识别,EC,树中的每一个节点,是从其父节点开始识别或者抽取,父节点包含了所有孩子的标志序列。,抽取规则包含两条规则:开始规则(,The Start Rule,)和结束规则(,The End Rule,),分别识别节点的开头和结尾。,抽取规则基于地标(,Landmarks,)思想。每一个地标是一个连续的标签序列,对应于一个目标项的开头和结尾。,网页的,HTML,编码,抽取任务,抽取饭店名,从以上的,HTML,文档中抽取饭店名:,Good Noodles,R1,:,SkipTo,(,),/,系统应该从网页的
58、开头开始,跳过所有的标志,直到看到第一个,标签。这里,就是一个地标。,R2,:,SkipTo,(,),/,从网页的末尾应用到网页的开头,标识饭店名的结尾。,识别整个地址列表的规则,R3:SkipTo(),R4:SkipTo(),识别电话区号,R5,:,either SkipTo,(,(,),or SkipTo,(,-,),R6,:,either SkipTo,(,),),or SkipTo,(,),由于电话五号格式多变,有些斜体显示,有些用括号括起来,使用“或”规则。,能生成抽取规则的包装器学习算法,基本思想:针对,EC,树中的一个节点生成开始规则,该节点的某个前缀标志或其通配符充当能够唯一标
59、识该节点开头的地标;生成结束规则,则该节点的某个后缀标志或其通配符将充当地标。开始规则和结束规则生成过程基本一样,不同的是开始规则是从父节点的第一个标志开始处理,结束规则是从最后一个节点开始向第一个标志行进。,基于实例的包装器学习,基本思想:通过将目标数据项的前缀和后缀标志字符串与对应的标注好的样例进行比较,从一个新的实例或网页中识别目标数据项。一开始,用户只需要标注一个实例,它随后被用于从未标注的样例中识别目标数据项。,IDE,算法,第一步:一个随机样例,p,被从一个未标注的训练样例集,S,中选出并加以标注;,第二步:由用户标注所选取的样例,p,中的目标数据项。系统还存储了每个标注好的数据项
60、前的,k,个连续标志组成的序列(前缀字符串)以及标注好的数据项后的,k,歌连续标志组成的序列(后缀字符串)。所有目标数据项的前缀和后缀字符串组成一个模板。,第三步:算法开始用,extract(),函数从未标注的样例中抽取数据项。对每一个未标注的样例,d,,系统将存储下来每个目标数据项的前缀和后缀字符串与,d,的标志字符串进行比较,以识别相对应的数据项。,模板举例,任务:从每个产品抽取三个数据项:名称(,name,)、图片(,image,)、价格(,price,),模板举例,模板举例,函数,Extract(Templates,d),对每一个未标注的样例,d,,设法用每一个保存下来的模板,T,来匹配,d,的标记字符串,以识别,d,中的每一个目标数据项。如果,T,中一个目标数据项,g,的一个前缀(或后缀)标志序列匹配到了,d,中一个数据项,f,的一个前缀(或后缀)标志序列,并且该序列唯一确定,d,中的,f,,那么认为,f,是,g,在,d,中的对应数据项。,链接分析,
网址:决策支持系统案例.ppt https://www.yuejiaxmz.com/news/view/1349750
相关内容
决策支持系统案例集决策支持系统的应用案例
医学决策支持系统.ppt
决策支持系统(DSS)理论·方法·案例
决策支持系统例子,帮助您做出明智决策的实践案例
医疗决策支持系统
应急预案中的决策支持系统与指挥调度技术.docx
决策支持系统主要支持(决策支持系统主要对象是什么决策)
31.决策支持系统题目答案解析,31.决策支持系统题目答案解析
决策支持系统(DSS)