`
guodongbuding
  • 浏览: 37058 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

数据挖掘中分类算法小结(转)

阅读更多

数据挖掘中分类算法小结(转)

 (2010-01-05 15:49:59)
标签: 

分类算法

 

教育

分类: BOSS学习资料室

本文转自http://www.chinabi.net/blog/user1/105/archives/2005/332.html

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。

 

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述:

 

训练:训练集——>特征选取——>训练——>分类器

分类:新样本——>特征选取——>分类——>判决

 

最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:

 

1)决策树

 

决策树归纳是经典的分类算法。它采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。

 

(2) KNN法(K-Nearest Neighbor)

    KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

    KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

    该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

    该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

 

 (3) SVM法

    SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

    支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘(maximum margin)算法。待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,SVM法对小样本情况下的自动分类有着较好的分类结果

 

(4) VSM法

    VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。

    在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。

    由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。

 

(5) Bayes法

    Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

    设训练样本集分为M类,记为C={c1,…,ci,…cM},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)=ci类样本数/总样本数。对于一个待分样本X,其归于cj类的类条件概率是P(X/ci),则根据Bayes定理,可得到cj类的后验概率P(ci/X):

    P(ci/x)=P(x/ci)·P(ci)/P(x)(1)

    P(ci/X)=MaxjP(cj/X)i=12Mj=12M则有x∈ci(2)

    (2)是最大后验概率判决准则,将式(1)代入式(2),则有:

    若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,则x∈ci

    这就是常用到的Bayes分类判决准则。经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。

Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

 

6)神经网络

神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。如有输入值X1, X2, ..., Xn 和它们的权系数:W1, W2, ..., Wn,求和计算出的 Xi*Wi ,产生了激发层 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各条记录出现频率或其他参数,Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决。

分享到:
评论

相关推荐

    数据挖掘_BSYES算法

    BSYES算法 论文+答辩PPT 目录 第一章 6 1.1引言 6 1.2研发背景 6 第二章 7 2.1数据库 7 2.1.1 SQL数据库 7 2.1.2 数据库模型 7 ...4.2 工作结果小结 8 第五章 总结与展望 8 第六章 致谢 8 第七章 参考文献 8

    决策树分类算法优化研究

    数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的 过程,是一种新型的数据分析技术,已被广泛应用于金融、保险、政 府、教育、运输以及国防等领域。 数据分类是数据挖掘中一个重要的内容。分类存在很多...

    大数据与数据挖掘技术 第7章 数据挖掘算法-聚类分析 共162页.pptx

    什么是聚类分析? 聚类分析中的数据类型 聚类分析的主要方法分类 划分方法 层次方法 基于密度的方法 基于网格的方法 离群点分析 小结

    精品版基于MATLAB R语言 SAS SPSS软件的 数据分析与挖掘实战 完整课程PPT课件 第5章 (共5页) 挖掘建模之离群点检测.pptx

    通过对本章的学习,可在以后的数据挖掘过程中采用适 当的算法并按所陈述的步骤实现综合应用,更希望本章能给读者一些启 发,思考如何改进或创造更好的挖掘算法。 归纳起来,数据挖掘技术的基本任务主要体现在分类与...

    数据挖掘原理与SPSS Clementine应用-数据挖掘模型评价

    17.1基于损失函数的标准 17.1.1混淆矩阵 17.1.2准确率及误差的度量 17.1.3两个评价模型成本的可视化工具 17.1.4评估分类器的准确率 17.2基于统计检验的准则 17.2.1统计模型之间的距离 17.2.2统计模型的离差 ...17.6小结

    精品版基于MATLAB R语言 SAS SPSS软件的 数据分析与挖掘实战 完整课程PPT课件 第5章 (共21页)挖掘建模之聚类分析.pptx

    小结 5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系; 5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型...

    SQL Server 2008商业智能完美解决方案 1/3

    12.3 数据挖掘算法 284 12.3.1 Microsoft朴素贝叶斯 284 12.3.2 Microsoft决策树算法 288 12.3.3 Microsoft线性回归算法 290 12.3.4 Microsoft时间序列算法 290 12.3.5 Microsoft聚类算法 292 12.3.6 Microsoft序列...

    SQL Server 2008商业智能完美解决方案 3/3

    12.3 数据挖掘算法 284 12.3.1 Microsoft朴素贝叶斯 284 12.3.2 Microsoft决策树算法 288 12.3.3 Microsoft线性回归算法 290 12.3.4 Microsoft时间序列算法 290 12.3.5 Microsoft聚类算法 292 12.3.6 Microsoft序列...

    SQL Server 2008商业智能完美解决方案 2/3

    12.3 数据挖掘算法 284 12.3.1 Microsoft朴素贝叶斯 284 12.3.2 Microsoft决策树算法 288 12.3.3 Microsoft线性回归算法 290 12.3.4 Microsoft时间序列算法 290 12.3.5 Microsoft聚类算法 292 12.3.6 Microsoft序列...

    地理信息系统算法基础.rar

    第13章空间数据挖掘算法 13.1概述 13.2分类算法 13.2.1数据分类的基本过程 13.2.2决策树分类概述 13.2.3决策树的特点 13.2.4二叉决策树算法与分类规则的生成 13.2.5决策树分类算法 13.2.6决策树属性的...

    SQL Server 2008 商业智能完美解决方案(3)

    12.3 数据挖掘算法 284 12.3.1 Microsoft朴素贝叶斯 284 12.3.2 Microsoft决策树算法 288 12.3.3 Microsoft线性回归算法 290 12.3.4 Microsoft时间序列算法 290 12.3.5 Microsoft聚类算法 292 12.3.6 ...

    地理信息系统算法基础

    yf)点的旋转变换3.1.11几点说明3.2球面坐标变换3.2.1球面坐标系的建立3.2.2确定新极Q地理坐标中 、 3.3仿射变换3.4地图投影变换3.4.1概述3.4.2地球椭球体的相关公式3.4.3兰勃特投影3.4.4墨卡托投影...

    基于内容的卫星云图挖掘方法研究

    图像挖掘技术作为数据挖掘领域研究的前沿, 提供了从大量图像中获取隐含的、有价值的、可理解知识的理论及方法。本文以 图像挖掘技术理论与方法为指导,设计了面向云图集和云图—雨量混合数据集的 三类挖掘任务,所...

    模式分类PatternClassificationSecondEdition中译本-模式分类.part1.rar

    在第二版中,除了保留第一版的关于统计模式识别和结构模式识别的主要内容以外,读者会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计...

    模式分类PatternClassificationSecondEdition中译本-模式分类.part2.rar

    在第二版中,除了保留第一版的关于统计模式识别和结构模式识别的主要内容以外,读者会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计...

    图解机器学习 日 杉山将 著;许永伟 译 高清PDF带书签

    主要研究方向为模式识别与机器学习、图像处理与计算机视觉,对数据挖掘、大数据和信息架构有浓厚兴趣。 目录 · · · · · · 第I部分 绪 论 第1章 什么是机器学习 2 1.1 学习的种类 2 1.2 机器学习任务的例子 4 ...

    智慧农业水稻产业解决方案

    水稻,是一年生禾本科植物,高约1.2米,...所以严格地说,把籼、粳和糯稻并列在分类上是不确切的,实际上籼、粳亚种都有粘与糯之分,如下所示: 糯性——长粒糯(小糯)籼稻非糯性——釉稻稻谷糯性——团粒糯(大糯)粳稻

    搜索引擎——原理、技术与系统.

    第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理....................................................

Global site tag (gtag.js) - Google Analytics