课外天地 李树青学习天地数据库系统原理课件 → 课件10下载——数据仓库与数据挖掘


  共有20035人关注过本帖树形打印复制链接

主题:课件10下载——数据仓库与数据挖掘

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
课件10下载——数据仓库与数据挖掘  发帖心情 Post By:2006/6/5 20:19:44 [只看该作者]

Flash课件浏览为:

http://www.njmars.net/UploadFile/DB/十)数据仓库与数据挖掘_.swf

课件下载链接为: 点击下载(SWF文档)

1 数据仓库 数据仓库概述 数据收集与转换

1.1 数据仓库概述 发展背景 数据仓库

1.1.1 发展背景 当前数据处理的发展方向受到如下几个因素的影响: 数据规模(Data Rich but Information Poor) 相对于存储,效率更加看重(传统的数据分析技术侧重于实现数据的低冗余度) OLAP(Online Analytical Processing)业务日益重要(传统的业务为OLTP: Online Transaction Processing ) DSS发展的要求(数据自由抽取产生不可避免的混乱)

数据抽取: 抽取程序是所有程序中最简单的程序,它搜索整个文件或数据库,使用某些标准选择合乎限制的数据,并把数据传到其他文件或数据库中 抽取程序受到欢迎的原因: 用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时就与联机事务处理性不冲突 用抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变,最终用户一旦开始控制数据,他就最终“拥有”了这些数据 起初只是抽取,随后是抽取之上的抽取,接着是在此基础上的再次抽取,如此等等。对于一个大公司,每天进行多达45 000次的抽取不是没有听说过的 这种由失控的抽取过程产生的结构被称为“自然演化体系结构”—当一个组织以放任自流的态度处理整个硬、软件体系结构时,就会发生这种情况。组织越庞大,越成熟,自然演化体系结构问题就变得越严重 从总体上看,抽取程序形成了蜘蛛网

自然演化体系结构的问题: 数据可信性(原因在于数据无时基、数据算法上的差异、抽取的多层次、外部数据问题、无起始公共数据源) 生产率(诸多抽取程序各自独立,难于有效的联合计算) 数据转化为信息的不可行性(抽取数据在设计上没有考虑DSS分析的可能)

1.1.2 数据仓库 从理论的角度谈(W.H. Inmon) 数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理决策制定过程 从实践角度谈(Ralph Kimball) 数据仓库是针对查询和分析而架构的事务数据的拷贝(除了事务数据外,其他数据和报表数据也占有一定比重) 现代的绝大多数数据库都支持数据仓库 数据集市是部门级的数据仓库

数据仓库与数据库 数据仓库的数据和数据库的数据的差别其实也就是OLAP和OLTP之间的服务目标的体现,主要包含: 数据是否稳定 数据是否需要历史信息 数据是否通过增加冗余提高查询效率

数据仓库的特点: 数据是面向主题的(按照任务把数据进行全局的划分,而不是传统OLTP下的各自为政) 数据是集成的(格式是统一的,而且进行了必要的集成整理) 数据是随着时间变化的(保存了时间信息,供DSS决策分析使用) 数据是稳定的(通常不会关心事务操作、数据恢复等)

1.2 数据仓库的设计流程 数据收集与转换 数据的多维设计 数据多维分析

1.2.1 数据收集与转换 从异质数据库中各种格式的数据得到统一格式的数据,并收集到一个数据仓库中 SQL Server通过DTS服务实现此项功能

数据收集与转换主要过程分为四个阶段: 数据验证(Data Validation)如货币单位,数值大小、日期格式等 数据迁移(Data Migration)能在空闲时间进行操作,避免给OLTP业务带来影响 数据清理(Data Scrubbing)保证数据的一致性,如名称、大小、格式等皆要统一 数据转换(Data Transformation)将数据进行必要的格式化和修改,如字母全部大写,日期分离成年月日的详细表达形式等

很多数据库产品都提供了数据收集与转换服务,如SQL Server提供的DTS,它的特点为 简化异构数据库之间的数据的导入、导出和转换 提供一个独立的基础结构来进行 能够有效的通过程序来进行控制(如数据转化和执行调度)

1.2.2 数据的多维设计 适应OLAP的FASMI(Fast Analysis of Shared Multidimensional Information)要求 OLAP的标准模型有: 星型模型 雪花分层结构模型

1.2.2.1 星型模型 以事实表为整个模式的中心,并且事实表的字段通常是由一群主键(又被称为关键性能指标KPI)与一些分析汇总数值字段组成,而这一群主键的值往往又依*其四周相关的维表的主键值,即所谓的外部键。因此,星型模式也适用于关系型数据库的环境中 但在少数情况下,事实表可能包含与维表没有直接映射关系的字段,可是对于陈述事实却是很重要的,一股称之为退化维

1.2.2.2 雪花分层结构模型 维所涉及的信息对象之间也存在着复杂的数量对应关系,利用维分层结构模型可以进一步的对它们之间的关系进行规范化 星型模式下采用的是合并维分层结构,最显著的特点是将不同分层结构的信息对象完全合并在同一个维中,如产品维表可能包含产品总类、产品类别、产品详细类别及产品名称等

合并维分层结构的特点: 查询简单:由于所有的分层结构都合并在同—维表中,因此不需要知道每个分层结构的表名称,也不需做额外的表连接 需要较多的硬盘存储空间:因为没有做过正规化,所以存在数据重复

雪花分层结构模型 雪花分层结构类似正规化,所有类别用独立维表来存储数据,如将产品详细类别、产品类别及产品总类这三个分层结构分别独立成—个表,再用主键与外部键来维持彼此的关系

它的特点是: 节省硬盘空间:因为做过正规化,所以没有冗余 查询较复杂:由于所有的分层结构都在不同的表中,因此除了需要进行表连接以外,还需要知道每个分层结构所属的表名

1.2.3 数据多维分析 利用SQL Server提供的Analysis Services服务器可以有效的进行数据多维分析

2 数据挖掘 2.1 数据挖掘的概念 数据挖掘又称为“数据库知识发现”(Knowledge Discovery in Database,KDD),出现于八十年代末,九十年代发展很快 它是多学科交融的结果,代表着数据处理技术的新发展方向,即从海量信息中提取知识 它的产生背景是OLAP(On-Line Analytical Processing)的逐渐出现,它的主要服务功能是提供决策支持,与OLTP的日常业务处理要求相去甚远,由此导致了数据仓库(Data Warehouse)与数据挖掘的出现

2.2 数据挖掘的步骤 数据清理:Data Cleaning,消除噪音和不一致数据 数据集成:Data Integration,将多种数据源组合在一起(上述两阶段可以统称为数据预处理) 数据选择:Data Selection,从数据库中检索与任务相关的数据,此步骤也可以提前 数据变换:Data Transformation,用汇总和聚集等方法将数据变换成适合挖掘的形式 数据挖掘:Data Mining,利用智能方法提取数据模式 模式评估:Pattern Evaluation,识别真正有趣的知识模式,此步骤也可以提前 知识表示:Knowledge Presentation,以用户友好的界面展示结论

2.3 数据挖掘的功能 总体来讲,数据挖掘的功能可以分为两种:描述型(Descriptive)和预测型(Predictive) 描述型用来概括数据总体特征,甚至可以从不同角度和粒度来进行描述 预测型用来根据现有数据进行预测 由于用户通常并不清楚所需功能,所以数据挖掘需要能够支持多种模式的发掘,并且提供多种粒度的模式,并且允许用户引导系统的运行方向,最终还要提供一种可能性(Certainty)和可信度(Trustworthiness)的测量方法

数据挖掘的功能之一 概念/类描述:标识/区分(Concept/Class Description:Characterization/Discrimination) 标识用于对目标对象(Target Class)进行数据总结,可以使用OLAP的上滚取得概念规则(Characteristic Rule),使用下钻取得具体资料 区分用于利用对照对象(Contrasting Class)来比较目标对象,一般使用区分规则(Discriminant Rule)来表达

数据挖掘的功能之二 关联度分析(Association Analysis) 用来展示属性/值(Attribute/Value)是否存在相关关系,如age(x,”20..29”)^income(x,”25K..30K”)=>buys(x,”CD”) [support=2%,condifence=60%](支持度/概率) x表示一个变量,此处代表一个顾客,上述的语句表示有2%的顾客在20到29岁之间,收入在25K到30K之间,而且购买了CD,对于该年龄和收入的顾客来讲,购买CD的比例为60%

数据挖掘的功能之三 分类和预测(Classification/Prediction) 分类为发现一种新概念体系,一般依赖训练集(Training Data)得到模型(训练集类标签已知)。分类的展示方式主要有分类规则(IF-THEN)、决策树(Decision Trees)等 预测是指以此为依据来识别新的对象类别,同时广义的预测还包括预测对象中的缺失值和趋势的预测

数据挖掘的功能之四 聚类分析(Cluster Analysis) 与分类相比,主要在于聚类通常没有既定的分类体系,需要直接从数据中进行数据划分,如按照最大化类间相似度、最小化类中相似度的原则

数据挖掘的功能之五 边值分析(Outlier Analysis) 边值指不遵循数据中普遍规则的值,通常被舍弃,但是对于错误检测系统,它反而具有分析价值,如信用卡使用分析中可以通过巨额消费来检测恶意使用行为

2.4 数据挖掘的应用 2.4.1 超市布局 根据数据挖掘出特别的信息来,因此现在超级市场的厨房用品是按照女性的视线高度来摆放 根据研究指出,美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130~135公分之间 商品的相互关系分析,有效的摆放可以促销,如啤酒和尿布的故事

2.4.2 客户关系管理 随着经济全球化和服务一体化,顾客对产品和服务的满意与否,成为企业发展的决定性因素 另一方面,消费者的价值选择也经历了三个阶段 第一是理性消费时代,即社会物质不丰富、人们的生活水平较低,消费者重价格、重质量,价值选择标准是“好”与“差” 第二是感觉消费时代,随着生活水平逐步提高,人们注重产品的形象、品牌、设计,价值选择标准是“喜欢”与“不喜欢” 第三是感情消费时代,生活水平大大提高,消费者重视心灵的充实和满足,价值选择的标准是“满意”与“不满意” 两方面的变化将企业管理推到客户关系管理(CRM)时代。客户关系管理是指企业通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户获得、客户保留、客户忠诚和客户创利的目的

对于获得客户,可以采用DM中的分类方法。首先是通过对数据库中各数据行的分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类

如购物篮分析,根据被放到一个购物篮的内容记录数据,发现不同的被购买商品之间所存在的关联知识,找出常在一起被购买的商品,帮助商家分析顾客的购买习惯,制定有针对性的市场营销策略。向上销售可以作为追加销售的重要方法,如:向客户销售某一图书的后续部分(上、下册)、姊妹篇、VCD等相关产品。通过分析,掌握客户的各种特征如年龄、性别、教育程度、职业、收入等与购书金额、购买频度、喜好种类、决定购买因素、关心问题之间的内在联系,找出客户的购买特征,进而推荐符合这些特征的产品 研究表明,企业在获得新客户上的花费是他们保留已有客户花费的5倍

2.4.3 天文数据分析中的数据挖掘 数据挖掘在天文学上有一个非常著名的应用系统:SKICAT,它是美国加州理工学院与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙结构

在天文学研究以及航天数据分析中,人们遇到了一个很大的难题,即人工对大批量数据分析的无能为力。这里所说的数据量一般在数千兆以上,现有的大型数据库只是把数据以另一种形式给出,而并没有对数据进行更深层次的处理,因而,在对大量天体数据进行分析的过程中,很难起到根本的促进作用。SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应研究

使用SKICAT对天体数据进行分析,一方面是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。SKICAT通过有效地对天体图像的特征进行定义,对那些亮度较低的图像可以得到比人工分类更好的结果。将仅由象素包含的关于天体的多维信息通过变换形成低维空间内的向量空间,并进而利用示范学习进行分类,以达到人工直接观察无法达到的分类精度

2.4.4 欺诈甑别 在银行或商业的金融活动中,经常发生一些欺诈行为,比如部分客户的恶性透支,给银行或企业带来巨大的经济损失。对于这种诈骗行为进行预测,即使正确率很低的预测,都可以减少诈骗行为发生的机会,从而减少经济损失。美国的城市银行利用KDD技术对已有的客户数据进行模式提取,获得关于客户信用评估的模型,然后根据客户的提供的相关信息,给出发放给客户信用卡的可能性。这就是说该模型就得到客户恶性透支的可能性,对于具有这种可能性的值大于规定阈值的客户,银行用某种理由不予发放,从而每年避免了十几个亿美元的损失

[此贴子已经被作者于2006-12-21 14:19:09编辑过]

 回到顶部