您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页实验二、数据仓库的OLAP技术实验

实验二、数据仓库的OLAP技术实验

来源:爱go旅游网
1 《数据仓库与数据挖掘》实验指导书 《数据仓库与数据挖掘》实验指导书

自编

BISTU

计算机学院

数据仓库与数据挖掘课程组

2013年11月

实验二、数据仓库的OLAP技术实验

实验目的:

1)掌握决策树模型的基本概念和计算方法,并用其预测三国表中“身份属性”与其他属性的关系;

2)掌握贝叶斯分类器的基本概念,并用其预测三国表中“身份属性”与其他属性的关系;

3)掌握关联规则的基本概念和种类,并用其预测“肾细胞癌转移情况”。

4)对比以上三种模型,分析其联系与区别。

《数据仓库与数据挖掘》实验指导书

实验结果分析与要求:

完成实验目的中的内容,记录操作中的各个步骤,并进行分析。

实验内容:

1、 使用决策树模型预测三国表中“身份属性”与其他属性间的关系;

材料:SQL范例资料.xls中的三国表。

软件:SQL Server 2008 R2

基本步骤:

1) 将三国表导入到SQL数据库,具体步骤如《实验一》所示。

2) 建立“Analysis Service” 项目。

2.1 打开“SQL Server Business Intelligence Development Studio”,选择“文件(F)”“新建(N)”“项目”;在“新建项目”选项卡的“Visual Studio已安装的模板”中,选择“Analysis Service项目”,并设置项目的“名称(N)”和“位置(L)”,如将名称设置为“Test2”,最后单击“确定”按钮即可新建一个SSIS项目。

2

《数据仓库与数据挖掘》实验指导书

2.2 打开安装目录“Microsoft SQL Server 2008 R2\\配置工具”下的“SQL Server 配置管理器”,分别将“SQL Server (MSSQLSERVER1)”、“SQL Server Analysis Services (MSSQLSERVER1)”、“SQL Server Browser”服务启动,并将“登陆身份为”均设置“LocalSystem”。

2.3 在VS中,选择“项目(P)”“属性(P),在“Test2 属性页”选项卡的“配置属性”“部署”中,将默认的服务器“localhost”,更改为步骤1)中所设置的服务器名\\实例名,该例中即A03\\MSSQLSERVER1,然后点击“应用”,最后单击“确定”。

3

《数据仓库与数据挖掘》实验指导书

3) 建立数据源

3.1 在“解决方案资源管理器”窗口,右击项目名下的“数据源”,选择“新建数

据源”,进入“数据源向导”界面。

3.2 单击“下一步”按钮,再单击“新建”按钮,进入“连接管理器”界面。单击

“服务器名(E)”的下拉列表,选择步骤1)中所使用的服务器,该例中即为“A03”; 单击“选择或输入一个数据库名(D)”的下拉列表,选择步骤1)中所使用的数据库,该例中即为“Mydatabase”;点击“确定”按钮退回到“数据源向导”界面。

3.3 单击“下一步”按钮,在“模拟信息”选项卡中选择“使用服务账户(Y)”,单

击“下一步”按钮,单击“完成”按钮。

4) 建立数据源视图

4

《数据仓库与数据挖掘》实验指导书

4.1 在“解决方案资源管理器”窗口,右击项目名下的“数据源视图”,选择“新

建数据源视图”,进入“数据源视图向导”界面。

4.2 单击“下一步”按钮,在“关系数据源(R)”中选择所使用的数据库,该例子中

使用“Mydatabase”。

4.3 单击“下一步”按钮,将“可用对象(A)”中的表移入“包含的对象(I)”中,

单击“下一步”按钮,再单击“完成”按钮。

5) 建立数据挖掘结构

5.1 在“解决方案资源管理器”窗口,右击项目名下的“挖掘结构”,选择“新建

挖掘结构”,进入“挖掘结构向导”界面。

5.2 单击“下一步”按钮,选择“从现有关系数据库或数据仓库(D)”.

5.3 单击“下一步”按钮到数据挖掘技术部分,选择“Microsoft决策树”后,单

击“下一步”按钮。

5.4 选择所要用数据的数据库位置后,单击“下一步”按钮。

5.5 选择要使用的数据表,单击“下一步”按钮。

5.6 选择所需的“索引键”、“输入变量”、“预测变量”;以“序列号码”为键值,“身

份”为预测变量,并单击“建议”按钮以了解预测变量与其他变量间的相关性,可找出较具影响力的输入变量,完成后单击“确定”按钮,这时会回到原来的页面,单击“下一步”

5

《数据仓库与数据挖掘》实验指导书

按钮。

5.7 单击“检测”按钮,此时程序会提出一些变量的相关系数,用户可自行选择输

入与否,声明正确的数据属性,完成后单击“下一步”按钮。

5.8 在此可选择测试数据的百分比,本实验中无测试数据,百分比选择“0”。

5.9 单击下一步,更改挖掘结构名称,单击“完成”按钮。

6) 选择“挖掘模型查看器”,程序询问是否生成和部署项目,单击“是”按钮;接下来单击“运行”按钮,运行完成后单击“关闭”按钮。

7) 建模完成,生成数据挖掘结构接口包含数据挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确度图标以及挖掘模型预测;其中在挖掘结构中,主要是呈现数据间的关联性以及分析的变量。而在挖掘模型中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并调整变量,变量使用状况包含Ignore(忽略)、Input(输入变量)、Predict(预测变量、输入变量)以及PredictOnly(预测变量)。而在挖掘模型上右击,选择“设置算法参数”针对方法论的参数设置加以编辑。挖掘模型查看器则是呈现此树状结构,对于数据的分布进一步的加以了解。而可以从“依赖关系网络”了解因变量与自变量间的关联性强弱程度。

2、 使用贝叶斯模型预测三国表中“身份属性”与其他属性间的关系;

材料:SQL范例资料.xls中的三国表。

软件:SQL Server 2008 R2

6

《数据仓库与数据挖掘》实验指导书

基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。

3、 使用关联规则预测肾癌表中“肾细胞癌转移情况”;

材料:SQL范例资料.xls中的肾癌。

软件:SQL Server 2008 R2

基本步骤:除挖掘技术部分选择合适的挖掘方法外,其他步骤同上。

7

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务