您的当前位置：首页实验二、数据仓库的OLAP技术实验

实验二、数据仓库的OLAP技术实验

来源：爱go旅游网

1 《数据仓库与数据挖掘》实验指导书《数据仓库与数据挖掘》实验指导书

自编

BISTU

计算机学院

数据仓库与数据挖掘课程组

2013年11月

实验二、数据仓库的OLAP技术实验

实验目的：

1）掌握决策树模型的基本概念和计算方法，并用其预测三国表中“身份属性”与其他属性的关系；

2）掌握贝叶斯分类器的基本概念，并用其预测三国表中“身份属性”与其他属性的关系；

3）掌握关联规则的基本概念和种类，并用其预测“肾细胞癌转移情况”。

4）对比以上三种模型，分析其联系与区别。

《数据仓库与数据挖掘》实验指导书

实验结果分析与要求：

完成实验目的中的内容，记录操作中的各个步骤，并进行分析。

实验内容：

1、使用决策树模型预测三国表中“身份属性”与其他属性间的关系；

材料：SQL范例资料.xls中的三国表。

软件：SQL Server 2008 R2

基本步骤：

1）将三国表导入到SQL数据库，具体步骤如《实验一》所示。

2）建立“Analysis Service” 项目。

2.1 打开“SQL Server Business Intelligence Development Studio”，选择“文件(F)”“新建(N)”“项目”；在“新建项目”选项卡的“Visual Studio已安装的模板”中，选择“Analysis Service项目”，并设置项目的“名称(N)”和“位置(L)”,如将名称设置为“Test2”,最后单击“确定”按钮即可新建一个SSIS项目。

《数据仓库与数据挖掘》实验指导书

2.2 打开安装目录“Microsoft SQL Server 2008 R2\\配置工具”下的“SQL Server 配置管理器”，分别将“SQL Server (MSSQLSERVER1)”、“SQL Server Analysis Services (MSSQLSERVER1)”、“SQL Server Browser”服务启动，并将“登陆身份为”均设置“LocalSystem”。

2.3 在VS中，选择“项目(P)”“属性(P)，在“Test2 属性页”选项卡的“配置属性”“部署”中，将默认的服务器“localhost”，更改为步骤1）中所设置的服务器名\\实例名，该例中即A03\\MSSQLSERVER1,然后点击“应用”，最后单击“确定”。

《数据仓库与数据挖掘》实验指导书

3）建立数据源

3.1 在“解决方案资源管理器”窗口，右击项目名下的“数据源”，选择“新建数

据源”，进入“数据源向导”界面。

3.2 单击“下一步”按钮，再单击“新建”按钮，进入“连接管理器”界面。单击

“服务器名(E)”的下拉列表，选择步骤1）中所使用的服务器，该例中即为“A03”; 单击“选择或输入一个数据库名(D)”的下拉列表，选择步骤1）中所使用的数据库，该例中即为“Mydatabase”;点击“确定”按钮退回到“数据源向导”界面。

3.3 单击“下一步”按钮，在“模拟信息”选项卡中选择“使用服务账户(Y)”,单

击“下一步”按钮，单击“完成”按钮。

4）建立数据源视图

《数据仓库与数据挖掘》实验指导书

4.1 在“解决方案资源管理器”窗口，右击项目名下的“数据源视图”，选择“新

建数据源视图”，进入“数据源视图向导”界面。

4.2 单击“下一步”按钮，在“关系数据源(R)”中选择所使用的数据库，该例子中

使用“Mydatabase”。

4.3 单击“下一步”按钮，将“可用对象(A)”中的表移入“包含的对象(I)”中，

单击“下一步”按钮，再单击“完成”按钮。

5）建立数据挖掘结构

5.1 在“解决方案资源管理器”窗口，右击项目名下的“挖掘结构”，选择“新建

挖掘结构”，进入“挖掘结构向导”界面。

5.2 单击“下一步”按钮，选择“从现有关系数据库或数据仓库(D)”.

5.3 单击“下一步”按钮到数据挖掘技术部分，选择“Microsoft决策树”后，单

击“下一步”按钮。

5.4 选择所要用数据的数据库位置后，单击“下一步”按钮。

5.5 选择要使用的数据表，单击“下一步”按钮。

5.6 选择所需的“索引键”、“输入变量”、“预测变量”；以“序列号码”为键值，“身

份”为预测变量，并单击“建议”按钮以了解预测变量与其他变量间的相关性，可找出较具影响力的输入变量，完成后单击“确定”按钮，这时会回到原来的页面，单击“下一步”

《数据仓库与数据挖掘》实验指导书

按钮。

5.7 单击“检测”按钮，此时程序会提出一些变量的相关系数，用户可自行选择输

入与否，声明正确的数据属性，完成后单击“下一步”按钮。

5.8 在此可选择测试数据的百分比，本实验中无测试数据，百分比选择“0”。

5.9 单击下一步，更改挖掘结构名称，单击“完成”按钮。

6）选择“挖掘模型查看器”，程序询问是否生成和部署项目，单击“是”按钮；接下来单击“运行”按钮，运行完成后单击“关闭”按钮。

7）建模完成，生成数据挖掘结构接口包含数据挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确度图标以及挖掘模型预测；其中在挖掘结构中，主要是呈现数据间的关联性以及分析的变量。而在挖掘模型中，主要是列出所建立的挖掘模型，也可以新建挖掘模型，并调整变量，变量使用状况包含Ignore（忽略）、Input（输入变量）、Predict（预测变量、输入变量）以及PredictOnly（预测变量）。而在挖掘模型上右击，选择“设置算法参数”针对方法论的参数设置加以编辑。挖掘模型查看器则是呈现此树状结构，对于数据的分布进一步的加以了解。而可以从“依赖关系网络”了解因变量与自变量间的关联性强弱程度。

2、使用贝叶斯模型预测三国表中“身份属性”与其他属性间的关系；

材料：SQL范例资料.xls中的三国表。

软件：SQL Server 2008 R2

《数据仓库与数据挖掘》实验指导书

基本步骤：除挖掘技术部分选择合适的挖掘方法外，其他步骤同上。

3、使用关联规则预测肾癌表中“肾细胞癌转移情况”；

材料：SQL范例资料.xls中的肾癌。

软件：SQL Server 2008 R2

基本步骤：除挖掘技术部分选择合适的挖掘方法外，其他步骤同上。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文