网络信息检索 实验报告
指导教师评语: 指导教师: 年月日 实验报告内容基本要求及参考格式 一、实验目的 二、实验所用仪器(或实验环境) 三、实验基本原理及步骤(或方案设计及理论计算) 四、实验数据记录(或仿真及软件设计) 五、实验结果分析及回答问题(或测试环境及测试结果)
实验项目一 网络信息搜集实验
一、实验内容、目标及要求 (一)实验内容
利用网络数据采集软件进行网络信息检索。
(二)实验目标
熟悉网络信息采集的工作流程,掌握常用数据采集软件的操作技巧。
(三)实验要求
1、熟悉网络信息采集原理,做好实验规划。
2、将完成实验的过程通过截屏的方式完整记录下来,并加以总结。 3、按时完成实验报告。
二、实验准备
计算机、Windows操作系统、互联网、网络数据采集软件(例如,八爪鱼)。
三、实验基本操作流程及说明
1、商品数据采集(必做)
选择一款网络数据自动采集软件,完成下列任务,并保留关键步骤的截图。 (1) 在淘宝(天猫)网站任选一款自己感兴趣的商品,进行数据采集。 (2) 采集任务中要包括滚动和翻页功能; (2) 画出数据采集流程图;
(3) 要求采集的数据字段至少包括:价格、标题、店铺、评价、URL字段。 (4) 导出数据并保存为Excel格式,截图前若干条信息。
(5) 分别统计出价格最低、评价最多的前10个商品信息,并结合个人分析判断,写出你推荐的商品名称和店铺名称,给出理由。
· 输入京东商城网址,在八爪鱼中打开网址:
· 在搜索框中输入“化妆品”,并设置点击“搜索”按钮: · 在页面底部设置“循环点击下一页”:
· 设置页面滚动:
· 选择采集字段:
· 将不需要的字段删除,并给字段标题命名:
· 开始采集,在1分24秒点击停止采集,得到结果:
· 导出去重数据,共490条:
· 为了便于排序评价数,将导出数据中的“万”替换为“0000”:
· 对数据进行整理排序:
· 得到评价最多及价格最低的前十个商品信息如下:
· 建议选择【favor海外专营店】的【露华浓粉底液】,粉底液不是能够过度追求低廉价格的产品,更应该参考口碑,所以我推荐销量、评价更多的露华浓,整体流程图如下:
2. 新闻数据采集(必做)
参考商品数据采集的方法和要求,选择一个感兴趣的新闻网站和新闻话题,进行信息采集。
· 选择新浪nba,采集某栏目下的新闻标题以及发布时间,循环点击每个链接:
实验项目二 检索性能评价
一、实验内容、目标及要求 (一)实验内容
对搜索引擎的检索性能进行评价。
(二)实验目标
熟悉检索性能评价的各项指标,加强信息检索性能评价的应用能力,巩固课堂知识。
(三)实验要求
1、熟悉信息检索性能评价方法,做好实验规划。
2、将完成实验的过程通过截屏的方式完整记录下来,并加以总结。 3、按时完成实验报告。
二、实验准备
计算机、Windows操作系统、互联网、浏览器、Excel软件。
三、实验基本操作流程及说明
以百度、360 (搜狗) 为例,在两个搜索引擎中输入同一个查询式,对其检索性能进行评价。
1. 分别在百度、360中输入同一个查询式,查询题目自拟。记录返回的结果
数量。
输入:球鞋+联名,百度结果28600000条:
360结果584条:
2. 设定该查询式的相关文档总数为30篇。查看搜索引擎前30条记录返回
的结果的相关性。分别对两个搜索引擎计算以下指标。 (1) 计算查全率和查准率; 在前30条检索结果中,百度共有5条不相关结果,360有6条,但是百度的第一条结果为新浪微博超级话题的广告位,我将其判定为不相关结果,这直接的影响了百度的检索结果评价。
(2) 绘制P-R图、11点插值图,并使用Excel软件制图;
PR图1.201.000.80百度360查准率0.600.400.200.000.000.200.400.600.801.00查全率 11点插值图1.210.8百度360查准率0.60.40.2000.10.20.30.40.50.60.70.80.9查全率
(3) 计算调和平均值F;
F(百度)=2PR/(P+R)=2*0.83*0.83/(0.83+0.83)=0.83 F(360)=2PR/(P+R)=2*0.8*0.8/(0.8+0.8)=0.8 (4) 计算倒排平均数MRR MRR(百度)=(1+1/2+1/2)/3=0.5 MRR(360)=(1+1/2+1/2)/3=0.5
3. 根据以上指标的计算结果,从多个方面评价并比较两个搜索引擎的检索
性能。 从检索结果的数量来看,百度远超360。从检索结果的查准率和查全率来说,百度略高于360,但是由于百度的第一位检索结果是推广位,相关性较差,对于用户的体验和信息获取有一定影响。
4. 记录在该实验中遇到哪些问题,是如何解决的,以及有哪些心得。 本次实验在使用360搜索的时候没有找到显示检索结果的界面。在平时日常生活中的检索无非就是简单地使用百度等检索工具。但经过本次实验,我发现在简单的检索界面背后其实有一套复杂的检索工具,在今后的学习中我希望可以更深入地了解这些检索工具,并熟练的使用。
因篇幅问题不能全部显示,请点此查看更多更全内容