您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页网络信息检索 实验报告

网络信息检索 实验报告

来源:爱go旅游网


网络信息检索 实验报告

指导教师评语: 指导教师: 年月日 实验报告内容基本要求及参考格式 一、实验目的 二、实验所用仪器(或实验环境) 三、实验基本原理及步骤(或方案设计及理论计算) 四、实验数据记录(或仿真及软件设计) 五、实验结果分析及回答问题(或测试环境及测试结果)

实验项目一 网络信息搜集实验

一、实验内容、目标及要求 (一)实验内容

利用网络数据采集软件进行网络信息检索。

(二)实验目标

熟悉网络信息采集的工作流程,掌握常用数据采集软件的操作技巧。

(三)实验要求

1、熟悉网络信息采集原理,做好实验规划。

2、将完成实验的过程通过截屏的方式完整记录下来,并加以总结。 3、按时完成实验报告。

二、实验准备

计算机、Windows操作系统、互联网、网络数据采集软件(例如,八爪鱼)。

三、实验基本操作流程及说明

1、商品数据采集(必做)

选择一款网络数据自动采集软件,完成下列任务,并保留关键步骤的截图。 (1) 在淘宝(天猫)网站任选一款自己感兴趣的商品,进行数据采集。 (2) 采集任务中要包括滚动和翻页功能; (2) 画出数据采集流程图;

(3) 要求采集的数据字段至少包括:价格、标题、店铺、评价、URL字段。 (4) 导出数据并保存为Excel格式,截图前若干条信息。

(5) 分别统计出价格最低、评价最多的前10个商品信息,并结合个人分析判断,写出你推荐的商品名称和店铺名称,给出理由。

· 输入京东商城网址,在八爪鱼中打开网址:

· 在搜索框中输入“化妆品”,并设置点击“搜索”按钮: · 在页面底部设置“循环点击下一页”:

· 设置页面滚动:

· 选择采集字段:

· 将不需要的字段删除,并给字段标题命名:

· 开始采集,在1分24秒点击停止采集,得到结果:

· 导出去重数据,共490条:

· 为了便于排序评价数,将导出数据中的“万”替换为“0000”:

· 对数据进行整理排序:

· 得到评价最多及价格最低的前十个商品信息如下:

· 建议选择【favor海外专营店】的【露华浓粉底液】,粉底液不是能够过度追求低廉价格的产品,更应该参考口碑,所以我推荐销量、评价更多的露华浓,整体流程图如下:

2. 新闻数据采集(必做)

参考商品数据采集的方法和要求,选择一个感兴趣的新闻网站和新闻话题,进行信息采集。

· 选择新浪nba,采集某栏目下的新闻标题以及发布时间,循环点击每个链接:

实验项目二 检索性能评价

一、实验内容、目标及要求 (一)实验内容

对搜索引擎的检索性能进行评价。

(二)实验目标

熟悉检索性能评价的各项指标,加强信息检索性能评价的应用能力,巩固课堂知识。

(三)实验要求

1、熟悉信息检索性能评价方法,做好实验规划。

2、将完成实验的过程通过截屏的方式完整记录下来,并加以总结。 3、按时完成实验报告。

二、实验准备

计算机、Windows操作系统、互联网、浏览器、Excel软件。

三、实验基本操作流程及说明

以百度、360 (搜狗) 为例,在两个搜索引擎中输入同一个查询式,对其检索性能进行评价。

1. 分别在百度、360中输入同一个查询式,查询题目自拟。记录返回的结果

数量。

输入:球鞋+联名,百度结果28600000条:

360结果584条:

2. 设定该查询式的相关文档总数为30篇。查看搜索引擎前30条记录返回

的结果的相关性。分别对两个搜索引擎计算以下指标。 (1) 计算查全率和查准率; 在前30条检索结果中,百度共有5条不相关结果,360有6条,但是百度的第一条结果为新浪微博超级话题的广告位,我将其判定为不相关结果,这直接的影响了百度的检索结果评价。

(2) 绘制P-R图、11点插值图,并使用Excel软件制图;

PR图1.201.000.80百度360查准率0.600.400.200.000.000.200.400.600.801.00查全率 11点插值图1.210.8百度360查准率0.60.40.2000.10.20.30.40.50.60.70.80.9查全率

(3) 计算调和平均值F;

F(百度)=2PR/(P+R)=2*0.83*0.83/(0.83+0.83)=0.83 F(360)=2PR/(P+R)=2*0.8*0.8/(0.8+0.8)=0.8 (4) 计算倒排平均数MRR MRR(百度)=(1+1/2+1/2)/3=0.5 MRR(360)=(1+1/2+1/2)/3=0.5

3. 根据以上指标的计算结果,从多个方面评价并比较两个搜索引擎的检索

性能。 从检索结果的数量来看,百度远超360。从检索结果的查准率和查全率来说,百度略高于360,但是由于百度的第一位检索结果是推广位,相关性较差,对于用户的体验和信息获取有一定影响。

4. 记录在该实验中遇到哪些问题,是如何解决的,以及有哪些心得。 本次实验在使用360搜索的时候没有找到显示检索结果的界面。在平时日常生活中的检索无非就是简单地使用百度等检索工具。但经过本次实验,我发现在简单的检索界面背后其实有一套复杂的检索工具,在今后的学习中我希望可以更深入地了解这些检索工具,并熟练的使用。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务