2017年第9期 文章编号:1006-2475(2017)09-0106-05 计算机与现代化 JISUANJ1 YU XIANDAIHUA 第265期 在线教学中影响学习者学习效果的因素分析与实证研究 陈国心,郝选文,裘国永,吴振强 (陕西师范大学计算机科学学院,陕西西安710062) 摘要:在教育信息化、全球化的大环境下,如MOOC、可汗学院、高校精品课程等在线教育平台应运而生,这些平台每年都 会产生海量的学习活动和教学管理数据,如何有效地利用这些数据提升学生的学习效率已经成为在线教育面临的挑战 之一。目前,对在线学习过程中影响学习效果的因素,研究者持有不同的态度。本文利用某高校在线教育平台数据,探 索与验证在线教学过程中影响学习者学习效率的相关因素。首先对目前在线教育情况与分析技术进行说明,再结合统 计与关联规则挖掘算法的特点.将数据预处理后,通过统计与Apriori关联分析算法进行分析,并将结果可视化呈现。分 析发现,教师批阅作业所给出的平均成绩与教师批阅的作业量负相关;学生完成在线作业普遍具有“延迟性”;学习效果 与登录次数、在线时间和在线讨论次数正相关。最后通过分析结果,给出在线学习过程中提高学生学习效果的建议。 关键词:教育现代化;大数据;数据挖掘;可视化 中图分类号:G43 文献标识码:A doi:10.3969/j.issn.1006-2475.2017.09.020 Factor Analysis and Empirical Study on Effect of Learner’S Learning in Online Teaching CHEN Guo—xin,HAO Xuan—wen,QIU Guo-yong,WU Zhen—qiang (School of Computer Science,Shaanxi Normal University,Xi’an 710062,China) Abstract:In the educational environment of infonnatiz ̄ion and globalization,online education platforms such as MOOC,Khan Academy,and Higher Quality Courses emerge.Improving the efficiency of student learning has become one of the challenges fa- cing online education.At present,the researchers have diferent attitudes towards the factors that influence the learning effect in the online learning process.This paper explores and validates the factors that influence learners’learning efficiency in the process of online teaching by using the online education platform data of a university.After analyzing the characteristics of statistical and association rules mining algorithm,the data are preprocessed,analyzed by statistical and Apriori correlation analysis algorithm, and the results are presented by visualization.The results show that the average scores of teachers’marking work are negatively correlated with the workload of teachers’marking.The students’online work is generally“delayed”:the learning effect is posi— tively correlated with the number of login,online time and online discussion.Finally,the results of the analysis are given to im— prove the learning effect of the online learning process. Key words:education modernization;big data;data mining;visualization 0 引 言 教育的本质是一个教与学的过程,目的是将前人 性。传统教育模式主要以学校教育为主,发生在学校 和各级教育机构中,教师采用讲授为主的教学模式, 以知识传授为教师教学的目标。 而随着互联网技术的迅猛发展和各类如MOOC、 的知识、经验、思维与行为方式等进行传承,并且教育 是一个巨大而复杂的系统,涉及教学、管理、科研、服 EDX、高校精品课程等在线学习平台的出现,网络学 习成为人们获取知识的模式之一。 在线学习平台的快速发展,也带来了海量学习数 务等诸多行业,不同于其他具有清晰、规范的业务流 程的行业,如金融、汽车制造业等。不同地区、不同学 校、不同家庭环境,甚至不同学生和老师都具有差异 据的产生。在美、英、法等为代表的发达国家将大数 收稿日期:2016・12・28 基金项目:高校基本科研业务费专项资金资助项目(GK201501008,GK261001236);陕西省重点科技创新团队项目 (2014KTC一18) 作者简介:陈国心(1991.),男,陕西西安人,陕西师范大学计算机科学学院硕士研究生,研究方向:大数据分析;郝选文,男, 讲师,博士,研究方向:ICT支撑教学;裘国永,男,副教授,硕士生导师,博士,研究方向:信息技术教育;吴振强,男,教授,博 士生导师,博士,研究方向:ICT支撑教学。 2017年第9期 陈国心等:在线教学中影响学习者学习效果的因素分析与实证研究 107 据作为新型战略资源的同时,我国也在加速部署教育 大数据战略。教育大数据是一种无形的资产,汇聚无 数在传统教育模式下看不到和不被重视的数据进行 挖掘与分析,其结果可以作为对学生学习与教师教学 习评价与决策提供依据。 1关联规则分析 关联规则分析也称为购物篮分析,最早是为了发 技能的评价依据,是实现学生个性化学习的重要保 障,进而实现从教学过程“非量化”到“可量化”;教学 决策“经验化”到“个性化”;教育模式“大众化”到 “个性化”;教育管理从“不可见”到“可视化”的重大 教育改革。 教育信息化与大数据的发展一方面能够改善教 育发展不均衡,教育资源分配不协调的问题;另一方 面通过量化教育来驱动教学,通过分析学习数据实现 现超市销售数据库中不同商品问的关联关系,目前是 数据挖掘中使用最广泛的研究方法之一,目的是在数 据集中找出各项问没有直接在数据中表示出来的关 联关系。常用的关联规则算法如表l所示。 表I常见关联规则算法 算法名称 Apriori FP—Tree Eclat算法 灰色关联法 算法描述 通过连接、剪枝生成频繁项集 Apriofi的改良版,不产生候选项集 深度优先算法,划分为较小于空间 分析因素问的影响程度的分析方法 教师与学生个性化的“教”与“学”,是教学决策的主 要组成部分,如图1所示。 1.1 Apriori算法 算法思想是在支持度s与置信度c确定其关联 规则强度的情况下,找出数据集中的所有频繁项集并 生成强关联关系。支持度s与置信度C这2种度量 的形式定义如下: (X--*Y): I (X--- ̄Y): 叮(^, 陶1 数据驱动教学结构框架 其中,x与Y是不相交的项集,即X“相交”Y为空。 1.2 Apriori算法实现 1)对于给定的最小支持度阈值,对1项候选集 目前在线教育过程中,教学资源多是把传统教学 过程搬到网络上,教学资源数量巨大,但缺乏针对性 的个性化教学指导;教与学的时空分离,学生的学习 过程缺乏有效监督,学习效果难以保证;并且由于在 线学习者的不同特点、网络的实时性和交互性、信息 的存储性等,传统的学习评价模式已经不能适应网络 环境下的学习评价。在线学习评价是通过研究学习 者的学习背景、学习手段、学习行为以及学习成果,找 到适合学习者的学习过程和学习方式。 由于不同性别、不同学科背景的学习者的学习习 惯普遍存在差异,了解学习群体的行为特征有助于学 C ,剔除其中小于阈值的项集得到1项频繁集L。; 2)由L。自身连接产生2项候选集C:,保留其中 大于阈值的项集得到2项频繁项集L ; 3)南L 与L.连接产生3项候选集C,,保留C,中 满足约束条件的项集得到3项频繁项集L ; 4)循环直到得到频繁项集L 。 由先验原理可知:假设{c,d,e}是频繁项集,则 它的所有子集也一定是频繁的。相反,如果项集{a, 习决策,也为学习者提供有效的支持服务提供依据。 而关于学习效果的影响因素研究甚少,结论的可信度 也需进一步验证,例如刘惠如 探讨了网络学习行 b}是非频繁的,则它的所有超集也是非频繁的。因 此,一旦发现某项集是非频繁的,则整个包含该项集 的子图可以被立即剪枝。 为与学习效果的关系,研究表明登录次数、浏览总时 间、讨论区发帖次数等学习行为均与学习效果有显著 的正相关,但杨奕晨和柴蕙质 的研究表明登录次 数、参与讨论次数等因素对学习效果没有显著影响。 本文通过Apriori数据挖掘与数据统计的方法, 将学习效果与学习行为相结合,可视化分析学生学习 Apl・iori算法虽然对I/O负载大,但对数据集要求 简单。数据预处理后,统计分析各个数值类型数据 集,再通过字符化与数字化性别、专业、相对提交时 间、登录次数、在线学习总时间这5组数据,查找其中 频繁项集,再由频繁项集查找强关联关系,最后与统 计数据结果相比较,分析其中与学习结果、行为习惯 行为特征,讨论影响学生学习效果的因素,为学生学 相关的关联关系。 计算机与现代化 2017年第9期 2数据质量分析与数据预处理 本文分析所用数据为某高校远程教育学院学生 远程学习过程中产生的数据,学生分布16个学院,约 3000条学生数据,其中包括姓名、性别、学号、邮箱、 学院、批改老师编号、提问问题、所学课程、测试提交 时间、考试成绩等,其中学号、成绩为数字型数据,提 交时间为时间数据,包括年月日时分秒,其他均为字 符型数据。另有235438条包括登录、退出、博客讨论 等学生在线操作行为数据,每条行为数据均有时间记 录,统计每个学生登录总次数、博客讨论总次数,每个 学生每次登录时间与退出时间差值之和为学生在线 学习总时间。对于只有登录没有退出等异常操作数 据,则不计入统计。 2.1数据质量分析 数据质量分析是数据预处理的前提,是数据挖掘 的重要前提,也是数据挖掘结论有效性的基础。数据 质量分析的主要目的是检查原始数据是否存在“脏 数据”。脏数据包括缺失值、异常值、不一致的值和 重复数据。 出现脏数据的原因多种多样,信息的遗漏、无法 获取、属性不存、录入错误、数据值异常等都是可能产 生脏数据的原因。 脏数据的出现将可能使数据挖掘建模丢失大量 有用数据,甚至使建模过程出现混乱,产生不可靠的 输出结果。 对本文而言,其中缺失值、不一致的值和重复值 可以通过观察和简单的统计分析来排除,而异常值则 可通过箱形图提供的异常值识别标准来识别,如图2 所示。 图2箱线图检测异常值 由于教育数据的特殊性,排除无成绩或成绩为0 的学生数据,重点对有成绩的学生数据进行分析,并 认为该成绩为学生的有效成绩;学院与专业数据重 复,择一保留;排除无用链接等带有特殊字符的学生 数据。 2.2数据预处理 为了适应数据挖掘的需要,数据预处理包含各种 策略和技术。主要分为选择分析所需要的数据对象 和属性和创建/改变属性2类。二者都是为了提高数 据挖掘效率。 初始数据往往会出现维度过多、不适合挖掘算 法、数据分布在多张表中等诸多问题。 通过聚集、维规约、离散化和二元化等方式,对数 据进行处理,处理后保留字段以及含义,如表2所示。 表2数据保留字段及含义 变量 数据集命名 备注 性别 UserSex 1为男,2为女 学院 Department 16个学院 提交时间 HandlnDate 试卷提交时间 成绩 Score 考试成绩 教师编号 TeacherNum 为l6个老师 登录次数 Login 每个学生登录次数 浏览时间 Time 每个学生浏览时间 讨论次数 Blog 每个学生讨论次数 对性别、学院、教师数据预处理,如表3所示。 表3预处理数据 属性 说明 字符化 男 1 性别 女 2 学院 16个院 X1,)(2…,x16 教师 16个教师 tl,t2,…,t16 部分统计过程中,需要对成绩分级,分析不同等 级下的学生学习行为,如表4所示。 表4成绩符号化 属性 说明 符号化 ≥85 g1 ≥75EL<85 g2 成绩 ≥6o且<75 <60 g4 对于时序数据格式为2013-04—19 1 1:59:00,直接 通过转化为时间戳1366343940,数值过大,不利于数 据挖掘。观察发现,数据提交与批改时间发生在3月 5日 月4 Et,将绝对时间转化为相对时间。 这里将分析的时序数据值精确到日,而不考虑时 分秒。统计发现,提交作业的最早时间为2O13-()3-23 日,故将该日作为提交作业日期与批改作业日期的参 考日期。 根据差值,获得提交日期与批改时期的相对时 间: 提交Et期分布:0 4 6 8 9 10 12 14 16 18 19 20 21 22 24 25 26 27 28 29 3O 31 32 33 34 批改El期分布:45 46 48 50 51 52 53 54 55 56 57 2017年第9期 陈国心等:在线教学中影响学习者学习效果的因素分析与实证研究 109 58 59 6l 62 63 64 65 66 67 68 69 70 7l 72 73 3数据分析与可视化 3.1统计分析与可视化 学生成绩分布直方图分析的可视化结果如图3 所示。可以看出,学生成绩分布比较合理,主要分布 在80分左右,95分以上与6O分以下的学生比例很 少,有极少数异常值的分数在45分以下。 g 量 厂_1厂 吕 0 几一 l 0 2O 40 6O 80 10o 成绩分布 图3成绩分布直方图 学生提交作业时间的封箱统计散点图,如图4所 平均登录次数一次一 示。通过分析可以发现,学生提交作业时间主要集中 卯 ∞ 咖 咖 渤 咖 珊 瑚 ∞ ∞ 如 ∞ 如 ∞ 1●● 1 ●●—,●●J,●●●1●J在最后5天,占到总人数的94.79%,最后10天的提 交人数占总人数的98.69%。可以发现大部分学生 在提交作业的时间上都具有“滞后性”。 + 241 向 上 递 增 O 2O 40 6o 8O 成绩 图4学生提交作业时间的封箱统计散点图 对比每个老师的批改学生试卷与对应的学生平 均成绩如图5所示。可以发现,随着批改试卷量的增 加,对应的平均成绩呈现出了波动递减的趋势,而批 改数量大于187时的教师批改平均成绩基本低于平 均成绩,而批改数量小于170的教师的批改平均成绩 均高于平均成绩。可以认为批改数量对教师评分有 一定影响。 \ 、 ~ tl4t6 t5t…t4 tll l6tl t3 tl31:0 78V9 t l10 47 107 119 142 165 167 170 176 179 l87 188 190 197 240 379 教师对应批改试卷数 图5教师批改试卷数与对应的平均成绩折线图 不同成绩等级的学生与平均登录次数、平均浏览 总时间、平均参与讨论次数(发帖、回帖)的统计直方 图,如图6~图8所示。随着成绩等级降低,对应学 生群体的平均登录次数、浏览总时间、参与讨论次数 也逐渐减少。 gl g3 & 图6分级成绩的平均登录次数直方图 7 7 平均讨论次数一次一6 6 5 5 4 4 . ●叫●纠 刚 ● ● ● 715.78 1........................_-J [二===] g正 图7分级成绩的学生平均浏览时间直方图 7.66 I口 ....._J I厂] ..4.6.8. .-J gl g2 岛 g4 图8分级成绩的平均讨论次数直方图 3.2基于Apriori的关联规则分析 分析学生性别、专业、学习行为对学习成绩的影 响之间的关联关系,将登录次数、浏览总时间按照各 成绩等级中的学生比例(g,一&分别为22.8%、46.0%、 24.4%、6.9%)字符化,如表5所示。 ’表5登录次数、浏览时间字符化 属性 符号化 属性 符号化 Ll Tl 登录次数 L2 浏览时间 T2 (Lo ̄n) (Time) L L 导人数据如图9所示。 平均浏览时间一分一110 ,na_ s【userOata1.) [1】 Usersex Department HandInD札e” 5core >Str(UserOata1) ’data.frame’: 2703 ob5 of 6 variab1es: 计“Login” Time” 算机与现代化 2017年第9期 I usersex :{nt 11 2 2111 2 2 2... 1 Department:Factor l6 1eve]s Xl 。”XIO”. Xll”...:6 u 8 8 12 5 8 6 16 15... I HandlnDate:Factor 2S 1eve1s“dO“。“dlO“. d12 ...:10 1 20 18 21 21 25 22 2l 19… l Score :Factor 4 1eve]s”gl“.”g2 . g3 ..:2 1 3 4 2 3 4 3 2 2… l Login :Factor 4 1eve1s”L1“.“L2 .“L3 …:1 l 3 4 3 1 1 1 1 3... 数据进行分析,探索学生在线学习过程中的学习行为 并挖掘学习行为与成绩等数据间的关联关系,以此来 判断影响学生学习效果的因素。本文分析结果只针 对该校参加远程课程并考试的学生,至于其他学校学 1 Tin'e :Factor 4 1evels“T1”.”T2”.“T] …:2 2 3 4 2 1 1 2 2 2… 图9导人数据 设置最小支持度为10%,最小置信度为40%,最 终产生强关联规则,选取部分规则如表6所示。 表6强关联规则 lhs rhs sup conf lift g2, T2 0.11094 0.5425 1.182O4 g1 L2 0.11945 0.5244 1.13975 2,T2 L2 0.17641 0.5230 1.13687 Tl 2 0.17936 0.7990 1.11886 2,g2 T2 0.1653l 0.5039 1.o9804 由表6中信息可知: 1)有较多登录次数,并且获得良好成绩的学生, 基本都会花费较多的学习时间在网上学习。 2)成绩获得优秀的这部分学生,通常登录的次 数也是较多的。 3)女生中能够投入较多时间在网站学习的学 生,登录网站次数也比较频繁。 4)在网站上浏览时间最多的这部分学生,基本 都是女生。 5)能够获得良好等级成绩的女生,通常在网站 上的浏览时间也是较多的。 综上所述,可以发现: 1)学生在线学习过程中,作业完成普遍具有“滞 后性”,故应合理划分教学任务,分阶段分配作业,可 以减缓因“滞后性”带来的作业堆积,同时在作业提 交的截止Et期前几天,需要维护好服务器,避免因提 交人数过多带来的数据拥塞。 2)分配给某些老师的批改任务过多,或许会导 致教师批改作业的准确性降低,出现错批、漏批的问 题。因此在分配批改任务时,尽量平均分配,或增加 批改教师数量,提高阅卷正确率。 3)登录次数、浏览总时间、讨论区发帖次数等学 习行为均与学习效果有显著的正相关,特别体现在成 绩较高的学生群体中。并且,相较于男生,通常女生 会更愿意花费更多时间在在线课程的学习上。因此, 需要通过签到、网页监控等技术手段,强制学生登录, 并增加在线学习的有效时间;通过占比考试成绩等方 式,鼓励学生参加线上讨论,以提高学生学习效果。 4 结束语 本文在教育现代化背景下,通过统计与数据挖掘 方法,用语言分析工具对某高校在线教育平台的真实 生行为需要进一步分析。 参考文献: [1] 国家中长期教育改革和发展规划纲要工作小组办公室. 国家中长期教育改革和发展规划纲要(2OLO-2O2O年) [EB/OL].http://www.moe.edu.cn/srcsite/A01/s7048/ 201007/t201t ̄729——171904.html,2010-07-29. [2] 中华人民共和国教育部.教育信息化十年发展规划 (2011.2020年)[EB/OL].https://wenku.baidu.com/ view/Oae91 ci8910ef12d2al9e777.html,2012-03-01. [3] 孟卓,袁梅宇.教育数据挖掘发展现状及研究规律的分 析[J].教育导刊,2015(2):29-33. [4]Tan Pangning,Steinbach M,Kumar V.数据挖掘导论 [M].范明,范宏建译.北京:人民邮电出版社,2015. [5]杨现民,田雪松.互联网+教育:中国基础教育大数据 [M].北京:电子工业出版社,2016. [6]刘惠如.整合式网路教学之教学设计与评量[D].高 雄:国立中山大学资讯管理研究所,2000. [7] 杨奕晨,柴蕙质.非同步网路学习成效及影响因素之计 量分析:经济学课程个案研究[J].科学教育学刊, 2002,10(2):193-210. [8] 李玉斌,武书宁,姚巧红.网络学习评价研究的现状与 分析[J].现代远程教育,2013(5):34-3 9. [9] 魏刃佳,丁亦酷,张莉,等.在线学习系统中情感识别模块 的设计与实现[J].现代教育技术,2014,24(3):115.122. [1O]Kovacic z J.Early prediction of student success:Mining student’s enrollment data[C]//Proceedings of Informing Science&IT Education Conference.2010:647-665. [11]Hussain K Z,Durairaj M,Farzana G R J.Criminal behav— ior analysis by using data mining techniques[C]//Interna— tional Conference on Advances in Engineering Science and Management.2012:656-658. [12]卢山.基于非线性动力学的金融时间序列预测技术研 究生[D].南京:东南大学,2005. [13]Guil F,Marin R.Extracting uncertain temporal relations from mined frequent sequences[C]//Proceedings of the 13th IEEE International Symposium on Temporal Represen- tation and Reasoning.2006:152—159. [14]Laxminarayan P,Ruiz C,Alvarez S A,et 1a.Mining 81880- ciations over human sleep time series[c]//Proceedings of the 18th IEEE Symposiumon Computer・・Based Medical Sys・- tems.2005:323-328. [15]冉花,陈振.欧洲教育信息化规划分析[J].中国教育 网络,2012(8):24-26. [16]Purcell K,Heaps A,Buchanan J,et a1.How Teachers Are Using Technology at Home and in Their Clsasrooms [R].Pew Research Center,2013. [17]韩蒙,张炜,李建中.一种高效的不确定图K-极大频繁模 式挖掘算法[J].计算机学报,2010,33(8):1387-1395.