大数据思维下科学化开展新生适应性教育的研究与探索
一、 引言
随着信息技术的飞速发展,结构化、非结构化的信息和数据无时无刻不在快速产生和积累,大数据时代已经来临。2013年被称为中国大数据元年[6],大数据理念已渗透到人们学习、工作和生活的方方面面[3],大数据处理技术已在各行各业中发挥着关键的支撑作用。在这样的大背景和新形势下,高等教育也必将迎来数据浪潮带来的历史机遇,产生深刻变革。
当代在校大学生多是“90后”、“95后”的新生代,道德观念多元化、价值判断趋利化、主体意识个性化、心理素质脆弱化等特点日益凸显[7],传统的学生工作模式和工作规律已经不能完全与当代大学生个性化成长成才需求相适应;同时,网络的普及使得当代大学生越发表现出“知识都在网络上,思想都在博客上,朋友都在QQ上,情感都在短信上,时间都在微信上”的特点,因此,运用传统的调查问卷方式采集的学生数据与“最真实”的学生信息拟合度较低,分析结果科学化程度难以保证。而运用大数据思维,可以避开学生的“防御心理”,通过信息平台隐式地收集、处理学生“最自然”的行为数据,利用科学的数据分析方法动态地、有预见性地得出学生总体特征和个体差异,构建学生元数据库和个性图谱,为学生工作科学化开展提供理论支撑。
因此,运用大数据思维开展大学生思想政治教育工作,借助数据分析技术帮助我们跟踪每一个个体的数据、发现真正的学生[5],是新时期高校学生工作发展的必然方向,也是提高学生工作科学化水平的必然要求。本文以新生适应性教育为切入点,基于北京航空航天大学“梦拓计划”,通过平台研发、数据采集、模型构建和特征提取,将“Mentor”的静态信息数据与新生“梦拓组队”的动态行为数据进行集成分析,归纳出新生整体性的心理特征和实际需求,从而为新生适应性教育工作提出科学化建议。
二、 研究内容
(一) “梦拓计划”及信息平台
国外学者Martin和Hanrahan[4]研究认为,大学生在本科一年级(特别是入校后的适应期)时的学习生活情况,对大学四年的学习、工作以及毕业后的发展差异分化的贡献率占到了整体的53%;同样,北京航空航天大学招生就业部门有研究表示,90%的大学优秀毕业生在大一时就表现突出、成绩优秀。这说明大学四年中,一年级学生工作至关重要;做好一年级学生的适应性教育,帮助和引导他们找到有效的大学学习方法和生活方式意义重大。同时,Henry J. Eyring[2]在《The Innovative University》一书中提到,大学教育的价值在于“师生之间”、“生生之间”的面对面、自由互动式的交流。
为此,北京航空航天大学基于“朋辈教育”的理念,在新生入学后实行“梦拓计划”:选拔优秀的二年级本科生作为“Mentor”,通过开展文化体验课等交流活动帮助一年级新生更好地适应大学生活,以达到开拓视野、提高素养、共同进步的目标。
为支撑“梦拓计划”顺利实施,改变传统的“指派式”的学生工作模式,我们研发了“梦拓”信息平台,新生可根据自己的兴趣点和实际需求在平台中自由选择“Mentor”。图1表示了信息平台的总体架构:
图1 “梦拓”信息化平台架构图
如图1所示,数据层记录学生“Mentor组队”过程中的行为数据,用以分析学生总体特征和每个人的个性特征图谱。目前该平台已经应用到北京航空航天大学计算机学院、软件学院、知行书院、宇航学院四个单位,共采集1039人的静态信息数据和动态行为数据,统计结果如图2所示:
图2 数据采集规模统计图
(二) “Mentor”特征向量提取
本文对数据库中“Mentor”简介进行特征标签标注(与后台日志时间戳一一映射),采用分词系统进行分词处理并得到163个代表“Mentor”特征的离散关键词,并利用LDA模型[1]对关键词进行特征分析。LDA特征分析原理如图3所示:
Mentor1: 成绩优异,乐于助人,篮球0.5大球运动小球运动体育活动特征1:体育 Mentor3: 足球,好爽,聚会,山东 Mentor2:音乐,摄影,旅游,电影 Mentor5:班长,学生会,党员,朋友班干部学生会党支部特征2:社交艺术鉴赏文化旅游摄影创作特征3:文艺 Mentor4:编程,科技,Java,冯如杯1.0编程语言科技竞赛技术发明特征4:专业
图3 特征提取原理图
利用LDA模型对163个关键词进行特征分析,通过对比后台日志时间戳对参数进行调优,最终聚类出最受新生关注的七大“Mentor”特征,构成“Mentor”七维核心特征优势向量,每个分量代表着“Mentor”可能具备的特征项。本文将“Mentor”特征向量表示如下:
[文艺,体育,学习,工作,专业(技术),休闲,社交]
基于聚类得到的样本数据,本文进一步统计得到七维核心特征优势向量占比(即拥有某个分量特征的人占总人数的百分比)分别为[9.71%, 8.01%, 8.98%, 13.83%, 10.68%, 3.40%, 20.87%],占比排序为
[4,6,5,2,3,7,1]。图4直观地表示了“Mentor”七维核心特征优势及相应分量占比:
图4 “Mentor”七维核心特征优势及所占分量比
分析分量占比数据,可以看出新生对“Mentor”特征的倾向:新生群体整体偏向选择外向交友型和工作能力突出型的学长学姐作为自己的“Mentor”,具备较强专业能力特征的“Mentor”占比也比较高;另一方面,本文结合北航实际情况将“Mentor”性别作为一个特殊的影响因子加入到研究中,并发现“女性Mentor”在实际组队过程中非常受欢迎,这在一定程度上影响了一般情况下的组队行为,可能与北航男女比例的特殊性有一定关系。(本文研究数据中,“Mentor”男女比例为1.56:1,女生占比为39.1304348%,各学院详细男女数量见图2)
(三) 新生动态行为数据处理模型构建
本文在研究过程中,采用北航“梦拓”信息平台数据库中已记录的用户操作时间戳、相关操作日志以及网页访问日志共计2万余条操作数据,涵盖了新生访问平台的各类操作以及对于数据库访问的慢日志统计下的选择信息。基于以上行为数据,利用数据扫描处理工具Scanner对大量日志文本数据进行扫描处理,去除噪声数据(例如管理员操作的数据等)后对有效区间内的数据进行处理,得到如图5所示的新生操作热度曲线图:
图5 组队时段新生操作数随时间变化曲线图
由图5可以看出:新生发生组队行为的操作次数随时间推移不断减少,曲线总体呈现出类似热度曲线的下降趋势(即降温过程),符合客观规律。在此基础上,本文根据降温原理构建分量热度模型,利用数据拟合方法进行数据分析,期望得到新生所选“Mentor”的每个特征分量热度值并排序,以更科学地挖掘学生的行为特性和兴趣关注点。
现将分量热度模型描述如下:
时间刻度:以组队时间的开始和结束为界,对时间线进行均分后得到若干具有一定粒度的时间段;为每个时间段赋予的时间标识值,即为时间刻度值;
热度权重:即每个阶段的热度的量化的衡量值。(本文中最高热度定为100,最低热度定为0,可以用操作数归一化到0-100)。
为确定某时间刻度值的热度权重,本文研究发现:时间刻度值小的(时段靠前)比时间刻度值大的(时段靠后)特征更受欢迎,故权重值高;反之权重值低。
由上可知:时间刻度值与热度权重负相关。本文将二者进行二次拟合,得到如图6所示的拟合曲线:
图6组队时段热度权重与时间刻度二次拟合曲线图
现将采用的公式描述如下: 总体热度公式:
W=K*(A*T2+B*T+C)
其中,W表示热度权重,K表示归一化系数,T表示时间刻度,C为常数。图6所示时间段(242-258)参数分别为:K=5.46,A=0.0528,B=-27.123,C=3489.90。
某向量分量的热度值可用该分量在该刻度下被选择数量与热度权重之积的累加和表示:
H=∑(?????)
其中,H表示分量热度值,N表示分量数目,W表示分量热度权重。分量数目如图7所示:
图7 组队过程中分量数目统计图
以“242-258”的时间刻度范围为例,通过计算得到的最终结果如表1所示。表1表示出了新生对“Mentor”特征优势的倾向程度排序,由高到低依次为:工作、社交、体育、学习、专业、文艺、休闲。但这只是一个中间过程,并不能代表最终结果。
表1 七维核心特征优势各项热度值表
时间刻度 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 H Rank 文艺 199.98 0.00 0.00 76.90 211.09 64.40 0.00 108.39 0.00 46.30 43.22 40.71 77.56 37.43 36.65 0.00 0.00 942.63 6 体育 599.94 366.87 252.07 153.81 281.45 128.79 59.01 54.19 99.92 46.30 43.22 0.00 38.78 37.43 73.30 109.36 36.83 2381.27 3 学习 299.97 275.15 84.02 0.00 0.00 64.40 118.01 54.19 99.92 185.20 43.22 0.00 38.78 37.43 0.00 0.00 0.00 1300.30 4 工作 399.96 458.59 336.09 230.71 211.09 321.98 236.03 0.00 99.92 185.20 43.22 0.00 38.78 37.43 36.65 109.36 36.83 2781.83 1 专业 0.00 183.44 84.02 76.90 211.09 321.98 59.01 0.00 0.00 0.00 86.43 0.00 77.56 74.86 36.65 0.00 36.83 1248.77 5 休闲 0.00 91.72 84.02 0.00 0.00 0.00 0.00 0.00 149.88 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 325.62 7 社交 699.93 366.87 252.07 153.81 0.00 257.59 59.01 54.19 149.88 0.00 172.87 40.71 116.34 112.28 36.65 0.00 36.83 2509.03 2 (四) 综合量化分析
由于七维核心特征优势向量的每一个分量所占比重各不不同,因此所具有的热度值不具有可比性,要得到最终的倾向性排序,需要进行归一化综合量化分析。结果如表2所示:
表2 综合量化结果
优势 热度值 占比 综合分 排名 文艺 942.63 9.71% 9708 6 体育 2381.27 8.01% 29729 1 学习 1300.30 8.98% 14480 3 工作 2781.83 13.83% 20114 2 专业 1248.77 10.68% 11693 5 休闲 325.62 3.40% 9577 7 社交 2509.03 20.87% 12024 4 表2给出了“Mentor”七维核心特征优势向量中每一个分量的受关注程度排序,由高到低依次为:体育、工作、学习、社交、专业、文艺、休闲。
三、结论与建议
根据以上研究结果,结合北航学生工作实际情况,可以得出:
(一)结论 1.
新生入学后的热点关注问题与传统的学生工作经验基本保持一致。
热点问题可归纳为七大类:“体育活动”、“社会工作”、“课程学习”、“外联交友”、“专业技能”、“文化艺术”、生活体验”;可将最受新生关注的“Mentor”分为“外向社交型”、“体育运动型”、“学习优秀型”、“生活体验型”、“技术钻研型”、“文艺气质型”、“社会工作型”七种类型。
2.
新生普遍期盼一个丰富多彩的大学生活。
“Mentor”特征向量各分量的受关注程度排序表明,体育活动、社会工作和课程学习是最受新生关注的三类问题。三类问题从不同角度展示了丰富多彩的大学生活,反映出当代大学生对在体育比赛中表现自我充满激情、对在社会工作中得到锻炼充满热情、对在课程学习中再创佳绩充满期待。
3.
新生入校后对专业不够了解。
研究结果表明,新生对专业的关注度不高,整体呈现出“专业迷茫”的特征。北航作为一所具有理工科优势的综合型大学,各学院学科特色明显、专业性较强,如何顺利迈进专业的“门槛”,是新生面临的挑战。
4.
新生对人文素养的重要性认识不足。
文化修养和艺术情操是北航学生成为领军、领导人才的必备素质。然而从研究结果上看,新生入校后对于文化艺术体验类的活动关注度较低,可见北航新生对提升自身人文素养的重要性方面普遍认识不足。
(二)建议 1.
选拔“Mentor”要重视“两类人才”。
“老生带新生”式的“梦拓计划”,是新时期新生入学教育模式的创新,是学校优良传统和优秀文化得以传承的有效载体。在选拔高年级“Mentor”时,一方面应该选拔新生关注度较高的体育爱好者、学习优秀者和社会工作能力突出者,这符合新生的实际需求和心理期盼;另一方面,要帮助新生开拓视野,引导学生转变思想观念,将关注度较低的“文艺气质类”、“文化体验类”学生也作为重点“Mentor”候选人,以促进新生素质的全面发展和人文素养的养成。
2.
新生适应性教育,要做到以人为本、科学规划、与时俱进。
新生活动是做好新生适应性教育的有效载体,其组织形式、活动内容应该有科学依据、用数据说话。例如,本文挖掘出新生群体对于体育运动的热爱程度较高,因此在实际工作中,应注重群体体育活动的组织,以此来引导学生“走出宿舍、走下网络、走向操场”,促进学生间的交流和班团建设。通过此方式让新生入校后就养成锻炼身体的好习惯,减少“宅男”、“宅女”现象。
3.
在新生中要做好专业解读、方向引导。
要在新生适应性教育阶段,精心安排专业介绍专题。做好专业解读工作,让学生了解学院历史、知晓专业培养计划,缩短学生对于专业的“迷茫期”,培养学生的专业兴趣,帮助学生尽早踏进专业的门槛。
4.
要加强学校的文化氛围建设,促进学生人文素养的养成。
人文素养是理工科学生的短板,是成长为领军领导人才的关键制约因素。本文研究结果表明了理工科学生自入校起便对人文素养的重要性理解不够。因此,学校应加强文化氛围的营造,加大文化活动组织力度,加强“人文通识课”的建设和投入,促进学生人文素养的养成和全面发展。
参考文献
[1] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84. [2] Christensen C M, Eyring H J. The innovative university[J]. 2011.
[3] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and
productivity[J]. 2011.
[4] Martin J S, Hanrahan K. Criminology freshmen: Preparation, expections, and college performance[J].
Journal of Criminal Justice Education, 2004, 15(2): 287-309.
[5] 韩文瑜. 以学生为本 提高学生工作的科学化水平[J]. 中国高等教育, 2010, 8: 15-I6. [6] 田溯宁. 大数据元年的创新[J]. 计算机世界, 2013 (01): 22-22.
[7] 张韫. 大数据改变教育 写在大数据元年来临之际[J]. 上海教育, 2013 (10): 8-11.