本文转载自:“蒋和超 社论前沿 第S182次推送 2016-06-21 微信号:shelunqianyan“
摘要:2016年5月,社论团队在全国10余所高校开展了一次“大学生困惑”的书面访谈,共计回收有效访谈资料800份,总字数35万。本报告是基于这800份访谈资料进行的文本挖掘,涉及LDA主题建模、文本分析、文本可视化相关技术,报告主要包括三大内容:第一,当代大学生的十大困惑;第二,哪个是大学生面临的最大困惑;第三,LDA主题模型中的高频词汇分析。
当代大学生的十大困惑
大学生困惑的访谈资料是一种特殊的文本,对其进行分析最快速的方法是进行主题建模,LDA(Latent Dirichlet Allocation)是其中一种比较有效的模型。经过LDA主题建模,我们得到如图1所示的“大学生十大困惑(LDA主题)”,从各个主题涵盖词汇来看,当代大学生的十大困惑可以概括为:“学习”、“专业与就业”、“时间”、“社会交往”、“恋爱”、“手机”、“家庭”、“学校与老师”、“价值与精神”、“未来”等类别。图1给出的是每个主题下的前6个词汇,比如“学习”类主题的词汇有:“学习”、“图书馆”、“成绩”、“自习”、“考试”、“英语”。当然,某一主题下的词汇也可能从属于其他主题,比如“工作”一词既属于“专业与就业”困惑主题,也属于“未来”这一困惑主题。
图1 大学生的十大困惑(LDA主题)
为了更加直观的查看每个困惑下涵盖的词汇,我们绘制了“大学生困惑的主题词云”(见图2),在词云中,不同颜色的字体代表不同的LDA主题(“十大困惑”),字体大小代表该词汇在访谈资料中出现的频数,出现的频数越高,则该词的字体越大。在图2中,“时间”、“手机”、“学生”、“专业”、“就业”、“恋爱”、“迷茫”、“父母”、“微信”、“同学”等都是大学生困惑文本中的高频词汇。此外,图2的词云只随机显示了其中3000条词汇,所以,仍有部分高频词汇,比如“大学”(1770次)和低频词汇未显示。
图2 大学生困惑的主题词云
值得注意的是,虽然我们将大学生困惑归纳为十大类别,但是这并不是说每个大学生所面临的困惑都从属于其中的某一类困惑。相反,在收到的访谈资料中,许多的被访大学生都提及了多个方面的困惑。根据LDA主题模型得到的十个类别,我们绘制了“大学生困惑热条图”(见图3),在图3中,每列代表一个大学的一份访谈资料,每列中的不同颜色代表他/她陈述的不同的困惑类别,每列中的某个颜色比例越大,即该主题的困惑陈述越多。图3给出的是前49个大学生访谈资料的困惑分布图。比如,最后一列(第49位被访者)陈述的主要困惑是“专业与就业”。
图3 大学生困惑热条图
“专业与就业”是大学生面临的最大困惑
既然大学生面临的困惑可以分为十大类别,那么到底哪个大学生们面临的最大的困惑呢?我们根据LDA主题,分别统计了十大困惑主题下的词汇数量,得到当代大学生十大困惑的占比图(见图4)。在图4中,灰色线条表示的是每个主题下的所有词汇占总词汇的比例,蓝色线条表示的是每个主题下词频大于10次的词汇占总词汇的比例,红色线条表示的是每个主题下词频大于50次的词汇占总词汇的比例。从图形分布,可以看到,无论是哪种统计方法,topic2的占比均最高,均超过了40%。这意味着“专业与就业”是当今大学生面临的最大困惑。
图4 大学生十大困惑占比
当以所有词汇为计量标准时,当今大学生面临的困惑的占比分布是:topic1(8.81%)、topic2(43.1%)、topic3(20.33%)、topic4(2.14%)、topic5(4.82%)、topic6(3.4%)、topic7(3.58%)、topic8(4.32%)、topic9(3.99%)、topic10(5.46%)。可见,大学生的十大困惑由高到低分别是:“专业与就业”、“时间”、“学习”、“未来”、“恋爱”、“学校与老师”、“价值与精神”、“家庭”、 “手机”、“社会交往”。当以词频大于10次和词频大于50次为计量标准时,分布基本没有发生变化,这表明大学生十大困惑的分布具有一定的稳定性。
高频词汇分析
为了进一步探讨大学生十大困惑在高频词汇中的分布情况,我们提取词频大于200的词汇做高频词汇分析。
首先,根据词频大小,我们绘制了高频词汇的条形图(见图5)。从图5中,可以看到,所有词汇中出现次数最高的是“大学”(1770次),然后是“工作”(990次),在这些词汇中频次最少的是父母(203次)。
图5 词频大于200次词汇
其次,这31个高频词汇恰好涵盖了大学生的十大困惑。其中topic1:5个,topic2:8个,topic3:4个,topic4:1个,topic5:2个,topic6:1个,topic7:2个,topic8:2个,topic9:2个,topic10:4个。每个主题的分布比例见图6,每个主题的分布比例与大学生十大困惑占比仍然十分相似。
图6 高频词汇的主题分布
最后,我们将这31个词汇转换为矩阵,并将其标准化,根据其主题绘制图7、图8的文本可视化图。图中同一颜色为同主题词汇,从图7可以清楚的辨别每个主题下的词汇(注:有的主题颜色比较相近),比如属于恋爱困惑主题的“喜欢”和“恋爱”词汇,属于时间困惑主题的“现在”、“高中”、“时间”、“未来”词汇。图8是在图7的基础上,让每个词汇代表不同的频次,结果显示:代表topic1、topic2、topic3和topic10的词汇明显更大,这也意味着topic1、topic2、topic3和topic10所代表的“学习”、“专业与就业”、“时间”、“未来”等困惑在大学生中则更为普遍。
图7 高频词汇文本图(a)
图8 高频词汇文本图(b)
报告人:蒋和超