二、知乎 知乎作为一个问答类的社区,数据获取和分析的切入点更加难找。我本来试图搜索获取特定关键词在2020年某月和过去一年某月的全部结果进行词频等的分析。但无奈发现技术能力和电脑硬件水平不足以支撑这样的分析。所以我更换思路,爬取了2019年1月和2020年六月单数日知乎热榜问题的所有回答作为分析样本。因为知乎自己并不进行历史热榜的统计工作,历史热榜的数据采取的是第三方网站的统计结果,每天仅统计15个问题而非50个。爬取完成后2019年1月热榜问题对应回答的文字数据共166MB,2020年6月的为100MB。 对这些数据进行特定关键词的词频(即词组出现数量)分析,结果如下: 固然词频的对比十分显著,可是分析却难言十分成功,因为对于知乎热榜来说,一个问题往往对应几百上千个回答,只要热榜问题和待分析关键词扯上关系,回答中就可能多次涉及到这一关键词,带来显著的差别。而热榜问题数量每一组只有225个(15天,每天15个),样本量偏小。 三、总结 我本人学习的是传统工科,不管是对python编程还是对社会思潮的分析都是外行,甚至可以说在本次分析之前一窍不通。研究颇有不严密之处,请读者见谅。即便如此,我自己的疑惑还是解决了,我知道,今年所有这些“年轻人开始关注马克思”的说法并非空穴来风,而是确有现实背景。至于更为具体、更为严密的分析,还是得留待更为专业的人士来完成。我的研究权作抛砖引玉。 PS: 1. 本次分析的数据爬取工作采用了github上的成熟程序,对程序编写者表示感谢。 2. 感谢“南瓜”先生的技术支持。 |
E_mail: redchinacn@gmail.com
2010-2011http://redchinacn.net