我统计了这个问题下的13619个回答,希望能给这个问题一个基于数据的、科学客观的分析。
1. 动机
我最初看到这个问题,是因为我点进了这个问题下的一个高赞回答。随后,我又阅览了另外几个高赞回答。每个高赞的回答都有不同的特点,有些真的能唤起人的共鸣(我也是00后),有些则很有趣,有些则打动人心,有些能引人深思。
我相信大多数看到这个问题的人和我是一样的,我们都被高赞回答吸引而来,并且只看到了一些高赞的回答。然而,高赞答案不过是寥寥几十个,然而世界上有那么多的00后,我相信,这些高赞仅仅是广大00后群体的冰山一角。
那么,有意思的问题来了: 00后,作为一个广大的群体,他们的忧虑到底都有哪些?
解决这个问题的一个思路,就是分析更多的样本。 高赞答案不过是几十个,然而,这个问题下总共有一万多个回答。虽然这一万多个回答跟广大的00后群体相比依然只是沧海一粟,然而我认为如果我们能够分析这一万多个回答,我们或许可以对00后群体有更清晰的认知。
因此,我收集了北京时间2月6日下午3点之前所有回答的数据。数据获取过程中有极小量数据丢失(约1%),最后我获得了 13619 个回答。我决定利用这13619个回答,来探索00后群体到底在忧虑什么。
2. 初步分析
首先,先看看答主们写了多少。我把这 13619 个回答按照字数的数量级归类,画出了直方图和饼图。
我们发现大部分答主的回答在10-1000字的区间,而100-1000字的答主占了超过总数一半的回答。1000字以上的回答也不少,超过了10%, 说明至少在字数层面上,有不少答主是在很用心的写作的 。如果我们认为超过100字的回答算比较认真的回答的话,那么有超过60%的答主都在认真回答问题。
随后看一下点赞的情况。我们并不意外地发现: 高赞回答仅仅占据了全部回答的极小部分 。这进一步也说明,高赞回答仅仅是冰山一角,这数十个高赞答案背后,是上万个不容易被大家看到的小于10赞的答案。
我们接下来可以看看字数和点赞数的相关性。凭直觉我们会觉得字数越多应该点赞越多,但其实这两个关系其实不是很强。
左上角的回答:00后在忧虑什么?
右上角的回答:00后在忧虑什么?
右下角的两个回答:00后在忧虑什么?(这个还有1w赞),00后在忧虑什么?(这个竟然只有5个赞)
用泊松回归拟合一下,发现Pseudo R^2是0.2255(Pseudo R^2表示关系的强烈程度,取值0~1,越接近1越强)。 这说明字数和点赞数是有关的,但是关系不是很强。
(应评论区要求,我报一下p值。通俗地来说,p值表示置信程度,一般p值越小越可信,通常p值小于0.05就是足够可信的结论。因为我的数据量很大,所以p值都非常小。上述模型中线性拟合的F值的p值,也是唯一预测变量字数的p值,是6.67e-123。泊松回归程序跑出来的 LLR的 p值是0,截距和字数的p值也都是0,实际p值应该是大于0的,应该是计算精度误差导致的。不过这些足以说明上述两个模型的置信度都是非常高的。)
另外, 这13619个答案加起来一共有 532.6万 字。我们可以看看不同赞数区间的答主各自贡献了多少字数。
这说明,这个问题下的大部分文本量,都来自于低赞(0-10赞)回答。
这个回答下有很多答主在倾述自己的忧虑。所有回答共计写了数百万字,然而,它们之中的绝大部分并不是高赞,想必这些内容也不容易被别人看到。我们容易看到的高赞(1000+赞)回答,从文本量上来看,仅仅占据这全部文本的2%。
因此,我们有必要想办法分析这一万多篇没有很多赞的回答,去分析这不容易被看到的几百万字,去挖掘冰山在水下潜藏的巨大山体。
3. 答主年龄分析
在分析这几万篇共计几百万字的回答之前,我们先有必要分析一下这些回答的作者。
「00后」这个词一般是指00-09年出生的人。但是,我们能感觉出来,这个回答下的各个00后的年龄并不是均匀分布的,所以我们可以先研究一下答主们的年龄分布。
有很多答主在回答的时候都会提到自己的出生年份。因此,我们可以用正则表达式来匹配这些信息。
([09][0-9])(年|的|高中|大学|出生|生|女|男)
这个正则表达式表示我们想要匹配形如XYZ的内容,其中X为0或9,Y为任意数字,Z为「年」、「的」、「高中」、「大学」、「出生」、「女」、「男」。
这个匹配方式可能会有一些误判,但是基本还是准确的。
匹配之后,我们发现总共有 3498个 回答暴露了自己的出生年份。把数据可视化,我们能看到:
可以看到,这个分布是非常倾斜的。00-09年出生的人中,出生越早的答主越多。 不过也可以理解,毕竟目前08、09的孩子们还太小。还有99年生的人回答得也不少,我觉得也是可以理解的。99年和00年、01年的也没什么本质区别。
所以我认为, 到目前为止这个问题下的回答所反映的情况,更多还是99-06年生的人在目前的情况,尤其是00-02年生的人的情况。
我们用这些答主的答题年份,减去他们的出生年份,便可以估算出他们回答问题的时候的年龄。
我们可以看到,大多数答主在回答问题的时候是在20岁左右。 其中20岁的人最多,15-19岁的也有很多,而且年龄越大则越多。其中21岁也有一些,22岁以上的很少。 可以看出,答主们的年纪主要还是大学生年纪,以及少部分的高中生年纪,还有极少量的其它。
4. 文本分析—00后们的忧虑是什么?
如何了解广大的00后群体到底在忧虑什么呢?
我们可以有两个思路,第一种是高频词——统计每个词在所有回答中的出现次数。这种统计非常直接,也能很好的反应一个概念在这个问题下被提到的次数。这种统计方式或许能大致可以反应00后最忧虑的事物。第二个思路就是统计每个词在多少个回答之中出现,这种统计方式大致可以反应被最多的00后关心的事物。
我们使用spacy的 zh_core_web_lg 进行分词。统计的时候要去掉各种虚词,比如的、地、得这些(严格来说是stopwords)。
4.1 统计每个词的在所有回答中的出现次数。
我们对 所有回答(13619个) 进行统计,出现频率前10的词是:
1 忧虑 频率: 24.11 次/万字
2 生活 频率: 15.18 次/万字
3 父母 频率: 13.8 次/万字
4 真的 频率: 13.69 次/万字
5 钱 频率: 12.91 次/万字
6 00后 频率: 12.09 次/万字
7 未来 频率: 12.09 次/万字
8 学习 频率: 11.85 次/万字
9 大学 频率: 11.83 次/万字
10 工作 频率: 11.82 次/万字
按照顺序,接下来的40个词依次是:努力, 学校, 焦虑, 孩子, 喜欢, 社会, 买, 家里, 妈, 高中, 感觉, 爸, 考, 成绩, 时间, 专业, 家庭, 老师, 希望, 两, 东西, 学, 世界, 高考, 同学, 事情, 压力, 次, 岁, 担心, 高, 天, 朋友, 一点, 毕业, 吃, 事, 时代, 城市,只能……
这个结果是我个人感觉是很合理的。前10个高频词,去掉题目里出现的「忧虑」、「00后」,再去掉副词「真的」,剩下7个词是:生活、父母、钱、未来、学习、大学、工作。考虑到回答问题的人应该主要是大学生,其次是高中生, 我觉得这些词是能很好的概括00后目前所忧虑的事情的 。
4.2 统计每个词在多少个回答中出现
我们对 所有回答(13619个) 进行统计:
1 忧虑 出现在了: 5368 个回答之中
2 生活 出现在了: 4059 个回答之中
3 未来 出现在了: 3796 个回答之中
4 父母 出现在了: 3374 个回答之中
5 工作 出现在了: 3355 个回答之中
6 大学 出现在了: 3332 个回答之中
7 真的 出现在了: 3268 个回答之中
8 学习 出现在了: 3091 个回答之中
9 00后 出现在了: 3075 个回答之中
10 努力 出现在了: 3050 个回答之中
接下的40个词是:钱, 学校, 感觉, 社会, 家里, 焦虑, 考, 高中, 喜欢, 家庭, 希望, 孩子, 买, 时间, 东西, 成绩, 高, 两, 毕业, 高考, 专业, 学, 世界, 事情, 只能, 压力, 一点, 岁, 事, 能力, 天, 同学, 发现, 朋友, 妈, 次, 老师, 城市, 吃, 走, 人生……
有没有发现很眼熟?没错,你会发现,两种统计方式得到的高频词表,是非常的相似的。对比咱们之前得到的全体答案高频词表,前10的词汇中,有9个是重合的。「忧虑」、「生活」、「未来」、「父母」、「工作」、「大学」、「真的」、「学习」、「00后」。而这次出现在前十而上次没有出现在前10的「努力」,在上一个列表里正好是第11。而上次进前十而这次没进的「钱」,这次也正好是第11。 这说明两种统计方式得到的结果是非常相似的。
而通过这两种统计方式得到的结果,一定程度上也能反应现在00后的忧虑。
我把所有答案的前50高频词(第一种统计方式得到的结果)拿出来,去掉一些没什么实际意义的词,去掉一些跟「忧虑」本身有关的词(「焦虑」、「压力」),剩下的高频词差不多是这些:
父母, 钱, 未来, 学习, 大学, 工作, 努力, 学校, 喜欢, 社会, 买, 家里, 妈, 高中, 爸, 考, 成绩, 时间, 专业, 家庭, 老师, 学, 世界, 高考, 同学, 朋友, 毕业, 时代
我个人总结一下,简单分个类,就是:
家庭 :父母,家里,妈,爸,家庭
学业 :学习,大学,学校,高中,考,成绩,专业,老师,学,高考,同学,毕业
社交: 同学,朋友
经济/工作/社会: 钱,工作,买,社会
年轻的烦恼: 努力、未来、时间,世界,时代
其实仔细看一看,00后的烦恼也没有很出乎意料。虽然我本人是00后,但我觉得80后、90后在他们这个年纪的时候,他们的忧虑应该也差不多就是这些:家庭、学业、朋友、工作、社会,以及自己年轻的理想、思想与抱负。
这只是前50词,如果我们再多用一些词,比如前100词,然后用 Li, Shen等人的词向量 GitHub - Embedding/Chinese-Word-Vectors: 100+ Chinese Word Vectors 上百种预训练中文词向量 把词翻译成向量,然后用t-SNE可视化,就可以得到回答开头的那张图:
跟我刚才手动整理的50词相比,100词看上去包含的内容更加全面一些。除了我之前总结的几个方面外,我们还能看到「吃」、「玩」等娱乐消费相关词汇,「能力」、「改变」、「优秀」等有关个人发展的词汇,还有「房子」、「结婚」等这种代表00后以逐渐步入成年的词。
然而,和刚才一样,这些词感觉也没有非常的特别。依然是很合理的年轻人会有的烦恼。
或许每一个00后都有自己复杂的烦恼,然而,当我们站在宏观的来看,00后作为一个群体,应该也没有很多特殊之处。
我也是个00后,我现在有个小小的忧虑。我希望我的这篇答案能被更多人看到,因为我用数据科学的方法分析了13619个回答,这可以给大家关于00后更全面、宏观、客观的认识。
给我点个赞再走好吗?
(双击屏幕有惊喜)
5. 额外内容:高赞能很好地代表00后们吗?
这是一个很有趣的问题。正如我在一开始所说,我相信大多数人都是被高赞回答吸引而来,并且只看到了一些高赞的回答。因此,我们想知道,这为数不多的数十个高赞回答,是否能很好地代表广大的00后。
为了解决这个问题,我们的思路是——统计高赞的词频,并把高赞词频和全体答案的词频对比。
5.1 统计每个词的在所有千赞及以上的回答回答中的出现次数。
我们统计 所有千赞及以上的回答(48个) 的高频词:
1 00后 频率: 14.17 次/万字
2 生活 频率: 11.37 次/万字
3 喜欢 频率: 10.32 次/万字
4 孩子 频率: 9.45 次/万字
5 真的 频率: 9.27 次/万字
6 努力 频率: 8.31 次/万字
7 父母 频率: 7.87 次/万字
8 工作 频率: 7.44 次/万字
9 钱 频率: 7.35 次/万字
10 高中 频率: 7.26 次/万字
按照顺序,接下来的40个词依次是:学校, 爸, 社会, 两, 时代, 忧虑, 写, 时间, 买, 焦虑, 希望, 事, 一点, 世界, 学习, 大学, 妈, 东西, 好像, 次, 天, 吃, 回答, 岁, 问, 老师, 未来, 家里, 家庭, 高, 发展, 走, 教育, 成绩, 同学, 更新, 前, 压力, 感觉, 理解……
我们对比全部回答的高频词,和高赞回答的高频词。我们发现,两者虽然不完全一致,但是依然是有很大重叠的。 比如前10高频词就有6个是重叠的:「00后」、「生活」、「真的」、「父母」、「工作」、「钱」。所有回答的前10高频词剩下的四个:「忧虑」、「未来」、「学习」、「大学」在高赞回答的前50高频词列表里也有出现;而高赞回答剩下的四个高频词:「喜欢」、「孩子」、「努力」、「高中」也在所有回答的前50高频词列表里。
5.2 统计每个词在多少个千赞以上回答中出现
所有千赞及以上的回答(48个):
1 生活 出现在了: 34 个回答之中
2 努力 出现在了: 30 个回答之中
3 00后 出现在了: 28 个回答之中
4 忧虑 出现在了: 28 个回答之中
5 未来 出现在了: 27 个回答之中
6 世界 出现在了: 27 个回答之中
7 两 出现在了: 26 个回答之中
8 大学 出现在了: 26 个回答之中
9 希望 出现在了: 26 个回答之中
10 社会 出现在了: 25 个回答之中
接下来的40个是:工作, 父母, 时代, 真的, 时间, 吃, 学习, 买, 高, 岁, 事, 越来越, 钱, 发现, 孩子, 高中, 学校, 天, 喜欢, 东西, 人生, 前, 回答, 现实, 事情, 写, 只能, 家庭, 焦虑, 教育, 总, 家里, 次, 走, 能力, 一点, 第一, 城市, 想法, 问……
我们继续对比全部回答的高频词和高赞高频词,前10个词依然有个6个是重合的:「生活」、「努力」、「00后」、「忧虑」、「未来」、「大学」。 在统计每个词在多少个回答中出现的情况下,全部回答的高频词和高赞高频词依然有比较高的相似程度。
因此,我们发现:高赞回答和全体回答的词频分布是比较相似的。
这说明: 这个问题下的数十个高赞回答,在一定程度上,还是可以代表这上万个回答。无论赞数多少,写回答的00后们的忧虑大体都是相似的。
虽然寥寥数十个高赞回答只是这一万多个回答的冰山一角,然而,这冰山一角还是有一定代表性的。本回答从大规模数据分析的角度分析了00后的忧虑,角度比较宏观。如果你想更加具体地了解一些具体的00后们的忧虑,这些高赞回答也是可以作为很好的例子的。
如果还有什么想要挖掘的信息,请在评论区留言并追更,我会尽量加上的!
点个关注吧,谢谢大家!