当前位置: 华文星空 > 心灵

00后在忧虑什么?

2020-05-08心灵

我统计了这个问题下的13619个回答,希望能给这个问题一个基于数据的、科学客观的分析。

00后的忧虑-13619个回答中的前100高频词通过词嵌入+t-SNE的可视化。横纵坐标为高频词的词向量在二维t-SNE下的坐标,词的文本大小表示其在13619个回答中的词频。详见下文。

1. 动机

我最初看到这个问题,是因为我点进了这个问题下的一个高赞回答。随后,我又阅览了另外几个高赞回答。每个高赞的回答都有不同的特点,有些真的能唤起人的共鸣(我也是00后),有些则很有趣,有些则打动人心,有些能引人深思。

我相信大多数看到这个问题的人和我是一样的,我们都被高赞回答吸引而来,并且只看到了一些高赞的回答。然而,高赞答案不过是寥寥几十个,然而世界上有那么多的00后,我相信,这些高赞仅仅是广大00后群体的冰山一角。

那么,有意思的问题来了: 00后,作为一个广大的群体,他们的忧虑到底都有哪些?

解决这个问题的一个思路,就是分析更多的样本。 高赞答案不过是几十个,然而,这个问题下总共有一万多个回答。虽然这一万多个回答跟广大的00后群体相比依然只是沧海一粟,然而我认为如果我们能够分析这一万多个回答,我们或许可以对00后群体有更清晰的认知。

因此,我收集了北京时间2月6日下午3点之前所有回答的数据。数据获取过程中有极小量数据丢失(约1%),最后我获得了 13619 个回答。我决定利用这13619个回答,来探索00后群体到底在忧虑什么。

2. 初步分析

首先,先看看答主们写了多少。我把这 13619 个回答按照字数的数量级归类,画出了直方图和饼图。

绝大部分回答在1-10000字,其中主大部分是在10-1000字。
我们发现100-1000字的答主占了超过总数一半的回答,而1000字以上的也占了超过10%

我们发现大部分答主的回答在10-1000字的区间,而100-1000字的答主占了超过总数一半的回答。1000字以上的回答也不少,超过了10%, 说明至少在字数层面上,有不少答主是在很用心的写作的 。如果我们认为超过100字的回答算比较认真的回答的话,那么有超过60%的答主都在认真回答问题。

随后看一下点赞的情况。我们并不意外地发现: 高赞回答仅仅占据了全部回答的极小部分 。这进一步也说明,高赞回答仅仅是冰山一角,这数十个高赞答案背后,是上万个不容易被大家看到的小于10赞的答案。

我们可以看到,绝大部分回答是10赞以下的。而千赞以上的回答只有48个。
回答个数vs点赞-饼图。右侧数字表示点赞数量,面积越大表示对应点赞数量的回答越多。我们可以看到,10赞以下的回答占据了总数的96%。

我们接下来可以看看字数和点赞数的相关性。凭直觉我们会觉得字数越多应该点赞越多,但其实这两个关系其实不是很强。

字数和点赞的R^2为0.040。R^2取值为0到1,表示相关的程度。R^2为0.040表示回答和点赞没有很大程度的线性关系。(赞数的方差只有4%是由字数的方差造成的。)

左上角的回答:00后在忧虑什么?

右上角的回答:00后在忧虑什么?

右下角的两个回答:00后在忧虑什么?(这个还有1w赞),00后在忧虑什么?(这个竟然只有5个赞)

用泊松回归拟合一下,发现Pseudo R^2是0.2255(Pseudo R^2表示关系的强烈程度,取值0~1,越接近1越强)。 这说明字数和点赞数是有关的,但是关系不是很强。

泊松回归
泊松回归-把y轴换成指数

(应评论区要求,我报一下p值。通俗地来说,p值表示置信程度,一般p值越小越可信,通常p值小于0.05就是足够可信的结论。因为我的数据量很大,所以p值都非常小。上述模型中线性拟合的F值的p值,也是唯一预测变量字数的p值,是6.67e-123。泊松回归程序跑出来的 LLR的 p值是0,截距和字数的p值也都是0,实际p值应该是大于0的,应该是计算精度误差导致的。不过这些足以说明上述两个模型的置信度都是非常高的。)

另外, 这13619个答案加起来一共有 532.6万 字。我们可以看看不同赞数区间的答主各自贡献了多少字数。

不同赞数区间的总字数-条形统计图。我们发现,所有答案主要的文本量依然来自于低赞回答(0-10赞)。而所有千赞以上的答案加起来只有11.4万字,只占了所有文本的约2%

这说明,这个问题下的大部分文本量,都来自于低赞(0-10赞)回答。

这个回答下有很多答主在倾述自己的忧虑。所有回答共计写了数百万字,然而,它们之中的绝大部分并不是高赞,想必这些内容也不容易被别人看到。我们容易看到的高赞(1000+赞)回答,从文本量上来看,仅仅占据这全部文本的2%。

因此,我们有必要想办法分析这一万多篇没有很多赞的回答,去分析这不容易被看到的几百万字,去挖掘冰山在水下潜藏的巨大山体。

3. 答主年龄分析

在分析这几万篇共计几百万字的回答之前,我们先有必要分析一下这些回答的作者。

「00后」这个词一般是指00-09年出生的人。但是,我们能感觉出来,这个回答下的各个00后的年龄并不是均匀分布的,所以我们可以先研究一下答主们的年龄分布。

有很多答主在回答的时候都会提到自己的出生年份。因此,我们可以用正则表达式来匹配这些信息。

([09][0-9])(年|的|高中|大学|出生|生|女|男)

这个正则表达式表示我们想要匹配形如XYZ的内容,其中X为0或9,Y为任意数字,Z为「年」、「的」、「高中」、「大学」、「出生」、「女」、「男」。

这个匹配方式可能会有一些误判,但是基本还是准确的。

匹配之后,我们发现总共有 3498个 回答暴露了自己的出生年份。把数据可视化,我们能看到:

回答数vs答主暴露的出生年份-条形统计图

可以看到,这个分布是非常倾斜的。00-09年出生的人中,出生越早的答主越多。 不过也可以理解,毕竟目前08、09的孩子们还太小。还有99年生的人回答得也不少,我觉得也是可以理解的。99年和00年、01年的也没什么本质区别。

所以我认为, 到目前为止这个问题下的回答所反映的情况,更多还是99-06年生的人在目前的情况,尤其是00-02年生的人的情况。

我们用这些答主的答题年份,减去他们的出生年份,便可以估算出他们回答问题的时候的年龄。

回答数vs答主年龄(估算)-条形统计图

我们可以看到,大多数答主在回答问题的时候是在20岁左右。 其中20岁的人最多,15-19岁的也有很多,而且年龄越大则越多。其中21岁也有一些,22岁以上的很少。 可以看出,答主们的年纪主要还是大学生年纪,以及少部分的高中生年纪,还有极少量的其它。

4. 文本分析—00后们的忧虑是什么?

如何了解广大的00后群体到底在忧虑什么呢?

我们可以有两个思路,第一种是高频词——统计每个词在所有回答中的出现次数。这种统计非常直接,也能很好的反应一个概念在这个问题下被提到的次数。这种统计方式或许能大致可以反应00后最忧虑的事物。第二个思路就是统计每个词在多少个回答之中出现,这种统计方式大致可以反应被最多的00后关心的事物。

我们使用spacy的 zh_core_web_lg 进行分词。统计的时候要去掉各种虚词,比如的、地、得这些(严格来说是stopwords)。

4.1 统计每个词的在所有回答中的出现次数。

我们对 所有回答(13619个) 进行统计,出现频率前10的词是:

1 忧虑 频率: 24.11 次/万字

2 生活 频率: 15.18 次/万字

3 父母 频率: 13.8 次/万字

4 真的 频率: 13.69 次/万字

5 钱 频率: 12.91 次/万字

6 00后 频率: 12.09 次/万字

7 未来 频率: 12.09 次/万字

8 学习 频率: 11.85 次/万字

9 大学 频率: 11.83 次/万字

10 工作 频率: 11.82 次/万字

按照顺序,接下来的40个词依次是:努力, 学校, 焦虑, 孩子, 喜欢, 社会, 买, 家里, 妈, 高中, 感觉, 爸, 考, 成绩, 时间, 专业, 家庭, 老师, 希望, 两, 东西, 学, 世界, 高考, 同学, 事情, 压力, 次, 岁, 担心, 高, 天, 朋友, 一点, 毕业, 吃, 事, 时代, 城市,只能……

这个结果是我个人感觉是很合理的。前10个高频词,去掉题目里出现的「忧虑」、「00后」,再去掉副词「真的」,剩下7个词是:生活、父母、钱、未来、学习、大学、工作。考虑到回答问题的人应该主要是大学生,其次是高中生, 我觉得这些词是能很好的概括00后目前所忧虑的事情的

4.2 统计每个词在多少个回答中出现

我们对 所有回答(13619个) 进行统计:

1 忧虑 出现在了: 5368 个回答之中

2 生活 出现在了: 4059 个回答之中

3 未来 出现在了: 3796 个回答之中

4 父母 出现在了: 3374 个回答之中

5 工作 出现在了: 3355 个回答之中

6 大学 出现在了: 3332 个回答之中

7 真的 出现在了: 3268 个回答之中

8 学习 出现在了: 3091 个回答之中

9 00后 出现在了: 3075 个回答之中

10 努力 出现在了: 3050 个回答之中

接下的40个词是:钱, 学校, 感觉, 社会, 家里, 焦虑, 考, 高中, 喜欢, 家庭, 希望, 孩子, 买, 时间, 东西, 成绩, 高, 两, 毕业, 高考, 专业, 学, 世界, 事情, 只能, 压力, 一点, 岁, 事, 能力, 天, 同学, 发现, 朋友, 妈, 次, 老师, 城市, 吃, 走, 人生……

有没有发现很眼熟?没错,你会发现,两种统计方式得到的高频词表,是非常的相似的。对比咱们之前得到的全体答案高频词表,前10的词汇中,有9个是重合的。「忧虑」、「生活」、「未来」、「父母」、「工作」、「大学」、「真的」、「学习」、「00后」。而这次出现在前十而上次没有出现在前10的「努力」,在上一个列表里正好是第11。而上次进前十而这次没进的「钱」,这次也正好是第11。 这说明两种统计方式得到的结果是非常相似的。

而通过这两种统计方式得到的结果,一定程度上也能反应现在00后的忧虑。

我把所有答案的前50高频词(第一种统计方式得到的结果)拿出来,去掉一些没什么实际意义的词,去掉一些跟「忧虑」本身有关的词(「焦虑」、「压力」),剩下的高频词差不多是这些:

父母, 钱, 未来, 学习, 大学, 工作, 努力, 学校, 喜欢, 社会, 买, 家里, 妈, 高中, 爸, 考, 成绩, 时间, 专业, 家庭, 老师, 学, 世界, 高考, 同学, 朋友, 毕业, 时代

我个人总结一下,简单分个类,就是:

家庭 :父母,家里,妈,爸,家庭

学业 :学习,大学,学校,高中,考,成绩,专业,老师,学,高考,同学,毕业

社交: 同学,朋友

经济/工作/社会: 钱,工作,买,社会

年轻的烦恼: 努力、未来、时间,世界,时代

其实仔细看一看,00后的烦恼也没有很出乎意料。虽然我本人是00后,但我觉得80后、90后在他们这个年纪的时候,他们的忧虑应该也差不多就是这些:家庭、学业、朋友、工作、社会,以及自己年轻的理想、思想与抱负。

这只是前50词,如果我们再多用一些词,比如前100词,然后用 Li, Shen等人的词向量 GitHub - Embedding/Chinese-Word-Vectors: 100+ Chinese Word Vectors 上百种预训练中文词向量 把词翻译成向量,然后用t-SNE可视化,就可以得到回答开头的那张图:

13619个回答中的前100高频词通过词嵌入+t-SNE的可视化。横纵坐标为高频词的词向量在二维t-SNE下的坐标,词的文本大小表示其在13619个回答中的词频。

跟我刚才手动整理的50词相比,100词看上去包含的内容更加全面一些。除了我之前总结的几个方面外,我们还能看到「吃」、「玩」等娱乐消费相关词汇,「能力」、「改变」、「优秀」等有关个人发展的词汇,还有「房子」、「结婚」等这种代表00后以逐渐步入成年的词。

然而,和刚才一样,这些词感觉也没有非常的特别。依然是很合理的年轻人会有的烦恼。

或许每一个00后都有自己复杂的烦恼,然而,当我们站在宏观的来看,00后作为一个群体,应该也没有很多特殊之处。

我也是个00后,我现在有个小小的忧虑。我希望我的这篇答案能被更多人看到,因为我用数据科学的方法分析了13619个回答,这可以给大家关于00后更全面、宏观、客观的认识。

给我点个赞再走好吗?

(双击屏幕有惊喜)

5. 额外内容:高赞能很好地代表00后们吗?

这是一个很有趣的问题。正如我在一开始所说,我相信大多数人都是被高赞回答吸引而来,并且只看到了一些高赞的回答。因此,我们想知道,这为数不多的数十个高赞回答,是否能很好地代表广大的00后。

为了解决这个问题,我们的思路是——统计高赞的词频,并把高赞词频和全体答案的词频对比。

5.1 统计每个词的在所有千赞及以上的回答回答中的出现次数。

我们统计 所有千赞及以上的回答(48个) 的高频词:

1 00后 频率: 14.17 次/万字

2 生活 频率: 11.37 次/万字

3 喜欢 频率: 10.32 次/万字

4 孩子 频率: 9.45 次/万字

5 真的 频率: 9.27 次/万字

6 努力 频率: 8.31 次/万字

7 父母 频率: 7.87 次/万字

8 工作 频率: 7.44 次/万字

9 钱 频率: 7.35 次/万字

10 高中 频率: 7.26 次/万字

按照顺序,接下来的40个词依次是:学校, 爸, 社会, 两, 时代, 忧虑, 写, 时间, 买, 焦虑, 希望, 事, 一点, 世界, 学习, 大学, 妈, 东西, 好像, 次, 天, 吃, 回答, 岁, 问, 老师, 未来, 家里, 家庭, 高, 发展, 走, 教育, 成绩, 同学, 更新, 前, 压力, 感觉, 理解……

我们对比全部回答的高频词,和高赞回答的高频词。我们发现,两者虽然不完全一致,但是依然是有很大重叠的。 比如前10高频词就有6个是重叠的:「00后」、「生活」、「真的」、「父母」、「工作」、「钱」。所有回答的前10高频词剩下的四个:「忧虑」、「未来」、「学习」、「大学」在高赞回答的前50高频词列表里也有出现;而高赞回答剩下的四个高频词:「喜欢」、「孩子」、「努力」、「高中」也在所有回答的前50高频词列表里。

5.2 统计每个词在多少个千赞以上回答中出现

所有千赞及以上的回答(48个):

1 生活 出现在了: 34 个回答之中

2 努力 出现在了: 30 个回答之中

3 00后 出现在了: 28 个回答之中

4 忧虑 出现在了: 28 个回答之中

5 未来 出现在了: 27 个回答之中

6 世界 出现在了: 27 个回答之中

7 两 出现在了: 26 个回答之中

8 大学 出现在了: 26 个回答之中

9 希望 出现在了: 26 个回答之中

10 社会 出现在了: 25 个回答之中

接下来的40个是:工作, 父母, 时代, 真的, 时间, 吃, 学习, 买, 高, 岁, 事, 越来越, 钱, 发现, 孩子, 高中, 学校, 天, 喜欢, 东西, 人生, 前, 回答, 现实, 事情, 写, 只能, 家庭, 焦虑, 教育, 总, 家里, 次, 走, 能力, 一点, 第一, 城市, 想法, 问……

我们继续对比全部回答的高频词和高赞高频词,前10个词依然有个6个是重合的:「生活」、「努力」、「00后」、「忧虑」、「未来」、「大学」。 在统计每个词在多少个回答中出现的情况下,全部回答的高频词和高赞高频词依然有比较高的相似程度。

因此,我们发现:高赞回答和全体回答的词频分布是比较相似的。

这说明: 这个问题下的数十个高赞回答,在一定程度上,还是可以代表这上万个回答。无论赞数多少,写回答的00后们的忧虑大体都是相似的。

虽然寥寥数十个高赞回答只是这一万多个回答的冰山一角,然而,这冰山一角还是有一定代表性的。本回答从大规模数据分析的角度分析了00后的忧虑,角度比较宏观。如果你想更加具体地了解一些具体的00后们的忧虑,这些高赞回答也是可以作为很好的例子的。

如果还有什么想要挖掘的信息,请在评论区留言并追更,我会尽量加上的!

点个关注吧,谢谢大家!