00后在忧虑什么？

2020-05-08心灵

我统计了这个问题下的13619个回答，希望能给这个问题一个基于数据的、科学客观的分析。

00后的忧虑-13619个回答中的前100高频词通过词嵌入+t-SNE的可视化。横纵坐标为高频词的词向量在二维t-SNE下的坐标，词的文本大小表示其在13619个回答中的词频。详见下文。

1. 动机

我最初看到这个问题，是因为我点进了这个问题下的一个高赞回答。随后，我又阅览了另外几个高赞回答。每个高赞的回答都有不同的特点，有些真的能唤起人的共鸣（我也是00后），有些则很有趣，有些则打动人心，有些能引人深思。

我相信大多数看到这个问题的人和我是一样的，我们都被高赞回答吸引而来，并且只看到了一些高赞的回答。然而，高赞答案不过是寥寥几十个，然而世界上有那么多的00后，我相信，这些高赞仅仅是广大00后群体的冰山一角。

那么，有意思的问题来了： 00后，作为一个广大的群体，他们的忧虑到底都有哪些？

解决这个问题的一个思路，就是分析更多的样本。 高赞答案不过是几十个，然而，这个问题下总共有一万多个回答。虽然这一万多个回答跟广大的00后群体相比依然只是沧海一粟，然而我认为如果我们能够分析这一万多个回答，我们或许可以对00后群体有更清晰的认知。

因此，我收集了北京时间2月6日下午3点之前所有回答的数据。数据获取过程中有极小量数据丢失(约1%)，最后我获得了 13619 个回答。我决定利用这13619个回答，来探索00后群体到底在忧虑什么。

2. 初步分析

首先，先看看答主们写了多少。我把这 13619 个回答按照字数的数量级归类，画出了直方图和饼图。

绝大部分回答在1-10000字，其中主大部分是在10-1000字。

我们发现100-1000字的答主占了超过总数一半的回答，而1000字以上的也占了超过10%

我们发现大部分答主的回答在10-1000字的区间，而100-1000字的答主占了超过总数一半的回答。1000字以上的回答也不少，超过了10%， 说明至少在字数层面上，有不少答主是在很用心的写作的 。如果我们认为超过100字的回答算比较认真的回答的话，那么有超过60%的答主都在认真回答问题。

随后看一下点赞的情况。我们并不意外地发现： 高赞回答仅仅占据了全部回答的极小部分 。这进一步也说明，高赞回答仅仅是冰山一角，这数十个高赞答案背后，是上万个不容易被大家看到的小于10赞的答案。

我们可以看到，绝大部分回答是10赞以下的。而千赞以上的回答只有48个。

回答个数vs点赞-饼图。右侧数字表示点赞数量，面积越大表示对应点赞数量的回答越多。我们可以看到，10赞以下的回答占据了总数的96%。

我们接下来可以看看字数和点赞数的相关性。凭直觉我们会觉得字数越多应该点赞越多，但其实这两个关系其实不是很强。

字数和点赞的R^2为0.040。R^2取值为0到1，表示相关的程度。R^2为0.040表示回答和点赞没有很大程度的线性关系。（赞数的方差只有4%是由字数的方差造成的。）

左上角的回答：00后在忧虑什么？

右上角的回答：00后在忧虑什么？

右下角的两个回答：00后在忧虑什么？（这个还有1w赞），00后在忧虑什么？（这个竟然只有5个赞）

用泊松回归拟合一下，发现Pseudo R^2是0.2255（Pseudo R^2表示关系的强烈程度，取值0~1，越接近1越强）。 这说明字数和点赞数是有关的，但是关系不是很强。

泊松回归

泊松回归-把y轴换成指数

（应评论区要求，我报一下p值。通俗地来说，p值表示置信程度，一般p值越小越可信，通常p值小于0.05就是足够可信的结论。因为我的数据量很大，所以p值都非常小。上述模型中线性拟合的F值的p值，也是唯一预测变量字数的p值，是6.67e-123。泊松回归程序跑出来的 LLR的 p值是0，截距和字数的p值也都是0，实际p值应该是大于0的，应该是计算精度误差导致的。不过这些足以说明上述两个模型的置信度都是非常高的。）

另外， 这13619个答案加起来一共有 532.6万 字。我们可以看看不同赞数区间的答主各自贡献了多少字数。

不同赞数区间的总字数-条形统计图。我们发现，所有答案主要的文本量依然来自于低赞回答（0-10赞）。而所有千赞以上的答案加起来只有11.4万字，只占了所有文本的约2%

这说明，这个问题下的大部分文本量，都来自于低赞（0-10赞）回答。

这个回答下有很多答主在倾述自己的忧虑。所有回答共计写了数百万字，然而，它们之中的绝大部分并不是高赞，想必这些内容也不容易被别人看到。我们容易看到的高赞（1000+赞）回答，从文本量上来看，仅仅占据这全部文本的2%。

因此，我们有必要想办法分析这一万多篇没有很多赞的回答，去分析这不容易被看到的几百万字，去挖掘冰山在水下潜藏的巨大山体。

3. 答主年龄分析

在分析这几万篇共计几百万字的回答之前，我们先有必要分析一下这些回答的作者。

「00后」这个词一般是指00-09年出生的人。但是，我们能感觉出来，这个回答下的各个00后的年龄并不是均匀分布的，所以我们可以先研究一下答主们的年龄分布。

有很多答主在回答的时候都会提到自己的出生年份。因此，我们可以用正则表达式来匹配这些信息。

([09][0-9])(年|的|高中|大学|出生|生|女|男)

这个正则表达式表示我们想要匹配形如XYZ的内容，其中X为0或9，Y为任意数字，Z为「年」、「的」、「高中」、「大学」、「出生」、「女」、「男」。

这个匹配方式可能会有一些误判，但是基本还是准确的。

匹配之后，我们发现总共有 3498个 回答暴露了自己的出生年份。把数据可视化，我们能看到：

回答数vs答主暴露的出生年份-条形统计图

可以看到，这个分布是非常倾斜的。00-09年出生的人中，出生越早的答主越多。 不过也可以理解，毕竟目前08、09的孩子们还太小。还有99年生的人回答得也不少，我觉得也是可以理解的。99年和00年、01年的也没什么本质区别。

所以我认为， 到目前为止这个问题下的回答所反映的情况，更多还是99-06年生的人在目前的情况，尤其是00-02年生的人的情况。

我们用这些答主的答题年份，减去他们的出生年份，便可以估算出他们回答问题的时候的年龄。

回答数vs答主年龄（估算）-条形统计图

我们可以看到，大多数答主在回答问题的时候是在20岁左右。 其中20岁的人最多，15-19岁的也有很多，而且年龄越大则越多。其中21岁也有一些，22岁以上的很少。 可以看出，答主们的年纪主要还是大学生年纪，以及少部分的高中生年纪，还有极少量的其它。

4. 文本分析—00后们的忧虑是什么？

如何了解广大的00后群体到底在忧虑什么呢？

我们可以有两个思路，第一种是高频词——统计每个词在所有回答中的出现次数。这种统计非常直接，也能很好的反应一个概念在这个问题下被提到的次数。这种统计方式或许能大致可以反应00后最忧虑的事物。第二个思路就是统计每个词在多少个回答之中出现，这种统计方式大致可以反应被最多的00后关心的事物。

我们使用spacy的 zh_core_web_lg 进行分词。统计的时候要去掉各种虚词，比如的、地、得这些（严格来说是stopwords）。

4.1 统计每个词的在所有回答中的出现次数。

我们对 所有回答(13619个) 进行统计，出现频率前10的词是：

1 忧虑频率： 24.11 次/万字

2 生活频率： 15.18 次/万字

3 父母频率： 13.8 次/万字

4 真的频率： 13.69 次/万字

5 钱频率： 12.91 次/万字

6 00后频率： 12.09 次/万字

7 未来频率： 12.09 次/万字

8 学习频率： 11.85 次/万字

9 大学频率： 11.83 次/万字

10 工作频率： 11.82 次/万字

按照顺序，接下来的40个词依次是：努力，学校，焦虑，孩子，喜欢，社会，买，家里，妈，高中，感觉，爸，考，成绩，时间，专业，家庭，老师，希望，两，东西，学，世界，高考，同学，事情，压力，次，岁，担心，高，天，朋友，一点，毕业，吃，事，时代，城市，只能……

这个结果是我个人感觉是很合理的。前10个高频词，去掉题目里出现的「忧虑」、「00后」，再去掉副词「真的」，剩下7个词是：生活、父母、钱、未来、学习、大学、工作。考虑到回答问题的人应该主要是大学生，其次是高中生， 我觉得这些词是能很好的概括00后目前所忧虑的事情的 。

4.2 统计每个词在多少个回答中出现

我们对 所有回答(13619个) 进行统计：

1 忧虑出现在了： 5368 个回答之中

2 生活出现在了： 4059 个回答之中

3 未来出现在了： 3796 个回答之中

4 父母出现在了： 3374 个回答之中

5 工作出现在了： 3355 个回答之中

6 大学出现在了： 3332 个回答之中

7 真的出现在了： 3268 个回答之中

8 学习出现在了： 3091 个回答之中

9 00后出现在了： 3075 个回答之中

10 努力出现在了： 3050 个回答之中

接下的40个词是：钱，学校，感觉，社会，家里，焦虑，考，高中，喜欢，家庭，希望，孩子，买，时间，东西，成绩，高，两，毕业，高考，专业，学，世界，事情，只能，压力，一点，岁，事，能力，天，同学，发现，朋友，妈，次，老师，城市，吃，走，人生……

有没有发现很眼熟？没错，你会发现，两种统计方式得到的高频词表，是非常的相似的。对比咱们之前得到的全体答案高频词表，前10的词汇中，有9个是重合的。「忧虑」、「生活」、「未来」、「父母」、「工作」、「大学」、「真的」、「学习」、「00后」。而这次出现在前十而上次没有出现在前10的「努力」，在上一个列表里正好是第11。而上次进前十而这次没进的「钱」，这次也正好是第11。 这说明两种统计方式得到的结果是非常相似的。

而通过这两种统计方式得到的结果，一定程度上也能反应现在00后的忧虑。

我把所有答案的前50高频词（第一种统计方式得到的结果）拿出来，去掉一些没什么实际意义的词，去掉一些跟「忧虑」本身有关的词（「焦虑」、「压力」），剩下的高频词差不多是这些：

父母，钱，未来，学习，大学，工作，努力，学校，喜欢，社会，买，家里，妈，高中，爸，考，成绩，时间，专业，家庭，老师，学，世界，高考，同学，朋友，毕业，时代

我个人总结一下，简单分个类，就是：

家庭：父母，家里，妈，爸，家庭

学业：学习，大学，学校，高中，考，成绩，专业，老师，学，高考，同学，毕业

社交： 同学，朋友

经济/工作/社会： 钱，工作，买，社会

年轻的烦恼： 努力、未来、时间，世界，时代

其实仔细看一看，00后的烦恼也没有很出乎意料。虽然我本人是00后，但我觉得80后、90后在他们这个年纪的时候，他们的忧虑应该也差不多就是这些：家庭、学业、朋友、工作、社会，以及自己年轻的理想、思想与抱负。

这只是前50词，如果我们再多用一些词，比如前100词，然后用 Li, Shen等人的词向量 GitHub - Embedding/Chinese-Word-Vectors: 100+ Chinese Word Vectors 上百种预训练中文词向量把词翻译成向量，然后用t-SNE可视化，就可以得到回答开头的那张图:

13619个回答中的前100高频词通过词嵌入+t-SNE的可视化。横纵坐标为高频词的词向量在二维t-SNE下的坐标，词的文本大小表示其在13619个回答中的词频。

跟我刚才手动整理的50词相比，100词看上去包含的内容更加全面一些。除了我之前总结的几个方面外，我们还能看到「吃」、「玩」等娱乐消费相关词汇，「能力」、「改变」、「优秀」等有关个人发展的词汇，还有「房子」、「结婚」等这种代表00后以逐渐步入成年的词。

然而，和刚才一样，这些词感觉也没有非常的特别。依然是很合理的年轻人会有的烦恼。

或许每一个00后都有自己复杂的烦恼，然而，当我们站在宏观的来看，00后作为一个群体，应该也没有很多特殊之处。

我也是个00后，我现在有个小小的忧虑。我希望我的这篇答案能被更多人看到，因为我用数据科学的方法分析了13619个回答，这可以给大家关于00后更全面、宏观、客观的认识。

给我点个赞再走好吗？

（双击屏幕有惊喜）

5. 额外内容：高赞能很好地代表00后们吗？

这是一个很有趣的问题。正如我在一开始所说，我相信大多数人都是被高赞回答吸引而来，并且只看到了一些高赞的回答。因此，我们想知道，这为数不多的数十个高赞回答，是否能很好地代表广大的00后。

为了解决这个问题，我们的思路是——统计高赞的词频，并把高赞词频和全体答案的词频对比。

5.1 统计每个词的在所有千赞及以上的回答回答中的出现次数。

我们统计 所有千赞及以上的回答（48个） 的高频词:

1 00后频率： 14.17 次/万字

2 生活频率： 11.37 次/万字

3 喜欢频率： 10.32 次/万字

4 孩子频率： 9.45 次/万字

5 真的频率： 9.27 次/万字

6 努力频率： 8.31 次/万字

7 父母频率： 7.87 次/万字

8 工作频率： 7.44 次/万字

9 钱频率： 7.35 次/万字

10 高中频率： 7.26 次/万字

按照顺序，接下来的40个词依次是：学校，爸，社会，两，时代，忧虑，写，时间，买，焦虑，希望，事，一点，世界，学习，大学，妈，东西，好像，次，天，吃，回答，岁，问，老师，未来，家里，家庭，高，发展，走，教育，成绩，同学，更新，前，压力，感觉，理解……

我们对比全部回答的高频词，和高赞回答的高频词。我们发现，两者虽然不完全一致，但是依然是有很大重叠的。 比如前10高频词就有6个是重叠的：「00后」、「生活」、「真的」、「父母」、「工作」、「钱」。所有回答的前10高频词剩下的四个：「忧虑」、「未来」、「学习」、「大学」在高赞回答的前50高频词列表里也有出现；而高赞回答剩下的四个高频词：「喜欢」、「孩子」、「努力」、「高中」也在所有回答的前50高频词列表里。

5.2 统计每个词在多少个千赞以上回答中出现

所有千赞及以上的回答（48个）:

1 生活出现在了： 34 个回答之中

2 努力出现在了： 30 个回答之中

3 00后出现在了： 28 个回答之中

4 忧虑出现在了： 28 个回答之中

5 未来出现在了： 27 个回答之中

6 世界出现在了： 27 个回答之中

7 两出现在了： 26 个回答之中

8 大学出现在了： 26 个回答之中

9 希望出现在了： 26 个回答之中

10 社会出现在了： 25 个回答之中

接下来的40个是：工作，父母，时代，真的，时间，吃，学习，买，高，岁，事，越来越，钱，发现，孩子，高中，学校，天，喜欢，东西，人生，前，回答，现实，事情，写，只能，家庭，焦虑，教育，总，家里，次，走，能力，一点，第一，城市，想法，问……

我们继续对比全部回答的高频词和高赞高频词，前10个词依然有个6个是重合的：「生活」、「努力」、「00后」、「忧虑」、「未来」、「大学」。 在统计每个词在多少个回答中出现的情况下，全部回答的高频词和高赞高频词依然有比较高的相似程度。

因此，我们发现：高赞回答和全体回答的词频分布是比较相似的。

这说明： 这个问题下的数十个高赞回答，在一定程度上，还是可以代表这上万个回答。无论赞数多少，写回答的00后们的忧虑大体都是相似的。

虽然寥寥数十个高赞回答只是这一万多个回答的冰山一角，然而，这冰山一角还是有一定代表性的。本回答从大规模数据分析的角度分析了00后的忧虑，角度比较宏观。如果你想更加具体地了解一些具体的00后们的忧虑，这些高赞回答也是可以作为很好的例子的。

如果还有什么想要挖掘的信息，请在评论区留言并追更，我会尽量加上的！

点个关注吧，谢谢大家！