你说的这个不仅有意义,而且名字就叫混合分布(有限混合分布)。其实回答你的问题关键点是数据扩张(data augmentation),而你给的这篇文献已经很好的提到这一点了,也就是引入 z 。唯一缺失的部分就是怎么通过 z 来推导出 y (因为这些推导属于繁而不难的基础,所以作者就不想赘述了)。
原始的问题可以这样描述,一组样本 y_i 服从回合分布
y_i\sim \left\{\begin{aligned} &f_0, \qquad\text{以$p_0$的概率;}\\ &f_1, \qquad\text{以$1-p_0$的概率.}\\ \end{aligned}\right.
求 y_i 的分布 f 。
数据扩张引入一个服从伯努利的潜变量 z_i 满足 z_i\sim Bernoulli(1-p_0) ,则密度函数为
f_Z(z_i)=p_0^{1-z_i}(1-p_0)^{z_i}
而 z_i 可以用来表示前面说到的「以……的概率」这个东西,就有条件密度函数
f_{Y|Z}(y_i|z_i)=f_0(y_i)^{1-z_i}f_1(y_i)^{z_i}
你可以把 z_i 等于1或者0带入,看看这个分层结构是不是等价于之前的那个原始问题。然后,把这两个密度乘起来,就可以得到一个联合密度函数
f_{(Y,Z)}(y_i,z_i)=f_{Y|Z}(y_i|z_i)f_{Z}(z_i)=f_0(y_i)^{1-z_i}f_1(y_i)^{z_i}p_0^{1-z_i}(1-p_0)^{z_i}
到这里都没问题吧,接下来的步骤就很直接了。知道了联合密度函数,要求边际密度函数,无非就是把其他变量求和或者积分积掉,即
f_Y(y_i)=\sum_{z_i=0}^1f_{(Y,Z)}(y_i,z_i)
结果正是那个「加权平均」。
混合分布或者混合模型(这里说的是mixture model,不是mixed model)本来就是一大块研究方向,比如著名的EM算法也是用的这个原理。而且,你这还只是离散有限的情况,对于连续混合,这里的方法同样适用,不过就是把求和变成积分就行了,即
f_{Y}(y)=\int f(y|z)f(z)dz
最常见的例子比如大家都熟悉的 t 分布——一种特殊的高斯尺度混合分布(Gaussian scale mixture)。