问题引入
「七选五」试题共有5道选择题,给出7个选项,其中有2项是干扰项,考生从中选择5项依次填入每道题中,每题只有一个正确选项,不考虑同一选项被多次选择的情况。某考生对5道题全部随机作答,记他答对的题数为 X ,求 X 的分布列与数学期望.
问题初探
首先我们考虑一下期望。这个问题的期望,如果考虑清楚的话,其实并不难计算。我们可以假设该考生每答对1题得1分,设他在第 i(i=1,2,3,4,5) 题中的得分为 M_i ,很容易知道,对于任意给定的 i ,其期望 E(M_i)=\frac17 。根据期望的可加性,我们得到 E(\sum_{i=1}^5M_i)=\sum_{i=1}^5E(M_i)=\frac57 ,也即 X 的期望值。
如果你还没完全理解,或者无法完全信服,没有关系,我们继续往下思考。毕竟,这样计算未免略显草率...
渐入佳境
接下来我们考虑分布列。此问题的分布列,乍一看感觉除了乱还是乱。。。毕竟,除了5个正确答案还有俩干扰项啊,这庞大的样本量,分类也不是、枚举也不是,该怎么下手呢??
我们不妨假设正确答案为 ABCDE ,假设该考生答对3题,那么可以先锁定他答对的3题(假设为 ABCOO ),此时就只需考虑从剩下4个选项中选2个,与 DE 的排列不符合的情况数,最后乘上 C_5^3 即可。
根据这个思路,我们定义一种运算:假定 m 个不同的元素中的 n 个给定元素有一种人为规定的排列方式(即「m选n」),从这 m 个元素中任选 n 个进行排列,记其中恰有 p 个元素处在规定位置的方法数为 W(m,n,p) 。
例如:在假设答案为 ABCDE 的前提下, BCGFA 满足 m=7,n=5,p=0 ; FBCGA 满足 m=7,n=5,p=2 ;
W(2,2,1)=0 ; W(2,2,0)=W(2,2,2)=1 ...
根据我们刚才的思路,很容易得到一条运算规则:
\color{red}{W(m,n,p)=C_n^p·W(m-p,n-p,0)}...(1)
同时,经过思考,我们还可以发现:
\color{red}{\sum_{p=0}^nW(m,n,p)=A_m^n}...(2)
\color{red}{W(m,n,n)=1}...(3)
有了这三条运算规则,我们就可以较为清晰地解决这个问题了。假设答案为 ABCDE ,容易知道事件总数为W=A_7^5=2520 。
W(7,5,5)=1
W(7,5,4)=C_5^4W(3,1,0)=C_5^4(A_3^1-W(3,1,1))=10
同时可得 W(3,1,0)=2
W(7,5,3)=C_5^3W(4,2,0)=C_5^3(A_4^2-\sum_{p=1}^2W(4,2,p))=\\C_5^3(A_4^2-C^1_2W(3,1,0)-1)=70
同时可得 W(4,2,0)=7
W(7,5,2)=C_5^2W(5,3,0)=C_5^2(A_5^3-\sum_{p=1}^3W(5,3,p))=\\C_5^2(A_5^3-C_3^1W(4,2,0)-C_3^2W(3,1,0)-C_3^3W(2,0,0))=320
同时可得 W(5,3,0)=32
W(7,5,1)=C_5^1W(6,4,0)=C_5^1(A_6^4-\sum_{p=1}^4W(6,4,p))=\\C_5^1(A_6^4-C_4^1W(5,3,0)-C_4^2W(4,2,0)-C_4^3W(3,1,0)-C_4^4W(2,0,0))=\\905
那么
W(7,5,0)=A_7^5-\sum_{p=1}^5W(7,5,p)=1214
因此我们得到 X 的分布列
X | 0 | 1 | 2 | 3 | 4 | 5 |
P | 1214/2520 | 905/2520 | 320/2520 | 70/2520 | 10/2520 | 1/2520 |
算一下期望,发现也是 \frac57 !
深入思考
如果是 m 选 n ,期望是不是 \frac{n}m 呢?
根据上面的运算性质,我们可以得到
W(m,n,1)=C_n^1A_{m-1}^{n-1}-\sum_{k=1}^{n-1}C_{k+1}^kW(m,n,k+1)
即 \sum_{k=0}^{n-1}C_{k+1}^kW(m,n,k+1)=C_n^1A_{m-1}^{n-1}=nA_{m-1}^{n-1}
令 j=k+1 ,则 \sum_{j=1}^nC_j^1W(m,n,j)=nA_{m-1}^{n-1}
因此期望 E=\frac{\sum_{j=1}^n(j·W(m,n,j))}{A_m^n}=\frac{nA_{m-1}^{n-1}}{A_m^n}=\frac{n}m
由此可知,「m选n」问题答对题数的期望值为 \frac{n}m 。
拓展延伸
特殊地,当 m=n≥2,p=0 时,即全部错排时,我们可以根据容斥原理推导出 错位全排列公式 ,即
\color{red}{W(n,n,0)=n!\sum_{k=2}^n\frac{(-1)^k}{k!}}
对于此式,如果数据较大计算起来可能略有麻烦,根据 泰勒展开 ,我们可以得到一个估算公式:
\color{red}{W(n,n,0)=[\frac{n!}e+\frac12]}
其中 [x] 表示不大于 x 的最大整数,即对 \frac{n!}e 的计算结果四舍五入,得到的整数就是 W(n,n,0) 了。
详细的推导过程可参考下面这篇文章: