想象这样一个场景:你带着 k k k 元的初始资金走进赌场,每局下注 1 元,赢则赚 1 元,输则亏 1 元。你的目标是在输光之前赢到 N N N 元 (N > k N > k N > k ),然后收手离场。这个看似简单的过程,实际上隐藏着极为深刻的概率结构 。
经典概率论已经给出了公平游戏 (p = 1 / 2 p = 1/2 p = 1/2 ) 下的解答:你赢到 N N N 元的概率恰好是 k / N k/N k / N ,期望游戏局数为 k ( N − k ) k(N-k) k ( N − k ) 。然而,当游戏不公平时 ——哪怕只是微小的庄家优势——情况会发生质的改变。更关键的是,一旦引入 鞅(Martingale) 这一强大的理论工具,整个问题会呈现出一种令人惊叹的统一结构。
本文将从公平游戏出发,逐步引入鞅的概念,重点分析不公平游戏场景下的赌徒破产问题,并揭示鞅理论如何将看似不同的结果统一在同一个框架之下。
设赌徒的初始资金为 k k k 元(0 < k < N 0 < k < N 0 < k < N ),每局独立下注 1 元:
以概率 p p p 获胜,资金 + 1 +1 + 1 以概率 q = 1 − p q = 1-p q = 1 − p 失败,资金 − 1 -1 − 1 游戏在资金到达 0 0 0 (破产)或 N N N (达成目标)时停止。这两个边界都是吸收态 ——一旦到达,游戏终止。
定义 S n S_n S n 为第 n n n 局后的资金:
S n = k + ∑ i = 1 n X i S_n = k + \sum_{i=1}^{n} X_i S n = k + i = 1 ∑ n X i
其中 X i X_i X i 是独立同分布的随机变量:
X i = { + 1 , with probability p − 1 , with probability q = 1 − p X_i = \begin{cases} +1, & \text{with probability } p \\ -1, & \text{with probability } q = 1-p \end{cases} X i = { + 1 , − 1 , with probability p with probability q = 1 − p
停时 T T T 定义为首次触及边界的时间:
T = min { n ≥ 0 : S n = 0 or S n = N } T = \min\{n \geq 0 : S_n = 0 \text{ or } S_n = N\} T = min { n ≥ 0 : S n = 0 or S n = N }
我们关心的两个核心量是:
破产概率 P ( ruin ∣ S 0 = k ) = P ( S T = 0 ) P(\text{ruin} \mid S_0 = k) = P(S_T = 0) P ( ruin ∣ S 0 = k ) = P ( S T = 0 ) 期望游戏局数 E [ T ∣ S 0 = k ] \mathbb{E}[T \mid S_0 = k] E [ T ∣ S 0 = k ] 当 p = q = 1 / 2 p = q = 1/2 p = q = 1/2 时,这是一个对称随机游走 ,每局的期望收益为零——即公平游戏 。当 p ≠ 1 / 2 p \neq 1/2 p = 1/2 时,随机游走带有漂移(drift) ,赌徒的期望资金随时间线性变化:
E [ S n ] = k + n ( 2 p − 1 ) \mathbb{E}[S_n] = k + n(2p - 1) E [ S n ] = k + n ( 2 p − 1 )
对于 p < 1 / 2 p < 1/2 p < 1/2 (庄家优势),漂移为负——赌徒的资金在期望意义下不断减少。直觉上,破产的概率应该比公平游戏时更大。但究竟大多少?这就是鞅理论要精确回答的问题。
在进入赌徒破产的具体分析之前,我们需要先理解鞅这一核心概念。
鞅(Martingale)
一个随机过程 { M n } n ≥ 0 \{M_n\}_{n \geq 0} { M n } n ≥ 0 关于滤子 { F n } n ≥ 0 \{\mathcal{F}_n\}_{n \geq 0} { F n } n ≥ 0 是鞅,如果满足三个条件:
可积性 :E [ ∣ M n ∣ ] < ∞ \mathbb{E}[|M_n|] < \infty E [ ∣ M n ∣ ] < ∞ 对所有 n n n 成立适应性 :M n M_n M n 关于 F n \mathcal{F}_n F n 可测(即 M n M_n M n 的值由截至时刻 n n n 的信息决定)鞅性质 :E [ M n + 1 ∣ F n ] = M n \mathbb{E}[M_{n+1} \mid \mathcal{F}_n] = M_n E [ M n + 1 ∣ F n ] = M n 鞅性质的直观含义是:已知当前的所有信息,下一步的期望值就是当前值 。它代表了「公平游戏」的数学抽象——没有系统性的上涨或下跌趋势。
如果 E [ M n + 1 ∣ F n ] ≥ M n \mathbb{E}[M_{n+1} \mid \mathcal{F}_n] \geq M_n E [ M n + 1 ∣ F n ] ≥ M n ,称为下鞅(submartingale) (对玩家有利);如果 E [ M n + 1 ∣ F n ] ≤ M n \mathbb{E}[M_{n+1} \mid \mathcal{F}_n] \leq M_n E [ M n + 1 ∣ F n ] ≤ M n ,称为上鞅(supermartingale) (对玩家不利)。
历史注记
「Martingale」一词源于法国普罗旺斯地区的一种赌博策略——每次输后加倍下注。有趣的是,数学上的鞅恰好证明了这种策略在长期中无法 改变期望收益,这构成了一种绝妙的语义反转。
鞅的真正威力不在于「识别」已有的鞅,而在于构造 能够解决特定问题的鞅。对于赌徒破产问题,我们将看到以下构造路径:
场景 鞅的选择 解决的量 公平游戏 S n S_n S n 破产概率 公平游戏 S n 2 − n S_n^2 - n S n 2 − n 期望局数 不公平游戏 ( q / p ) S n (q/p)^{S_n} ( q / p ) S n 破产概率 不公平游戏 S n − n ( p − q ) S_n - n(p-q) S n − n ( p − q ) 期望局数
先回顾 p = q = 1 / 2 p = q = 1/2 p = q = 1/2 的情形,这为后续的不公平分析提供比较基准。
在公平游戏中,S n S_n S n 本身就是一个鞅:
E [ S n + 1 ∣ F n ] = E [ S n + X n + 1 ∣ F n ] = S n + E [ X n + 1 ] = S n + ( 1 2 ⋅ 1 + 1 2 ⋅ ( − 1 ) ) = S n \begin{aligned} \mathbb{E}[S_{n+1} \mid \mathcal{F}_n] &= \mathbb{E}[S_n + X_{n+1} \mid \mathcal{F}_n] \\ &= S_n + \mathbb{E}[X_{n+1}] \\ &= S_n + \left(\frac{1}{2} \cdot 1 + \frac{1}{2} \cdot (-1)\right) \\ &= S_n \end{aligned} E [ S n + 1 ∣ F n ] = E [ S n + X n + 1 ∣ F n ] = S n + E [ X n + 1 ] = S n + ( 2 1 ⋅ 1 + 2 1 ⋅ ( − 1 ) ) = S n
应用可选停止定理(Optional Stopping Theorem) ——对于有界停时 T T T 和鞅 M n M_n M n ,有 E [ M T ] = E [ M 0 ] \mathbb{E}[M_T] = \mathbb{E}[M_0] E [ M T ] = E [ M 0 ] 。赌徒破产问题中的 T T T 虽然不是确定有界的,但满足可选停止定理的条件(E [ T ] < ∞ \mathbb{E}[T] < \infty E [ T ] < ∞ 且增量有界),因此:
E [ S T ] = E [ S 0 ] = k \mathbb{E}[S_T] = \mathbb{E}[S_0] = k E [ S T ] = E [ S 0 ] = k
记 P k P_k P k 为从资金 k k k 出发最终破产的概率。则 S T S_T S T 的分布为:
S T = { 0 , with probability P k N , with probability 1 − P k S_T = \begin{cases} 0, & \text{with probability } P_k \\ N, & \text{with probability } 1 - P_k \end{cases} S T = { 0 , N , with probability P k with probability 1 − P k
因此:
E [ S T ] = 0 ⋅ P k + N ⋅ ( 1 − P k ) = k \mathbb{E}[S_T] = 0 \cdot P_k + N \cdot (1 - P_k) = k E [ S T ] = 0 ⋅ P k + N ⋅ ( 1 − P k ) = k
解得:
P k = 1 − k N = N − k N \boxed{P_k = 1 - \frac{k}{N} = \frac{N - k}{N}} P k = 1 − N k = N N − k
这是一个极为优雅的结果:在公平游戏中,你达成目标的概率恰好等于初始资金占总目标的比例 。带 100 元想赢到 200 元,成功率为 50%;带 100 元想赢到 1000 元,成功率仅 10%。
要求期望局数,需要构造另一个鞅。考虑 M n = S n 2 − n M_n = S_n^2 - n M n = S n 2 − n :
E [ S n + 1 2 − ( n + 1 ) ∣ F n ] = E [ ( S n + X n + 1 ) 2 ∣ F n ] − ( n + 1 ) = E [ S n 2 + 2 S n X n + 1 + X n + 1 2 ∣ F n ] − ( n + 1 ) = S n 2 + 0 + 1 − ( n + 1 ) = S n 2 − n \begin{aligned} \mathbb{E}[S_{n+1}^2 - (n+1) \mid \mathcal{F}_n] &= \mathbb{E}[(S_n + X_{n+1})^2 \mid \mathcal{F}_n] - (n+1) \\ &= \mathbb{E}[S_n^2 + 2S_n X_{n+1} + X_{n+1}^2 \mid \mathcal{F}_n] - (n+1) \\ &= S_n^2 + 0 + 1 - (n+1) \\ &= S_n^2 - n \end{aligned} E [ S n + 1 2 − ( n + 1 ) ∣ F n ] = E [( S n + X n + 1 ) 2 ∣ F n ] − ( n + 1 ) = E [ S n 2 + 2 S n X n + 1 + X n + 1 2 ∣ F n ] − ( n + 1 ) = S n 2 + 0 + 1 − ( n + 1 ) = S n 2 − n
确认了 S n 2 − n S_n^2 - n S n 2 − n 是鞅。再次应用可选停止定理:
E [ S T 2 − T ] = E [ S 0 2 ] = k 2 \mathbb{E}[S_T^2 - T] = \mathbb{E}[S_0^2] = k^2 E [ S T 2 − T ] = E [ S 0 2 ] = k 2
E [ T ] = E [ S T 2 ] − k 2 \mathbb{E}[T] = \mathbb{E}[S_T^2] - k^2 E [ T ] = E [ S T 2 ] − k 2
而 S T 2 S_T^2 S T 2 的期望为 0 2 ⋅ P k + N 2 ⋅ ( 1 − P k ) = N 2 ⋅ k N = N k 0^2 \cdot P_k + N^2 \cdot (1 - P_k) = N^2 \cdot \frac{k}{N} = Nk 0 2 ⋅ P k + N 2 ⋅ ( 1 − P k ) = N 2 ⋅ N k = N k ,因此:
E [ T ] = N k − k 2 = k ( N − k ) \boxed{\mathbb{E}[T] = Nk - k^2 = k(N-k)} E [ T ] = N k − k 2 = k ( N − k )
这同样是优美对称的结果:当 k = N / 2 k = N/2 k = N /2 时,期望局数达到最大值 N 2 / 4 N^2/4 N 2 /4 ,意味着在中间位置开始赌局持续最长。
现在进入核心部分。当 p ≠ 1 / 2 p \neq 1/2 p = 1/2 时,S n S_n S n 不再是鞅 ——因为 E [ X i ] = p − q ≠ 0 \mathbb{E}[X_i] = p - q \neq 0 E [ X i ] = p − q = 0 ,直接计算立即暴露出问题:
E [ S n + 1 ∣ F n ] = S n + ( p − q ) ≠ S n \mathbb{E}[S_{n+1} \mid \mathcal{F}_n] = S_n + (p - q) \neq S_n E [ S n + 1 ∣ F n ] = S n + ( p − q ) = S n
事实上,S n S_n S n 是一个带漂移的过程:p > 1 / 2 p > 1/2 p > 1/2 时为下鞅(有利),p < 1 / 2 p < 1/2 p < 1/2 时为上鞅(不利)。
这是整个理论中最关键的一步 。我们需要找到一个函数 f f f ,使得 f ( S n ) f(S_n) f ( S n ) 成为鞅。对于具有独立同分布增量的随机游走,指数函数 f ( x ) = θ x f(x) = \theta^x f ( x ) = θ x 是一个自然的候选——因为独立增量的累积和经指数映射后会转化为乘积形式。
设 M n = θ S n M_n = \theta^{S_n} M n = θ S n ,验证鞅性质:
E [ θ S n + 1 ∣ F n ] = E [ θ S n + X n + 1 ∣ F n ] = θ S n ⋅ E [ θ X n + 1 ] = θ S n ⋅ ( p θ + q θ − 1 ) \begin{aligned} \mathbb{E}[\theta^{S_{n+1}} \mid \mathcal{F}_n] &= \mathbb{E}[\theta^{S_n + X_{n+1}} \mid \mathcal{F}_n] \\ &= \theta^{S_n} \cdot \mathbb{E}[\theta^{X_{n+1}}] \\ &= \theta^{S_n} \cdot (p\theta + q\theta^{-1}) \end{aligned} E [ θ S n + 1 ∣ F n ] = E [ θ S n + X n + 1 ∣ F n ] = θ S n ⋅ E [ θ X n + 1 ] = θ S n ⋅ ( pθ + q θ − 1 )
要使 M n M_n M n 成为鞅,需要 p θ + q θ − 1 = 1 p\theta + q\theta^{-1} = 1 pθ + q θ − 1 = 1 ,即:
p θ 2 − θ + q = 0 p\theta^2 - \theta + q = 0 p θ 2 − θ + q = 0
解这个二次方程:
θ = 1 ± 1 − 4 p q 2 p \theta = \frac{1 \pm \sqrt{1 - 4pq}}{2p} θ = 2 p 1 ± 1 − 4 pq
注意到 1 − 4 p q = 1 − 4 p ( 1 − p ) = ( 2 p − 1 ) 2 1 - 4pq = 1 - 4p(1-p) = (2p-1)^2 1 − 4 pq = 1 − 4 p ( 1 − p ) = ( 2 p − 1 ) 2 ,因此:
θ = 1 ± ∣ 2 p − 1 ∣ 2 p \theta = \frac{1 \pm |2p - 1|}{2p} θ = 2 p 1 ± ∣2 p − 1∣
两个解为:
θ = 1 \theta = 1 θ = 1 (平凡解,对应 S n S_n S n 本身——但在 p ≠ 1 / 2 p \neq 1/2 p = 1/2 时不满足,因为此时 θ = 1 \theta=1 θ = 1 给出 p + q = 1 p+q=1 p + q = 1 确实成立... 等等)小心验证
θ = 1 \theta = 1 θ = 1 总是 p θ + q θ − 1 = 1 p\theta + q\theta^{-1} = 1 pθ + q θ − 1 = 1 的解,因为 p ⋅ 1 + q ⋅ 1 = 1 p \cdot 1 + q \cdot 1 = 1 p ⋅ 1 + q ⋅ 1 = 1 。但注意我们之前推导的其实是 E [ θ S n + 1 ] = θ S n ⋅ ( p θ + q θ − 1 ) \mathbb{E}[\theta^{S_{n+1}}] = \theta^{S_n} \cdot (p\theta + q\theta^{-1}) E [ θ S n + 1 ] = θ S n ⋅ ( pθ + q θ − 1 ) 。当 θ = 1 \theta=1 θ = 1 时 M n ≡ 1 M_n \equiv 1 M n ≡ 1 ,这是一个常数鞅——虽然数学上是正确的,但对求解问题没有帮助。
另一个非平凡解为:
若 p ≠ q p \neq q p = q :θ = q / p \theta = q/p θ = q / p 验证 :令 θ = q / p \theta = q/p θ = q / p :
p ⋅ q p + q ⋅ p q = q + p = 1 ✓ p \cdot \frac{q}{p} + q \cdot \frac{p}{q} = q + p = 1 \; \checkmark p ⋅ p q + q ⋅ q p = q + p = 1 ✓
因此,我们得到了赌徒破产问题中最重要的鞅:
M n = ( q p ) S n \boxed{M_n = \left(\frac{q}{p}\right)^{S_n}} M n = ( p q ) S n
这个构造的深刻之处在于:无论赌局公平与否,( q p ) S n \left(\frac{q}{p}\right)^{S_n} ( p q ) S n 始终是一个鞅 。当 p = 1 / 2 p = 1/2 p = 1/2 时,q / p = 1 q/p = 1 q / p = 1 ,退化为常数鞅;当 p ≠ 1 / 2 p \neq 1/2 p = 1/2 时,它包含了游戏不公平程度的全部信息。
应用可选停止定理:
E [ ( q p ) S T ] = E [ ( q p ) S 0 ] = ( q p ) k \mathbb{E}\left[\left(\frac{q}{p}\right)^{S_T}\right] = \mathbb{E}\left[\left(\frac{q}{p}\right)^{S_0}\right] = \left(\frac{q}{p}\right)^k E [ ( p q ) S T ] = E [ ( p q ) S 0 ] = ( p q ) k
设 P k P_k P k 为从资金 k k k 出发的破产概率。在停时 T T T ,S T S_T S T 取值为 0(概率 P k P_k P k )或 N N N (概率 1 − P k 1 - P_k 1 − P k ):
( q p ) k = P k ⋅ ( q p ) 0 + ( 1 − P k ) ⋅ ( q p ) N \left(\frac{q}{p}\right)^k = P_k \cdot \left(\frac{q}{p}\right)^0 + (1 - P_k) \cdot \left(\frac{q}{p}\right)^N ( p q ) k = P k ⋅ ( p q ) 0 + ( 1 − P k ) ⋅ ( p q ) N
( q p ) k = P k + ( 1 − P k ) ( q p ) N \left(\frac{q}{p}\right)^k = P_k + (1 - P_k)\left(\frac{q}{p}\right)^N ( p q ) k = P k + ( 1 − P k ) ( p q ) N
解出 P k P_k P k :
P k = ( q / p ) k − ( q / p ) N 1 − ( q / p ) N \boxed{P_k = \frac{(q/p)^k - (q/p)^N}{1 - (q/p)^N}} P k = 1 − ( q / p ) N ( q / p ) k − ( q / p ) N
当 q / p ≠ 1 q/p \neq 1 q / p = 1 (即 p ≠ 1 / 2 p \neq 1/2 p = 1/2 )时,这是一个非线性的表达式——与公平博弈的简单线性关系形成了鲜明对比。
让我们用一些具体数字来感受这个公式的含义。取 N = 100 N = 100 N = 100 ,k = 50 k = 50 k = 50 ,比较不同 p p p 下的破产概率:
p = 0.500 p = 0.500 p = 0.500 :P 50 = 1 − 50 / 100 = 0.500 P_{50} = 1 - 50/100 = 0.500 P 50 = 1 − 50/100 = 0.500 (公平游戏)p = 0.495 p = 0.495 p = 0.495 :P 50 ≈ 0.731 P_{50} \approx 0.731 P 50 ≈ 0.731 (仅 0.5% 的不利)p = 0.490 p = 0.490 p = 0.490 :P 50 ≈ 0.881 P_{50} \approx 0.881 P 50 ≈ 0.881 p = 0.450 p = 0.450 p = 0.450 :P 50 ≈ 0.996 P_{50} \approx 0.996 P 50 ≈ 0.996 即使庄家只有 1% 的优势,从中间出发的赌徒也有近 90% 的概率破产 。这就是赌场盈利的数学基础——微小的优势在重复博弈中被指数级放大。
对于不公平游戏,我们需要另一个鞅来求期望局数。考虑去漂移后的过程 M n = S n − n ( p − q ) M_n = S_n - n(p-q) M n = S n − n ( p − q ) :
E [ S n + 1 − ( n + 1 ) ( p − q ) ∣ F n ] = E [ S n + X n + 1 ∣ F n ] − ( n + 1 ) ( p − q ) = S n + ( p − q ) − ( n + 1 ) ( p − q ) = S n − n ( p − q ) \begin{aligned} \mathbb{E}[S_{n+1} - (n+1)(p-q) \mid \mathcal{F}_n] &= \mathbb{E}[S_n + X_{n+1} \mid \mathcal{F}_n] - (n+1)(p-q) \\ &= S_n + (p-q) - (n+1)(p-q) \\ &= S_n - n(p-q) \end{aligned} E [ S n + 1 − ( n + 1 ) ( p − q ) ∣ F n ] = E [ S n + X n + 1 ∣ F n ] − ( n + 1 ) ( p − q ) = S n + ( p − q ) − ( n + 1 ) ( p − q ) = S n − n ( p − q )
确认 S n − n ( p − q ) S_n - n(p-q) S n − n ( p − q ) 是鞅。由可选停止定理:
E [ S T − T ( p − q ) ] = E [ S 0 ] = k \mathbb{E}[S_T - T(p-q)] = \mathbb{E}[S_0] = k E [ S T − T ( p − q )] = E [ S 0 ] = k
E [ T ] ⋅ ( p − q ) = E [ S T ] − k \mathbb{E}[T] \cdot (p-q) = \mathbb{E}[S_T] - k E [ T ] ⋅ ( p − q ) = E [ S T ] − k
而 E [ S T ] = N ⋅ ( 1 − P k ) \mathbb{E}[S_T] = N \cdot (1 - P_k) E [ S T ] = N ⋅ ( 1 − P k ) ,所以:
E [ T ] = N ( 1 − P k ) − k p − q \boxed{\mathbb{E}[T] = \frac{N(1 - P_k) - k}{p - q}} E [ T ] = p − q N ( 1 − P k ) − k
将之前求得的 P k P_k P k 表达式代入即可得到完整的解析形式。若 p < 1 / 2 p < 1/2 p < 1/2 ,分子可能为负,但此时 p − q p-q p − q 也为负,确保 E [ T ] > 0 \mathbb{E}[T] > 0 E [ T ] > 0 。
使用可选停止定理时,我们需要确保定理条件成立。对于赌徒破产问题,相关条件为:
增量有界 :∣ X i ∣ ≤ 1 |X_i| \leq 1 ∣ X i ∣ ≤ 1 ,满足E [ T ] < ∞ \mathbb{E}[T] < \infty E [ T ] < ∞ :由于随机游走在有限状态空间中只要不是完全反射边界就几乎必然在有限时间内到达吸收态,满足对于指数鞅,需要 E [ ∣ M T ∣ ] < ∞ \mathbb{E}[|M_T|] < \infty E [ ∣ M T ∣ ] < ∞ :由于 ∣ M T ∣ ≤ max { ( q / p ) 0 , ( q / p ) N } < ∞ |M_T| \leq \max\{(q/p)^0, (q/p)^N\} < \infty ∣ M T ∣ ≤ max {( q / p ) 0 , ( q / p ) N } < ∞ ,满足可选停止定理(Optional Stopping Theorem)的适用条件
并非所有鞅和停时的组合都能直接使用 E [ M T ] = E [ M 0 ] \mathbb{E}[M_T] = \mathbb{E}[M_0] E [ M T ] = E [ M 0 ] 。对于赌徒破产问题,以下任一条件组合均可保证结论成立:
有界停时 + 任意鞅 :T ≤ C T \leq C T ≤ C 几乎必然可积停时 + 有界增量 :E [ T ] < ∞ \mathbb{E}[T] < \infty E [ T ] < ∞ 且 ∣ M n + 1 − M n ∣ ≤ C |M_{n+1} - M_n| \leq C ∣ M n + 1 − M n ∣ ≤ C 几乎必然可积停时 + 有界鞅 :E [ T ] < ∞ \mathbb{E}[T] < \infty E [ T ] < ∞ 且 ∣ M n ∣ ≤ C |M_n| \leq C ∣ M n ∣ ≤ C 几乎必然(均匀可积的特例)我们同时满足条件 2 和 3,因此可选停止定理的结论是严格的。
鞅理论不仅提供了计算工具,更揭示了问题背后的深层结构。
比较公平与不公平情形下的破产概率,可以发现一个统一的表达:
P k = f ( k ) − f ( N ) f ( 0 ) − f ( N ) P_k = \frac{f(k) - f(N)}{f(0) - f(N)} P k = f ( 0 ) − f ( N ) f ( k ) − f ( N )
其中:
f ( x ) = { x , p = 1 / 2 ( q / p ) x , p ≠ 1 / 2 f(x) = \begin{cases} x, & p = 1/2 \\ (q/p)^x, & p \neq 1/2 \end{cases} f ( x ) = { x , ( q / p ) x , p = 1/2 p = 1/2
这两个貌似无关的函数在极限意义下是统一的:当 p → 1 / 2 p \to 1/2 p → 1/2 时,( q / p ) x (q/p)^x ( q / p ) x 的 Taylor 展开为 1 + x ln ( q / p ) + O ( ( q / p − 1 ) 2 ) 1 + x\ln(q/p) + O((q/p-1)^2) 1 + x ln ( q / p ) + O (( q / p − 1 ) 2 ) ,而 ln ( q / p ) ≈ 2 ( 1 − 2 p ) \ln(q/p) \approx 2(1-2p) ln ( q / p ) ≈ 2 ( 1 − 2 p ) ,因此 ( q / p ) x (q/p)^x ( q / p ) x 在归一化后趋近于 x x x 的线性形式。
一个自然的疑问是:为什么恰好是指数函数 θ x \theta^x θ x 让这个过程成为鞅?从生成函数的角度来看,这是必然的。
对于具有平稳独立增量的过程(即 Lévy 过程在离散时间下的对应物),其特征函数 / 矩母函数天然地与指数形式相关联。具体到赌徒破产问题,我们需要找到一个 f f f 使得:
p ⋅ f ( x + 1 ) + q ⋅ f ( x − 1 ) = f ( x ) p \cdot f(x+1) + q \cdot f(x-1) = f(x) p ⋅ f ( x + 1 ) + q ⋅ f ( x − 1 ) = f ( x )
这是一个二阶线性差分方程 。代入试探解 f ( x ) = θ x f(x) = \theta^x f ( x ) = θ x :
p θ x + 1 + q θ x − 1 = θ x ⟹ p θ + q θ − 1 = 1 p\theta^{x+1} + q\theta^{x-1} = \theta^x \implies p\theta + q\theta^{-1} = 1 p θ x + 1 + q θ x − 1 = θ x ⟹ pθ + q θ − 1 = 1
特征方程的根恰好是 θ = 1 \theta = 1 θ = 1 和 θ = q / p \theta = q/p θ = q / p 。差分方程的通解为:
f ( x ) = A + B ( q p ) x f(x) = A + B\left(\frac{q}{p}\right)^x f ( x ) = A + B ( p q ) x
任何鞅都是这两个基函数的线性组合 。这解释了为什么 S n S_n S n (p = 1 / 2 p=1/2 p = 1/2 时的线性鞅)和 ( q / p ) S n (q/p)^{S_n} ( q / p ) S n (p ≠ 1 / 2 p \neq 1/2 p = 1/2 时的指数鞅)构成了问题的完整基。
一个流传甚广的民间智慧是见好就收 :赢了一些钱之后就应该及时收手,免得把盈利吐回去。从直觉上看,这似乎无可厚非——毕竟落袋为安。然而,在赌徒破产模型的框架下审视这一信条,会发现它存在深刻的自洽性问题。
假设赌徒以初始资金 k k k 进入赌局,目标为 N N N 。在某个中间时刻,其资金达到了 m m m (k < m < N k < m < N k < m < N ),即「见好」的状态。此时赌徒面临两个选择:
继续 :按原定策略玩到 0 0 0 或 N N N 收手 :提前终止,带着 m m m 元离场「见好就收」的建议是选择后者。但我们需要问一个朴素的问题:如果从 m m m 出发继续玩到 N N N 的概率高于从 k k k 出发的概率,为什么当初选择进场,现在却要离场?
从之前推导的破产概率公式出发,设 W ( k ) W(k) W ( k ) 为从资金 k k k 出发最终赢到 N N N 的概率:
W ( k ) = 1 − P k = 1 − ( q / p ) k 1 − ( q / p ) N W(k) = 1 - P_k = \frac{1 - (q/p)^k}{1 - (q/p)^N} W ( k ) = 1 − P k = 1 − ( q / p ) N 1 − ( q / p ) k
对于 q / p ≠ 1 q/p \neq 1 q / p = 1 的情形,W ( k ) W(k) W ( k ) 是 k k k 的严格单调递增函数 。这意味着:
W ( m ) > W ( k ) 对所有 m > k W(m) > W(k) \quad \text{对所有} \; m > k W ( m ) > W ( k ) 对所有 m > k
换句话说,你赢得越多,你最终成功的概率就越大 。从 m m m 元出发继续游戏的胜率严格高于从 k k k 元出发时的胜率。
核心悖论
在数学上,「见好就收」意味着:你在胜率为 W ( k ) W(k) W ( k ) 时选择参与游戏,却在胜率提升到 W ( m ) > W ( k ) W(m) > W(k) W ( m ) > W ( k ) 时选择退出。这是一个逻辑矛盾——如果较低的胜率值得一搏,为什么更高的胜率反而不值得?
从随机过程的角度看,赌徒破产模型具有 Markov 性 ——给定当前的资金状态,未来的演化与过去的历史无关。这意味着任何理性的停时决策只能依赖于当前状态,而不能依赖于「已经赢了多少钱」这样的历史信息。
考虑两个赌徒:
赌徒 A :初始资金 k k k ,玩了若干局后当前资金为 m m m 赌徒 B :初始资金就是 m m m ,刚刚进场对于当前时刻之后的博弈,两人的处境在概率意义上完全等同 。「见好就收」要求赌徒 A 退出,但赌徒 B 如果以 m m m 为初始资金选择进场,我们却不会说他「不理性」。这个不对称暴露了「见好就收」的推理缺陷——它在决策中引入了与未来无关的历史信息(初始资金 k k k ),违反了 Markov 决策原理。
「见好就收」要获得逻辑自洽性,必须引入模型之外的因素。以下是三种可能的辩护路径:
1. 目标隐式下调
「见好就收」等价于用当前资金 m m m 替换了原始目标 N N N 。从数学上看,如果 N N N 变为 m m m ,那么 W ( m , m ) = 1 W(m, m) = 1 W ( m , m ) = 1 ——你已经到达了新目标,自然应该停止。但这就意味着原始目标 N N N 从未被真正坚持过 。一个允许随时下调的目标不是一个真正的目标——它只是事后合理化的一个变量。
2. 效用函数的非线性
如果赌徒的效用函数 U ( x ) U(x) U ( x ) 不是线性的——例如具有递减的边际效用 ——那么 m m m 元的效用可能已经足够接近 N N N 元的效用,继续冒险不再值得。设 U ( 0 ) = 0 U(0) = 0 U ( 0 ) = 0 ,U ( N ) = 1 U(N) = 1 U ( N ) = 1 ,从 m m m 出发继续游戏的期望效用为 W ( m ) ⋅ 1 + ( 1 − W ( m ) ) ⋅ 0 = W ( m ) W(m) \cdot 1 + (1-W(m)) \cdot 0 = W(m) W ( m ) ⋅ 1 + ( 1 − W ( m )) ⋅ 0 = W ( m ) 。若 U ( m ) > W ( m ) U(m) > W(m) U ( m ) > W ( m ) ,则退出是理性的。
然而,这并不是「见好就收」在起作用——这是非线性效用函数 在起作用。如果 U ( m ) > W ( m ) U(m) > W(m) U ( m ) > W ( m ) ,那么一个以 m m m 为初始资金的新进场者(赌徒 B)同样应该拒绝参与 。悖论消失,但「见好」这一历史条件被证明是无关的。
3. 损失厌恶与心理账户
行为经济学中,Kahneman 和 Tversky 的前景理论指出,人们评估得失时使用的是一个参照点 (通常为初始资金),而非绝对财富水平。「见好就收」可以理解为:当前资金 m m m 相对于参照点 k k k 实现了正收益,而回落至 k k k 以下(甚至归零)所带来的负效用远大于继续赢到 N N N 所带来的正效用。从概率上看这不理性,但从心理体验上看,避免确定的痛苦胜过了追求不确定的快乐。
但请注意:这恰恰承认了「见好就收」是一种认知偏误而非理性策略 。它为行为提供了描述性解释,而非规范性辩护。
在赌徒破产模型的严格框架内,「见好就收」是一个不自洽的策略 :资金越多意味着胜率越高,而胜率越高越不应该退出。这一信条之所以流行,不是因为它在概率意义下是最优的,而是因为它迎合了人类心理中根深蒂固的损失厌恶——以及事后将「没输光」重新定义为「赢了」的自我合理化倾向。
从鞅的视角来看,这一结论还有一个更简洁的表述:在公平或不利的游戏中,任何可预料的停时规则都无法产生正的期望收益 。无论你选择「见好就收」还是「输光才走」,E [ S T ] = E [ S 0 ] \mathbb{E}[S_T] = \mathbb{E}[S_0] E [ S T ] = E [ S 0 ] (公平游戏)或 E [ S T ] ≤ E [ S 0 ] \mathbb{E}[S_T] \leq \mathbb{E}[S_0] E [ S T ] ≤ E [ S 0 ] (不利游戏)。退出时机的选择只能改变收益的分布 ,不能改变其期望 。
从上面的数值计算可以看出,即使在 p = 0.495 p = 0.495 p = 0.495 (对庄家的优势仅为 0.5%)的情况下,从 50 元赢到 100 元的赌徒也有约 73% 的概率输光。而现实中的赌场游戏——轮盘赌的庄家优势约为 2.7%(单零轮盘)到 5.26%(双零轮盘)——这意味着玩家的处境比我们的计算更为严峻。
将 p = 0.49 p = 0.49 p = 0.49 、k = 50 k = 50 k = 50 、N = 100 N = 100 N = 100 代入公式,q / p = 0.51 / 0.49 ≈ 1.041 q/p = 0.51/0.49 \approx 1.041 q / p = 0.51/0.49 ≈ 1.041 :
P 50 ≈ 1.041 50 − 1.041 100 1 − 1.041 100 ≈ 7.43 − 55.36 1 − 55.36 ≈ 0.881 P_{50} \approx \frac{1.041^{50} - 1.041^{100}}{1 - 1.041^{100}} \approx \frac{7.43 - 55.36}{1 - 55.36} \approx 0.881 P 50 ≈ 1 − 1.04 1 100 1.04 1 50 − 1.04 1 100 ≈ 1 − 55.36 7.43 − 55.36 ≈ 0.881
近九成的破产概率 ——而庄家优势仅有 0.02。
经典的 Martingale 下注策略(每次输后加倍下注)试图通过调整下注额来「保证」最终盈利。从鞅理论的角度来看,这种策略的失败几乎是定义性的:
赌徒的资金过程在公平游戏中已经是鞅——任何下注策略都无法将一个鞅转变为下鞅,除非你可以预知未来。 这一结论来自 Doob 的可选采样定理 和策略不变原理:对于任何可预料的(previsible)下注策略 C n C_n C n ,赌徒的财富过程
W n = W 0 + ∑ i = 1 n C i X i W_n = W_0 + \sum_{i=1}^{n} C_i X_i W n = W 0 + i = 1 ∑ n C i X i
在公平游戏中仍然是鞅。因此 E [ W T ] = W 0 \mathbb{E}[W_T] = W_0 E [ W T ] = W 0 ——无论你如何精巧地调整下注大小,期望收益始终为零。
鞅理论在赌徒破产中的应用远超赌博本身。在保险精算中,保险公司的盈余过程可以被建模为一个带漂移的随机游走(保费收入为正向漂移,索赔为负向跳跃),破产概率的 Cramér-Lundberg 估计本质上就是连续时间版本的赌徒破产问题。
在金融风险管理中,风险价值(VaR)和预期亏损(Expected Shortfall)的计算也可以从带有吸收边界的随机过程中导出。
赌徒破产问题看似简单,但它触及了随机过程理论的多个核心主题:
鞅作为统一语言 :公平与不公平博弈中看似不同的解,在鞅的框架下被统一为差分方程的特征解问题。指数鞅的构造 :( q p ) S n \left(\frac{q}{p}\right)^{S_n} ( p q ) S n 这一构造是随机游走分析中最精妙的技巧之一,它不仅适用于赌徒破产,也是序贯概率比检验(Sequential Probability Ratio Test, Wald's SPRT)的数学基础。指数级敏感度 :不公平游戏中破产概率对 p p p 的指数级敏感度揭示了为何「微小的统计优势可以在长期中被放大为几乎确定的胜利」——这也是为什么信息论中的渐近均分性质(AEP)和统计学习理论中的大数定律都呈现出类似的结构。策略不变性 :鞅的性质揭示了任何可预料的下注策略都无法改变公平游戏的期望收益——这为「市场有效性假说」提供了一个朴素的数学模型。最终,鞅理论告诉我们一个既深刻又朴素的事实:在不确定性的海洋中,公平性是一种极为脆弱的结构性质——只需一丝偏斜,整个系统的长期行为就会被指数级地重塑。
David Williams, Probability with Martingales , Cambridge University Press, 1991. Rick Durrett, Probability: Theory and Examples , 5th Edition, Cambridge University Press, 2019. Sheldon M. Ross, A First Course in Probability , 9th Edition, Pearson, 2013. J. L. Doob, Stochastic Processes , Wiley, 1953. N. H. Bingham and Rüdiger Kiesel, Risk-Neutral Valuation: Pricing and Hedging of Financial Derivatives , 2nd Edition, Springer, 2004.