生成特定分布随机数的方法

CodingLabs 2014-11-26 22:41:48 累计浏览 4,039 次

本机暂存

内容概览

这篇讲的是如何用均匀分布的随机数，生成高斯、指数等特定概率分布的随机数。作者从最基本的算法出发，深入剖析了Inverse Transform Method（逆变换法）和Acceptance-Rejection Method（接受-拒绝法）这两种经典方法的原理。

逆变换法的核心思想很巧妙：如果你能求出目标分布累积分布函数（CDF）的逆函数解析式，那么只需对一个均匀分布随机数进行逆变换，就能直接得到目标分布的随机数。文章以指数分布为例，清晰地展示了从CDF推导到Python实现的完整过程。

但逆变换法有局限，当CDF逆函数难以求解时怎么办？这就引出了接受-拒绝法。它的思路是先生成一个容易处理的提议分布，再通过一个“筛选”步骤，以一定的概率接受或拒绝样本，最终得到目标分布的样本。这种方法只需要知道目标分布的概率密度函数（PDF），适用范围更广。

除了这两种基础算法，文章还探讨了组合算法以及如何生成具有相关性的随机数等衍生方法，构建了一个较为完整的知识框架。

生成随机数是程序设计里常见的需求。一般的编程语言都会自带一个随机数生成函数，用于生成服从均匀分布的随机数。不过有时需要生成服从其它分布的随机数，例如高斯分布或指数分布等。有些编程语言已经有比较完善的实现，例如Python的NumPy。这篇文章介绍如何通过均匀分布随机数生成函数生成符合特定概率分布的随机数，主要介绍Inverse Ttransform和Acceptance-Rejection两种基础算法以及一些相关的衍生方法。下文我们均假设已经拥有一个可以生成0到1之间均匀分布的随机数生成函数，关于如何生成均匀分布等更底层的随机数生成理论，请参考其它资料，本文不做讨论。

基础算法

Inverse Transform Method

最简单的生成算法是Inverse Transform Method（下文简称ITM）。如果我们可以给出概率分布的累积分布函数（下文简称CDF）及其逆函数的解析表达式，则可以非常简单便捷的生成指定分布随机数。

ITM算法描述

生成一个服从均匀分布的随机数
设为指定分布的CDF，是其逆函数。返回作为结果

ITM算法说明

这是一个非常简洁高效的算法，下面说明其原理及正确性。

我们通过图示可以更直观的明白算法的原理。下图是某概率分布的CDF：

原图已失效

我们从横轴上标注两点和，其CDF值分别为和。

由于U服从0到1之间的均匀分布，因此对于一次U的取样，U落入和之间的概率为:

而由于CDF都是单调非减函数，因此这个概率同时等于落入和之间的概率，即：

而根据CDF的定义，这刚好说明服从以为CDF的分布，因此我们的生成算法是正确的。

ITM实现示例

下面以指数分布为例说明如何应用ITM。

首先我们需要求解CDF的逆函数。我们知道指数分布的CDF为

通过简单的代数运算，可以得到其逆函数为

由于服从从0到1的均匀分布蕴含着服从同样的分布，因此在实际实现时可以用代替，得到：

下面给出一个Python的实现示例程序。

import randomimport mathdef exponential_rand(lam):if lam <=0:return-1    U = random.uniform(0.0,1.0)return(-1.0/ lam)* math.log(U)

Acceptance-Rejection Method

一般来说ITM是一种很好的算法，简单且高效，如果可以使用的话，是第一选择。但是ITM有自身的局限性，就是要求必须能给出CDF逆函数的解析表达式，有些时候要做到这点比较困难，这限制了ITM的适用范围。

当无法给出CDF逆函数的解析表达式时，Acceptance-Rejection Method（下文简称ARM）是另外的选择。ARM的适用范围比ITM要大，只要给出概率密度函数（下文简称PDF）的解析表达式即可，而大多数常用分布的PDF是可以查到的。

ARM算法描述

设PDF为。首先生成一个均匀分布随机数
独立的生成另一个均匀分布随机数
如果，则返回，否则回到第1步

ARM算法说明

通过一幅图可以清楚的看到ARM的工作原理。

原图已失效

ARM本质上是一种模拟方法，而非直接数学方法。它每次生成新的随机数后，通过另一个随机数来保证其被接受概率服从指定的PDF。

显然ARM从效率上不如ITM，但是其适应性更广，在无法得到CDF的逆函数时，ARM是不错的选择。

ARM实现示例

下面使用ARM实现一个能产生标准正态分布的随机数生成函数。

首先我们要得到标准正态分布的PDF，其数学表示为：

为了方便，这里我会直接使用SciPy来计算其PDF。

程序如下。

import randomimport scipy.stats as ss def standard_normal_rand():whileTrue:        X = random.uniform(-3.0,3.0)        Y = random.uniform(0.0,0.5)if Y < ss.norm.pdf(X):return X

注意：标准正态分布的x取值范围从理论上说是，但是当离开均值点很远后，其概率密度可忽略不计。这里只取，实际使用时可以根据具体需要扩大这个取值范围。

衍生算法

组合算法

当目标分布可以用其它分布经过四则运算表示时，可以使用组合算法生成对应随机数。

最常见的就是某分布可以表示成多个独立同分布（下文简称IID）随机变量之和。例如二项分布可以表示成多个0-1分布之和，Erlang分布可以由多个IID的指数分布得出。

以Erlang分布为例说明如何生成这类随机数。

设为服从0到1均匀分布的IID随机数，则为服从指数分布的IID随机数，因此

所以生成Erlang分布随机数的算法如下：

生成
返回

这类分布的随机数生成算法很直观，就是先生成相关的n个IID随机数，然后带入简单求和公式或其它四则公式得出最终随机数。其数学理论基础是卷积理论，稍微有些复杂，这里不再讨论，有兴趣的同学可以查阅相关资料。

生成具有相关性的随机数

现在考虑生成多维随机数，以最简单的二维随机数为例。

如果两个维度的随机数是相互独立的，那么只要分别生成两个列就可以了。但是如果要求两列具有一定的相关系数，则需要做一些特殊处理。

下列算法可以生成两列具有相关系数的随机数。

生成IID随机变量和
计算
返回

可以这样验证其正确性：

注意：，。

因此和确实具有相关系数。