Statistics 简单随机抽样
一个简单的随机样本被定义为一个样本,其中总体中的每个元素都有平等且独立的被选中机会。在具有 N 个单位的总体的情况下,选择 n 个样本单位的概率以及 N
Cn 个样本的所有可能组合由 1/N
C 给出n 例如如果我们有五个元素(A、B、C、D、E)的总体,即 N 5,并且我们想要一个大小为 n = 3 的样本,那么有 5
C3 = 10 个可能的样本,并且任何单个单元成为样本成员的概率为 1/10、
简单的随机抽样可以通过两种不同的方式进行,即"有替换"或"无替换"。当在下一次抽取之前替换所选单元后,该单元连续被选入一个样本时,就是一个简单的有替换随机样本。如果选择的单元在下一次抽取之前没有被替换,并且连续单元的抽取只从总体的剩余单元中进行,那么它被称为没有替换的简单随机样本。因此,在前一种方法中,一次选择的单元可以重复,而在后一种方法中,一次选择的单元不重复。由于与无需替换的简单随机样本相关联的统计效率更高,因此它是首选方法。
一个简单的随机样本可以通过两种方法之一抽取,即通过抽签方法或通过随机数表。
彩票方法-在这种方法下,单位是在随机抽奖的基础上选择的。首先,人口中的每个成员或元素都被分配一个唯一的编号。在下一步中,将这些数字写在形状、大小、颜色等物理相似的单独卡片上。然后将它们放入篮子中并彻底混合。在最后一步,纸条被随机取出而不看它们。抽签的数量等于所需的样本量。
彩票方法的缺点很少。写N个slip的过程很麻烦,并且在人口规模非常大的情况下,对大量slip进行洗牌是很困难的。在选择单据时也可能进入人为偏见。因此,可以使用另一种替代方法,即可以使用随机数。
随机数表法-这些由随机准备的数列组成。可用的随机表数量,例如Fisher 和 Yates 表、Tippets 随机数等。 下面列出的是来自 Fisher & Yates 表的两位数字随机数的序列:
61, 44, 65, 22, 01, 67, 76, 23, 57 , 58, 54, 11, 33, 86, 07, 26, 75, 76, 64, 22, 19, 35, 74, 49, 86, 58, 69, 52, 27, 34, 91, 25, 734 , 76, 73, 27, 16, 53, 18, 19, 69, 32, 52, 38, 72, 38, 64, 81, 79 and 38.
第一步是分配一个唯一的数字对人口的每个成员,例如如果人口由 20 人组成,那么所有个人的编号从 01 到 20。如果我们要收集 5 个单位的样本,则参考随机数表,选择 5 个两位数。例如。使用上表,具有以下五个数字的单元将组成一个样本:01、11、07、19和16、如果抽样没有放回,并且某个特定的随机数自我重复,则不会再次取下一个数字符合我们标准的将被选中。
因此可以使用两个程序中的任何一个来抽取一个简单的随机样本。然而在实践中,已经看到简单的随机样本需要大量的时间和精力,是不切实际的。