1.从5万只电子元件符号中随机不重复抽取100只进行检验

没有更多推荐了,
不良信息举报
举报内容:
如何产生1-100
之间的100个不重复的随机数
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!当前位置: >>
第七章 抽样调查
第九章 抽样调查学习目的 第一节 第二节 抽样调查的一般问题 抽样分布 第三节 第四节 抽样估计 抽样组织形式1 学 习 目 的? 了解抽样调查和抽样分布的基本概念? 掌握抽样误差的计算方法 ? 掌握抽样估计的基本原理和方法 ? 了解抽样调查的基本组织形式 ? 掌握必要样本容量的计算2 第一节 抽样调查的一般问题3 一、什么是抽样调查抽样调查是按随机原则从全部研究单位中抽取一部分单位进行观察,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以 反映总体的数量特征的一种统计方法。 所谓随机原则,即是在抽取样本时,排除人们主 观意图的作用,使得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。4 二、抽样调查的基本特点? 调查单位的确定是按随机原则从全部总体单位中抽取的。? 用部分单位的指标数值去推断和估计总体指标数值。 ? 抽样调查中的抽样误差是不可避免的,但在事先是可 以计算并加以控制的。5 三、抽样调查的作用? 有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。 ? 从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难 例如: 办到,也要采用抽样调查。 ? 对无限总体不能采用全面调查。 ? 抽样调查的结果可以对全面调查的结果进行检查和修正。 ? 另外,有些产品的质量检查具有破坏性,不可能进行全面调查, ? 抽样调查可以用于工业生产过程的质量控制。 只能采用抽样调查。 ? 利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的 真伪,以决定行动的取舍。6 四、基本概念(概念要点)? 全及总体(Population):所要研究的事物的全体构成的总体 ? 样本(Sample):从全及总体中所抽取的部分单位组成的总体,又称抽样总体;? 总体参数(Population parameter):是在理论上可以从整 个总体中计算出来的总体指标 ? 样本统计量(Sample statistic):是根据样本观察值计算 出来的样本指标 ? 样本容量(Sample size):是样本中所含个体的数量,又 称样本单位数7 四、基本概念(常用的符号标记)?总体参数? ? ?总体均值: X 总体成数:P 总体标准差:σ?样本统计量? ? ?样本均值:x 样本成数:p 样本标准差:S8 四、基本概念(概念之间的关系)总体中有N个个体 总体 样 本 样本容量为:n随机抽取计 算计 算总体参数X P σ统计推断样本统计量x p s9总体参数一般是未知的样本统计量的值是可知的 四、基本概念(举例)【例】对一批某 种型号的电子元 件10000只进行? ? ?总体中包含有10000个个体 样本容量为100个个体 根据样本中100个电子元件实验而得的耐用时间检查,随机抽取100只, 测试的平均耐用 时间为1055小时, 合格率为91%。?数据计算出样本均值(平均耐用时间)x=1055小时,样本成数(合格率) p=91% 依据样本统计量可以对总体参数进行估 计(估计方法将在第三节介绍)。10 五、样本统计量的计算公式?样本均值:在样本资料未分组的情况下: x ??xi ?1nink i i??xn在样本资料分组的情况下:? x f ? xf x? ? ?f f ?i ?1 k i ?1 i?样本成数:p?n1 n?样本标准差: 在样本资料未分组的情况下: S ?在样本资料分组的情况下:? (xi ?1ni? x)2n ?1S?? (xi ?1 k i ?1ki? x)2 fii?f?111 六、抽样方法与样本可能数目? 抽样方法:? 重复(置)抽样:重复抽样是从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到全及总体中 去,再从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选n个样本单位。? 不重复(置)抽样:不重复抽样是从全及总体抽取第一个样本单位, 记录该单位有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,照 此下去直到抽选出n个样本单位。12 六、抽样方法与样本可能数目?样本可能数目:是指从总体中可能抽取的样本的最多数目,抽样数目大小与抽样方法有关。重复抽样时的样本可能数目是一个可重复的排列数:A ?Nn Nn例:从0-9的10个数中随机重复抽选6个数字组成电话号 码,共能组成多少个电话号码?A ? N ? 10 ? 100万n N n 613 六、抽样方法与样本可能数目不重复抽样时的样本可能数目可分为考虑顺序和不考虑 顺序两种情况。考虑顺序时的样本可能数目是不重复的 排列数:n PN ? N ( N ? 1)( N ? 2)...( N ? N ? 1) ? N !/( N ? n)!例:从班级10位学生中抽选三人担任不同的职务,问共有几种抽法?n PN ? N ( N ? 1)( N ? 2)...( N ? N ? 1) ? 10*9*8 ? 720种14 六、抽样方法与样本可能数目不考虑顺序时的样本可能数目是不重复的组合数:N ( N ? 1)( N ? 2)...( N ? n ? 1) C ? P / n! ? n!n N n N例:从小组10位学生中不重复随机抽选3个组成样本, 考查其平均成绩,可能的样本数目为:C3 1010 *9 *8 720 ? ? ? 120种 3* 2 *1 615 第二节抽样分布16 第二节?抽样分布抽样分布就是样本统计量的概率分布。根据随机抽样,从 一个总体中抽取一个确定数目的样本,其中选的样本单位 是随机的,因此,样本统计量是个随机变量。从同一个总体中抽取样本容量相同的所有可能样本后,计算每个样本统计量的取值和相应的概率,就组成了样本统计量的概率 分布,简称抽样分布。?统计量的取值不但和样本容量有关,还和抽样方法有关。 下面我们讨论简单随机样本的抽样分布。17 第二节抽样分布一、重复(置)抽样分布 (一)样本平均数的分布 (二)抽样成数的分布 二、不重复(置)抽样分布 (一)样本平均数的分布 (二)抽样成数的分布三、关于正态分布的定理(一)正态分布再生定理 (二)中心极限定理18 一、重复(置)抽样分布(一)样本平均数的分布样本平均数的分布由所有可能样本的平均数取值和相应的概率组成。例:某施工班组5个工人的日工资分别为:34、38、42、46、50元。则 总体工人日工资平均数和方差分别为:?X X?N2?34 ? 38 ? 42 ? 46 ? 50 ? 42元 52 2 2 2?2? ? X ? X ? ? ? 34 ? 42 ? ? ? 38 ? 42 ? ? ? 46 ? 42 ? ? ?50 ? 42 ? ?N 5? 32元219 一、重复(置)抽样分布现用重复抽样方法从5人中随机抽取2人组成样本,样本可能数目为52= 25个。各样本的日平均工资计算结果如下: 25个样本的日工资平均数计算表样本变量 34 38 42 46 50 34 34 36 38 40 42 38 36 38 40 42 44 42 38 40 42 44 46 46 40 42 44 46 48 50 42 44 46 50 5020 一、重复(置)抽样分布根据上表数据,可 以整理出样本日平均工资 34 36 38 40 42 44 46 48 50 合计 频数 1 2 3 4 5 4 3 2 1 25 频率 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25 121样本平均数的分布 如右表: 一、重复(置)抽样分布5/25 4/25 3/25 2/25 1/25 34 36 38 40 42 44 46 48 50样本日平均工资分布图22 一、重复(置)抽样分布根据样本日工资平均数分布表,可以计算日工资平均数的数学期望和 方差:?xf E ( x) ? x ? ?f? 2 ( x) ???1 (34*1 ? 36* 2 ? 38*3 ? ... ? 50*1) ? 42元 25[ x ? E ( x )]2 f ??f1 [(34 ? 42) 2 *1 ? (36 ? 42) 2 * 2 ? ... ? (50 ? 42) 2 *1] ? 16元 2 25? ( x) ? ? 2 ( x ) ? 16 ? 4元23 一、重复(置)抽样分布从以上计算,可以得到两个重要结论: (一)重复抽样的样本平均数的数学期望等于总体平均数,即: E(x)=X = 42元 (二) 抽样平均数的标准差反映样本平均数与总体平均数之间的平均离 差程度,因为:E[ x ? E ( x )]2 ?E ( x ? X )2所以,抽样平均数的标准差又称为抽样平均误差或抽样标准误差, 以m表示。 重复抽样的抽样平均误差等于总体标准差除以样本单位数的 平方根。即:m ? ? ( x) ??n??2n?32 ? 4元 224 样本平均数的分布与总体分布的比较总体分布% 20样本平均数的分布5/25 4/25 3/25102/25 1/250 34 38 42X465034 36 38 40 42 44 46 48 50X ? 42? 2 ? 32E?x? ? 42原来如此 ?(x)=16225 一、重复(置)抽样分布上述结论具有普遍意义,现加以一般的推导: 设总体变量为X:X1,X2,X3,…XN, 样本变量为x:x1,x2,x3,…xn。1、按照数学期的性质有;x1 ? x2 ? ... ? xn E ( x) ? E[ ] n1 ? [ E ( x1 ) ? E ( x2 ) ? ... ? E ( xn )] n26 一、重复(置)抽样分布重复抽样条件下,由于x1,x2,x3,…xn是相互独立的, 而且都是从总体X1,X2,X3,…XN中抽取的,每个单位 中选的机会相等,概率均为1/N,所以:E ( x1 ) ? E ( x2 ) ? ... ? E ( xn ) 1 ? ? X i Pi ? N i ?1N?Xi ?1Ni?X1 1 E ( x) ? [ E ( x1 ) ? E ( x2 ) ? ... ? E ( xn )] ? (nX ) ? X n n27 一、重复(置)抽样分布2、按照方差的数学性质x1 ? x2 ? ... ? xn ? ( x) ? ? [ ] n2 2??2n2[ x1 ? x2 ? ... ? xn ]1 2 ? 2 [? ( x1 ) ? ? 2 ( x2 ) ? ... ? ? 2 ( xn )] n28 一、重复(置)抽样分布在重复抽样条件下,由于x1,x2,x3,…xn是相互独立 的,而且都是从总体X1,X2,X3,…XN中抽取的,所 以变量xi与总体是同分布的,因此有:? 2 ( x1 ) ? ? 2 ( x2 ) ? ... ? ? 2 ( xn ) ? ? 2所以:1 2 ?2 ? 2 ( x) ? 2 [? ? ? 2 ? ... ? ? 2 ] ? n nm ? ? ( x) ? ?2n ??n29 一、重复(置)抽样分布从以上结论可知,(1)抽样平均误差比总体标准差 小得多,仅为总体标准差的1 n。例如,一个县的粮食亩产高低相差很大,亩产标准差为80公斤,如果随机抽 取100亩计算其平均亩产,其平均误差就显著缩小,只有总体标准差的1/10。(2)抽样平均误差与总体标准差成正比,而和样本单位数的方根成反比。30 一、重复(置)抽样分布(二)抽样成数的分布可以把是非标志作为(0,1)变量,其总体平均数就是总体成数,总体方差也由成数确定。XP ?P0-1变量 概率 0 1-P? 2 ( P) ? P(1 ? P)1 PX P ? E ( X P ) ? 0*(1 ? P) ? 1* P ? P31 一、重复(置)抽样分布2 ? P ? (0 ? P)2 *(1 ? P) ? (1 ? P)2 * P? P 2 (1 ? P) ? (1 ? P)2 P ? P(1 ? P)现在从总体中用重复抽样方法抽取n个单位组成样本,计算样本成数 p,样本成数的分布实质上就是(0,1)变量的样本平均数的分布:E ( p) ? Pm ( p) ? ? 2 ( P)n ? P (1 ? P ) n32 一、重复(置)抽样分布例:已知某批零件的优等品率为80%,现用重复抽样方法从中抽取100件,求样本优等品率的抽样平均误差。m ( p) ?P(1 ? P) 0.8*0.2 ? ? 4% n 10033 二、不重复(置)抽样分布(一)样本平均数的分布仍用前面5个工人日工资的例子。用不重复抽样方法从中抽取2人组成样本,并用样本平均工资来推断总体平均工 资水平。考虑顺序的不重复抽样,样本可能数目为:P52 ? 5* 4 ? 20个34 二、不重复(置)抽样分布20个样本的日平均工资计算如下表: 样本日工资平均数计算表样本变量 34 38 42 46 50 34 -36 38 40 42 38 36 -40 42 44 42 38 40 -44 46 46 40 42 44 -48 50 42 44 46 48 --35 二、不重复(置)抽样分布根据上表 数据,可 以整理出 样本平均 数的分布 如右表:样本日平均工资 36 38 40 42 44 46 48 合计 频数 2 2 4 4 4 2 2 20 频率 1/10 1/10 2/10 2/10 2/10 1/10 1/10 136 二、不重复(置)抽样分布根据样本日工资平均数分布表,可以计算日工资平均数的数学期 望和方差:?xf E ( x) ? x ? ?f? 2 ( x) ?1 ? (36 * 2 ? 38* 2 ? ... ? 48* 2) ? 42元 20[ x ? E ( x)]2 f ??f1 ? [(36 ? 42) 2 * 2 ? (38 ? 42) 2 * 2 ? ... ? (48 ? 42) 2 * 2] ? 12元2 20? ( x) ? ? 2 ( x) ? 12 ? 3.464元37 二、不重复(置)抽样分布从以上计算,也可以得到两个重要结论:(一)不重复抽样的样本平均数的数学期望等于总体平均数,即:E(x)=X = 42元 (二) 不重复抽样的抽样平均误差等于重复抽样的抽样平均 误差乘以修正因子,即:修正因子m ?? x ?m ?? x ????2 N ?nn ( N ?1)N ?n N ?1? ?32 5 ? 2 ( ) ? 12 ? 3.464元 2 5 ?138 二、不重复(置)抽样分布计算结果与按定义计算结果完全一致。这说明不重复抽样的平均误差总是小于重复抽样的平均误差,二者的比值就是修正因子。如果N很大,可以用N代替N-1,不重复抽样的平均误差计算公式 就简化为:m ?? x ????2 N ?nn ( N)??2n(1 ?n ) N上述结论具有普遍意义,推导过程略。39 二、不重复(置)抽样分布(二)抽样成数的分布与重复抽样相同,可以把是非标志作为(0,1)变量,其总体平均数就是总体成数,总体方差也由成数确定。XP ?P? 2 ( P) ? P(1 ? P)现在从总体中用不重复抽样方法抽取n个单位组成样本,计算样本成数 p,样本成数的分布实质上就是(0,1)变量的样本平均数的分布:E ( p) ? Pmp ?P(1 ? P) N ? n ( )? n N ?1 P(1 ? P) n (1 ? ) n N40 二、不重复(置)抽样分布例:要估计某地区10000名适龄儿童的入学率,用不重复抽样的方 法抽取400名儿童,检查结果有320名入学,计算样本入学率的抽样平均误差。(注:可以用样本成数代替总体成数)。 由上可知,P=80%1、在重复抽样下,入学率的抽样平均误差:m ( p) ?P(1 ? P) 0.8*0.2 ? ? 2% n 4002、在不重复抽样下,入学率的抽样平均误差:m ( p) ?P(1 ? P) n 0.8*0.2 400 (1 ? ) ? (1 ? ) ? 1.96% n N 400 1000041 抽样平均误差公式汇编重复抽样样本平均数 的抽样误差不重复抽样?nm??2n?m??2n (1 ? ) n N样本成数 的抽样误差m ( p) ?P (1 ? P ) nmp ?P(1 ? P ) n (1 ? ) n N42 三、关于正态分布的定理重复抽样分布和不重复抽样分布都是离散型变量的 分布。但许多现象都属于连续型变量,必须用连续型的正态分布来描述。在统计推断中,正态分布具有特别重要的地位,通常作为抽样平均数和抽样成数分布的极限 式使用。下面回顾关于正态分布的两个定理。(一)正态分布再生定理(二)中心极限定理43 (一)正态分布再生定理当总体服从正态分布 X~N(X,σ2)时,来自该总体的所 有容量为n的样本的均值 x 也从正态分布,x 的数学期望为 X ,方差为总体分布当n=4时,?2 。即: nx ~ N( X , n )样本均值分布 ? ?5 x当n=16时,?2σ=10?x ?2.5XX =50E(x) = 5044 (二)中心极限定理中心极限定理:设从均值为X,方差为σ 2 的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近 2 似服从 均值为X,方差为 ? 正态分布。 n一个任意分 布的总体?2x ? ? n2当样本容量n足 够大(一般认为 n≥30)时,样本 均值的抽样分布 渐近地服从正态E(x)= X分布。45 第三节 抽样估计有效的估计 将是……46 一、总体参数估计概述统计推断就是利用样本的数据,对总体的数量特征作出 具有一定可靠程度的估计和判断。统计推断包括参数估计和假设检验两个方面。总体参数估计是以样本统计量作为未知总体参数的估计 量,并通过样本数据计算样本统计量的取值,作为总体参数 的估计值。参数估计又称抽样估计。 科学的抽样估计方法要具备三个基本条件:47 一、总体参数估计概述首先,要有合适的统计量作为估计量。估计总体参数,可以有多个统计量,如估计总体平均 数,可以有样本平均数,还有样 本中位数、众数等。应当以哪个 统计量作为估计量是最好的呢?这就涉及到估计量的优良标准问题。作为优良估计量应符合以下 三个标准:48 优良标准之一:无偏性无偏性:样本统计量的期望值(均值)等于被估计的总体 参数。例如,样本均值( x )和 中位数(Me)均可作为总无偏估计量有偏估计量体均值(X)的估计量,但是一般情况下E(Me)≠ X ,而E( x )= X,所以样本均值是总体均值的无偏 估 计 量 。E( x )=X E(Me)≠ X49 优良标准之二:一致性一致性:即当样本容量n充分大的时,若样本统计量充分地靠近 被估计的总体参数,则该样本统计量是被估计的总体 参数的一致估计量。较大的样本容量较小的样本容量Xx50 优良标准之三:有效性有效性:如果一个样本估计量的方差比其他估计量的方差小,则 称该样本估计量是被估计的总体参数的有效估计量。例如,样本均值( x )和中 位数(Me)均可作为总体 均值(μ)的估计量,但是 可以证明σ(Me) ≥σ(x ),所样本均值估计量中位数估计量以样 本均值是总 体均 值 的 有 效 估 计 量 。X51 一、总体参数估计概述其次,要有合理的允许误差范围。允许误差范围又称抽 样极限误差,指样本统计量与被估计参数离差的绝对值。允 许误差范围表明了估计的准确度(或精度),允许误差范围 越小表明估计的准确度(或精度)越高,允许误差范围越大 表明估计的准确度(或精度)越低。 例如,估计粮食平均亩产500公斤,允许误差范围为10公 斤,这就意味着亩产在490-510之间都是有效的。490-510又 称估计区间。允许误差范围与估计值之比称为误差率,(1误差率)称为估计精度。如本例误差率=2%,估计精度 =98%。52 一、总体参数估计概述第三,要有一个可接受的置信度。估计置信度又称统计推断的概率保证程度,是关于估计的可靠性问题。置信 度就是指理论上在多次不同的估计推断中,估计区间能够 包括被估计参数的概率。90%的置信度就表示在100次估计 中,有90次的估计区间能够包括被估计参数,平均有10次 出错机会。置信度与估计精度之间是相互矛盾的。置信度高,估 计区间就大,估计精度就差;置信度低,估计区间就小, 估计精度就高。需要在二者之间进行合理安排。53 二、点估计(Point estimation)点估计:又称定值估计,它是用实际样本统计量数值代替总体参数值的一种统计估计方法。点估计的优点:能够提供总 体参数的具体估计值。 点估计的缺点:并不能提供点估计的 优点是?误差大小的信息。54 二、点估计(举例) 请思考:这种点估计是建立在什么样假设基础上的?【例】由于许多战略上的理 我们知道,制造出来的坦克数肯定大于记由,盟军非常想知道二战期间德军总共制造了多少辆坦 克。德国人在制造坦克时是录中的最大编号。因此,其中点估计的方法之一就是,计算出被缴获坦克编号的平 均值,并认为这个值是德军全部坦克编号墨守陈规的,他们把坦克从1开始进行了连续编号。在战 争进行过程中,盟军缴获了的中点,用样本均值乘以2就是总数的一个估计。一些敌军坦克,并记录了它们的编号。那么怎样用这些 号码来估计坦克总数呢?〖注〗从战后发现的德军记录来看,盟军估 计值非常接近所生产坦克的真实记录。 统计学家做得比间谍们更漂亮!55 三、区间估计(Interval estimate)区间估计:就是根据给定的置信度要求,估计出总体参数所 在区间的上限和下限。56 三、区间估计(Interval estimate)一般地说,对于总体被估计参数? ,找出样本的两个 估计量?1和?2,使估计参数落在区间 ( ?1,?2 )内的 概率为1-?,即:?? ?? ? P(?1 ? ? ? ? 2 ) ? 1 ? ?称区间( ?1,?2 )为总体参数的估计区间, ?1为估计 下限,?2 为估计上限, 1-?为估计置信度, ?为显著 性水平。57 三、区间估计(Interval estimate)1- ??1??2区间估计正态分布示意图58 三、区间估计(Interval estimate)例:根据前面例子,从总体5个工人(总体平均数为42元,总体方差为32)中按重复抽样方法抽取2人的日工资样本平均数的抽样分 布如下: x P 34 1/25 36 2/25 38 3/25 40 4/25 42 5/25 44 4/25 46 3/25 48 2/25 50 1/25根据概率分布表,很容易写出样本日平均工资落在某个区间的概率: P(40≤x ≤44 ) =(4/25)+(5/25)+ (4/25)=13/25=52% P(36≤x ≤48 ) =(2/25)+ (3/25)+(4/25)+… =22/25=92%59 三、区间估计(Interval estimate)可以将上述概率转化为样本平均数与总体平均数的误差不超过一 定范围的概率: P(40≤x ≤44 )=P(|x-X| ≤2)=13/25=52% P(36≤x ≤48 )= P(|x-X| ≤6) =22/25=92%可见,估计的误差范围与概率保证程度(置信度)成正向变化关系,但估计精度与概率保证程度成反向变化关系。在实际区 间估计时,我们只能给定置信度来推算抽样误差范围的上限和下 限,或给定允许误差范围来计算相应的置信度水平。60 三、区间估计(Interval estimate)根据中心极限定理,在大样本的情况下,样本平均数或 成数接近服从正态分布,可以根据《正态分布概率表》查找 估计量落在某个区间的概率。即有下式: △= zμ, P(|x-X|≤△)=F(z) z = △ /μ 或 P(|x-X|≤zμ)=F(z)由上式就得到估计区间: x- △ ≤ X ≤ x+ △ 或 x- zμ ≤ X ≤ x+ zμ61 2 总体均值区间估计(σ已知)设总体X ~ N(X,σ 2 σ 已知,根据正态分布再生定理,则 ), 2 有: 2 x ~ N(X,σ x ) 根据正态分布的特征可知:F(t)=68.27% F(t)=95.45%F(t)=99.73%X-3σx X-2σ X - σ X X + σ X+2σ X+3σx x x x xx62 2 总体均值区间估计(σ已知)?在进行区间估计时,需要先将绝对误差△加以标准化, 即将绝对误差化成抽样平均误差m的倍数,以z表示:z??m?| x? X |mz称为概率度。求z值的过程就是样本变量x标准化的过程,标准变量z 服从标准正态分布, 根据z值大小可以查正态分布概率表得到被估计参数落在某个区间的概率值1-? 。从上式自然得到:△ =z m63 2 总体均值区间估计(σ已知)例如,经抽样调查计算样本亩产量为600公斤,并计算抽样平均误差 为3公斤,如果允许误差范围为6公斤,请计算平均亩产落在估计区 间的概率。 已知:x=600, m =3, △ =6 估计区间为(600-6,600+6)即(594,606) 由公式:z??m?| x? X |m得:z =6/3=2,查正态概率表得: P=F( z )=F(2)=0.%64 总体均值区间估计(举例)【例1】某车间生产滚珠, 解: n 从长期实践中得知,滚 珠直径X服从正态分布, 现随机抽取6个测得直径 分别为:14.6,15.1, 14.9,14.8,15.2, 15.1(单位:mm)。若已14.6 ?15.1 ? … ?15.1 x? n ? ? 14.95 (mm) 6 由于不知道总体中所包含的个体数i 1?xi ?样本均值的抽样平均误差为: 量的多少,所以将其视为重复抽样。?x ? ? ? n0.06 ? 0. 1 6z 当?=0.05时,查正态分布表得: =1.96所以平均直径X的置信区间为: x ± z ? x = 14.95 ±1.96×0.1知总体方差为0.06,求平均直径的置信区间。 (取?=0.05)即X的95%的置信区间为(14.75,15.15)65 总体均值区间估计(举例)例2:某乡水稻总面积20000亩,以不重复抽样方法从中抽取400亩实割 实测计算得到样本平均亩产为645公斤,标准差为72.6公斤,要求极限 抽样误差不超过7.2公斤,请对该乡的平均亩产和总产量作估计。 第一步:计算抽样平均误差x ? 645m ??x ? ?2? ? 72.672.62 400 n (1 ? ) ? 3.6公斤 (1 ? ) ? 400 20000 n N66 总体均值区间估计(举例)第二步:根据给定的极限误差,计算平均亩产及总产量的估计区间 平均亩产估计区间为: x±△=645 ±7.2, 即(637.8, 652.2)公斤 总产量X=N* x =90万公斤,总产量估计区间为:N( x ±△)=2万*(645 ±7.2), 即(04.4)万公斤 第三步:计算概率保证程度根据z= △/ m=7.2/3.6=2, 查表得F(2)=0.9545 点估计:平均亩产为645公斤,总产量为1290万公斤 区间估计:以95.45%的概率保证平均亩产在637.8-652.2公斤之间,总 产量在4.4万公斤之间。67 2 总体均值区间估计(σ未知)设总体参数X ~ N(X, ? 2 ),?2 未知,为了估计总体均值的 置信区间,则总体方差? 2 要用样本方差S 2代替。样本均值则服 从自由度为n-1的t分布。进行总体均值区间估计时,使用t统计 量进行估计。即:t?x ?X ? s ~ t (n 1) n(1)则有,总体均值 X在(1-?)的置信水平下,查t分布表可得出 自由度为n-1的t分布临界值 t ?( n ?1 ) 。并依此可计算出方差未知2正态总体均值的置信区间为:68 2 总体均值区间估计(σ未知)[ x?t ?( n ?1)2S S ( n ?1 ) ] ,x ? t ? n n 2(2)令,t = t ? (n-1) ,(2)式为: 说明:这里总体均值的区间估计公式是针对重复抽样而 2 (3) ( x ? ?x ≤ X ? x ? ?x ) 言的。如果采用不重复抽样,则置信区间的计算公式应为:式中的: ? t ?( n ?1) xS 和 x ? ? 称为置信区间下限, Sx 1- n n 2 x ± t ? ( n ?1 ) N n 2 S 和 x ? ?x 称为置信区间上限 x ? t ? ( n ?1 ) n 269 总体均值区间估计(举例)【例】从水平锻造机的产品中 随机地抽取20件,并测量其尺解:?x?计算样本均值和样本方差寸,得以下20个数据:31.44 32.22 31.98 31.88 31.44 31.17 31.68 31.29 31.72 31.58 31.87 32.12 31.04 31.48 31.87 31.88 31.62 31.96 31.73 31.49?1 x i i?nn31.44 ? 31.44 ? … ? 31.49 ? ? 31.6730 n 20S2 ?? (xi ? x )2 ?i 1n ?1在正常条件下,产品尺寸X服 从正态分布。求产品平均尺寸 的估计区间?(?=0.05)( 31.44 ? 31.6730)2 ? … ? ( 31.49 ? 31.6730)2 ? 20 ? 1 ? 0.096670 总体均值区间估计(举例)【例】从水平锻造机的产品中 随机地抽取20件,并测量其尺 ? 计算估计区间。由于?未知,n&30,所以采用t统计量进行估计。对于?=0.05,自由度为20-1=19,查t分布表的: t ? (20?1 ) =2.092寸,得以下20个数据:31.44 32.22 31.98 31.88 31.44 31.17 31.68 31.29 31.72 31.58 31.87 32.12 31.04 31.48 31.87 31.88 31.62 31.96 31.73 31.49由样本估计区间的计算公式[ x ? t ?( n ?1)2S S x ? t ? ( n ?1 ) ] , n n 2可得: 0.8 ] 2.09 31.6730+ [ 31. , 20 20 (31.2)在正常条件下,产品尺寸X服 从正态分布。求产品平均尺寸 的估计区间?(?=0.05)71 总体均值区间估计需说明的问题? 当总体分布未知或总体为非正态总体时,只要样本是大样本 (一般认为 n&30), 根据中心极限定理,样本均值 x 近似服从 正态分布。所以采用正态统计量Z对总体均值进行区间估计。若总体方差? 2是未知的,则用样本方差S 2代替总体方差? 2 。因此,总体均值的区间估计与前面相同 ? 若总体分布为正态分布,且? 2 未知,但样本为大样本,也可 以用样本方差S 2 代替总体方差? 2 ,采用正态统计量Z对总体 均值进行区间估计。72 总体成数的区间估计总体成数是指总体中具有某种特征的单位数量占总体全部单位数的比重,也称为总体比例。73 总体成数的区间估计? 可以证明,在大样本的情况下,若nP和n(1-P)两者都大于5 时,样本成数P近似服从期望值为P ,方差为 P (1-P) 的正态n分布。 ? 使用正态分布统计量Z对总体成数P进行区间估计。Z? P ?P?P~ N(0 , 1)? 总体成数P是未知的,用样本成数p来代替,所以P的置信度 为1-?的置信区间为:( P ? Z ? ?p , P ? Z ? ?p )2 274 总体成数的区间估计(举例)【例】一所大学的保健医生想了解戴眼镜学生的比重,随机地 抽取100名学生,其中 戴眼镜者有 31名 。 试 对全校学生戴眼镜人解:?计算样本成数: n1 P ? n ? 31 ? 31% 100 ?计算样本成数的抽样平均误差:?p ?P(1-P) ? n0.31(1-0.31) ? 0.2Z ?当?=0.10时,查正态分布表得: ? =1.65?计算总体成数P的置信区间:P± Z ? ?p = 0.31 ±1.65×0.04622数比重进行区间估计(?=0.1) 。即P的90%的置信区间为(23.4%,38.6%)75 第四节 抽样组织形式76 五种基本抽样组织形式类型抽样等距抽样简单随机抽样 整群抽样 多阶段抽样77 一、简单随机抽样总体中有N个个体? 简单随机抽样,又称为 纯随机抽样,它是按照简单随机抽样 随机原则直接从总体N 的样本个体在总体 中的分布是无规律 个个体中抽取n个个体 的。作样本,使总体中的每 个个体都有同等的机会 被抽中。从总体中随机 抽取n个个体简单随机抽样图示78 简单随机抽样的特点? ?简单随机抽样是抽样调查中最基本的组织形式,前面所讲的估计方法都 是以简单随机抽样为基础的; 简单随机抽样是按随机原则直接从总体N个单位中抽取个单位作为样本 ,不论是重复抽样还是不重复抽样都要保证每个单位在抽选中有相等的 中选机会;由于在抽样中除了抽样框的信息外,不需要其它信息,所以 又称为纯随机抽样。? ?简单随机抽样被用作评估其他抽样策略的效率的基准 ; 简单随机抽样最原始的抽取方法是抽签法,最常用的抽取方法是利用《 随机数表》 或计算机生产随机数。79 抽样单位数目的计算? 均值估计的抽样单位数目计算? 在重复抽样的条件下? m 因为 ? x ? z ? ? z? n所以有:2 ? z? 2 n? 2 ?xz2 ? 2 ?x ? ? n2?在不重复抽样的条件下 因为? x? z ?? 1? n n N? N z2 ? 2 n? 所以有: N? 2 ? z2? 2 ? x80 抽样单位数目的计算? 成数估计的抽样单位数目计算? 在重复抽样的条件下 因为P(1 ? P) ? p ? z? n2 ?pz2 ? (1 ? P) P ? nz2 ? (1 ? P) P 所以有: n ? 2 ?p?在不重复抽样的条件下 因为? p ? z?P(1 ? P) n (1 ? ? N) nN z2? (1 ? P) P 所以有: n ? 2 N ? p ? z2 P(1 ? P)81 抽样单位数目的计算(举例)例:某市开展职工家计调查,根据历史资料该市职工家庭平均每人年 收入的标准差为2400元,家庭消费总支出中食品消费支出比重(恩格 尔系数)为54%。现用重复抽样方法,要求在95.45%的概率保证下,平 均收入的抽样极限误差不超过200元,恩格尔系数的抽样极限误差不超 过4%,请确定样本必要数目。 解:根据公式,在重复抽样条件下: 样本平均数的样本必要数目:z 2? 2 22 * 24002 n? ? ? 576户 2 2 ?x 200样本成数的样本必要数目:z 2 P(1 ? P) 22 *0.54*0.46 n? ? ? 621户 2 2 ?P 0.0482 关于抽样单位数目的几点说明? 在同样条件下,不重复抽样比重复抽样要求的抽样单位数目少。但不 重复抽样的抽样单位数目计算公式比较复杂。在实际工作中,一般当 n 的抽样比 N 很小时(小于5%),为了简化计算,虽然采用不重复抽样 ,也可用重复抽样计算公式计算抽样单位数目。? 同一总体往往同时需要估计总体平均数和总体成数,对二者可以分别计算出各自抽样单位数目,为了防止抽样单位数目的不足,在实际工作中 ,往往根据抽样单位数目比较大的一个数目进行抽样,以满足共同要求83 关于抽样单位数目的几点说明一个问题: 在重复抽样情况下,如果其它条件保持不变,要使 允许误差范围缩小为原来的1/2,则样本单位数目需要扩 大为原来的多少?反之,如果允许误差范围要求扩大为原来的2倍,抽样单位数目又要如何变化?84 二、类型抽样总体中有N个个体?(一)类型抽样的概念?类型抽样,又称为分层抽样。它首先把总体将总体分成若干个类型组 在i组中随机抽取n i个个体n1+ n2+ ? +nk= n 各个体按某一标志分成若干个类型组,使各组 组内标志值比较接近,然后分别在各组组内按随机原则抽取样本个体 。85类型抽样图示 (二)类型抽样的分类1、等比例类型抽样n1 n2 n ? ? ... ? N1 N2 N2、不等比例类型抽样86 (三)等比例类型抽样的估计1.总体平均数估计 第一步 计算各层抽样平均数xi ?k?xj ?1niijnik第二步 计算样本平均数x?第三步 计算抽样平均误差(1)计算各组内方差:? N x ?n xi ?1 i iN?i ?1i in? i2 ?( X i ? X i )2 ? Ni?( xi ? x i ) 2 ? ni87 (三)等比例类型抽样的估计(2)计算各组内方差的平均数: (3)样本平均数的抽样平均误差: 重复抽样: 不重复抽样:? i2 ?ni? i2 ? nmx ?? i2nmx ?? i2n(1 ?n ) N(4)抽样平均数的估计区间:x ? zm x88 类型抽样算例例:某乡粮食播种面积20000亩,现在按平原和山区面积 比例抽取其中的2%,计算各组平均亩产 xi 和各组亩产标 准差σi如下表,求样本平均亩产 x 和抽样平均误差 m x? ? ? ? ? ? ? ? (? )Ni ?
20000 ? ? ? ±×? ? ? ù ? ? ? ? ±? ? ? ±? ? ? ù ? ? ? ù ? ? ù ? ? ? ±× ? ú ê ? ? (? ? ) x ? (? ? )? i ú ? ? (? )ni ? ? ? ? ? 280 560 80 120 350 150 400 497 106? ? ? ? ? ? ? ? ? ? ? ?89 类型抽样算例?n x x?ni i560 ? 280 ? 350 ? 120 ? ? 497(公斤) 4002 i i?i2?n? ?n80 ? 280 ? 150 ? 120 ? ? 11230(公斤) 40022不重复抽样时:mx ?重复抽样时:? i211230 ? ? 5.3(公斤) n 400mx ?? i2n (1 ? ) ? 5.25(公斤) n N90 2.总体成数估计(一)计算样本成数 估计总体成数? P? p??N piiN?n p ?iin(二)计算抽样成数的平均误差重置抽样 : m p ? 不重置抽样 : m p ?pi (1 ? pi ) n pi (1 ? pi ) n (1 ? ) n Ni i i其中:? n p (1 ? p ) p (1 ? p ) ?i in91 (四)类型抽样的特点类型抽样的平均误差与组间方差无关,而决定于组内方差的平均水平。由此可以推导出两点结论: 1、根据总体方差等于组间方差与组内方差之和定理, 类型抽样的平均误差一般小于简单随机抽样的平均误差; 2、由于总体方差是确定的数,因此,在类型抽样分组 时应该尽可能扩大组间方差,缩小组内方差,从而减少抽 样误差,提高抽样效果。92 三、等距抽样总体中有N个个体? (一)等距抽样的概念:? 等距抽样又称为机械抽样 排序,并均分成n个部分。 或系统抽样,它是事先将将总体中个体按某一标志在第一部分中随机地抽取一 个,然后每隔相同的距离抽取总体各个体按某一标志排 一个,直到抽完n个为止。 列,然后依固定顺序和间隔抽选样本个体的一种抽样组织形式。等距抽样图示93 (二)等距抽样的分类? 在等距抽样中,由于排队所依据的标志不同,等距抽样分为 按无关标志排队和有关标志排队两种。? 按无关标志排序:是指排列的标志和所研究的标志值的大小无关或不起主要影响作用; ? 按有关标志排序:即用来排列的标志和所研究的标志值 的大小保持密切关系。按有关标志排序实质上一种特殊 的类型抽样,有利于提高样本的代表性。94 (三)等距抽样的抽选方法1、随机起点等距抽样 :设N个单位分成n个段,每段k单位,k就是抽样间距。在第一段随机抽取第i个,则其他的样本单位就依次确定:i+k,i+2k,…i+(n-1)k。 通常用于无关标志排队时,其抽样效果与 简单随机抽样相同。2、半距起点等距抽样:第一个单位取k/2,后面单位确定方式同上。3、对称等距抽样:每两段配成一对,在第一段随机抽取第i个单位,在 第二段则第2k-i个单位;第三段取第2k+i个单位,在第四段则取第 4k-i个单位,后面以此类推。95 (三)等距抽样的抽选方法对称等距抽样示意图96 (四)等距抽样的特点? 等距抽样需要有总体的辅助信息,以便于进行单位的排序; ? 无论是有关标志还是无关标志排队,都要注意避免抽样间距与总 体变化的周期性相吻合,引起系统误差 ; ? 与简单随机抽样相比,按有关标志排队的等距抽样的平均误差较 小; ? 估计值计算与简单随机抽样相同,但抽样平均误差计算较复杂。 对于无关标志排队且随机起点的等距抽样,可以采用简单随机抽样误差公式。97 四、整群抽样总体中有N个个体? (一)整群抽样的概念: 先将总体各个体划分将总体所有个 体分成若干群 以群 (组)为单元从总 以群为单元在总 以中选群中的所 体中抽取若干群 有个体组成样本 体中随机抽取一些群(成若干群(组),然后 组),对中选群(组)的所 有个体进行全面调查 的抽样组织形式。整群抽样图示98 (二)整群抽样的特点? 整群抽样直接抽取的不是总体中的个体而是“群”,因此 总体和样本是由“群”组成的。? 总体中的每一群所包含的单位数有每一群的单位数相等和不尽相等两种情况。 ? 影响抽样误差的方差是群间方差,群内方差不影响抽样误 差。因为对抽中的群来说,对群中所有单位都进行调查, 因此群内不产生抽样误差。? 整群抽样是不重复抽样,应该用不重复抽样公式计算抽样平均误差。99 (三)整群抽样的优点? 由于是对中选群的全面调查,抽样单位比较集中,所以整群 抽样能大大降低数据收集的费用;? 当总体中个体自然聚合成群(例如:住户、学校)时,整群抽样组织更加方便; ? 如果对于调查变量而言,群内单元差异较大,而不同群的差 异较小,整群抽样比简单随机抽样的效率更高(例如为估计 性别比采用按户的整群抽样) 。100 (四)整群抽样的缺点? 对调查变量,若群内个体有趋同性,则整群抽样的抽样效率 比简单随机抽样低,(这正是通常遇到的情况),但对此项效率的损失可通过增加群的抽取个数来弥补;? 通常无法提前控制总样本量,因为在进行调查前,我们通常 不知道一个群内到底有多少个个体; ? 抽样误差的计算可能比简单随机抽样更为复杂。101 五、多阶段抽样总体中有N个个体? 多阶段抽样也称多级抽 地 在 总 体 随机 将 总 体 中划 分 成 再在中选的初级单元抽干个初级 单 若 取 若 干 初 级单 中抽取若干次级单元 样,是先从总体中随机 元如果抽样过程经过这样两次抽样,完成 地抽取若干初级单元, 了样本个体的抽取,则称之为两阶段抽样。 再从中选的一级单元中 若要继续进行下一阶段的抽样,……,则称 随机地抽选二级单元,之为多阶段抽样。 ……如此下去,直至抽取所要调查的样本个体 的抽样组织方式。多阶段抽样图示102 多阶段抽样的优点? 当群内单元对于调查变量是同质时,多阶抽样比单阶整群抽 样的效率高;? 样本分布相对集中,因此采用面访的旅行时间和费用都大为降低; ? 不需要有整个总体的名录框,所要的只是在每个阶段抽样都 有一个完整的抽样框。103 多阶段抽样的缺点? 虽然多阶抽样的效率比一阶整群抽样的高,但它没有简单随 机抽样的效率高; ? 通常不能提前知道多阶抽样的样本量,因为在具体调查前, 我们不知道在每个大单元中到底包含多少个下级单元(若固 定每个大单元中的抽样数目,则总的样本量也可控制);? 调查的组织较为复杂(比单阶整群抽样复杂);? 估计值与抽样方差的计算较为复杂。104
第​七​章​ ​ ​抽​样​调​查​ ​ ​例​题...例题 2:某乡水稻总面积 20000 亩,以不重复抽样方法从中抽取 400 亩实割实测...第七章 抽样调查一、本章重点 1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。它是一 种非全面调查,其意义在于对总体的推断上,存在可控制性误差。...第七章 抽样推断 一、单项选择 1.抽样调查所必须遵循的基本原则是( A.随意原则 原则 2.抽样调查的主要目的是( A.广泛运用数学的方法 差 )。 B.可比性原则 ...第4章市场调查的抽样技术 40页 免费如要投诉违规内容,请到百度文库投诉中心;如要提出功能问题或意见建议,请点击此处进行反馈。 市场调查 第七章 制定抽样计划 隐藏...第​七​章​ ​ ​抽​样​技​术​测​验 暂无评价|0人阅读|0次下载|举报文档抽样技术测验 一、 填空题 1、 抽样调查是按照___从总体中...第七章-抽样调查练习题_经济学_高等教育_教育专区。第七章 抽样调查一、单选题 1. 反映样本指标与总体指标之间抽样误差可能范围的指标是( A、样本平均误差 C、...随机抽样的案例设计 2页 免费如要投诉违规内容,请到百度文库投诉中心;如要提出功能问题或意见建议,请点击此处进行反馈。 第七章 抽样调查 大学的知识,管用大学的知...第七章 抽样设计与推断 第一节 抽样设计 一、抽样推断与抽样设计的概念(一)抽样推断 抽样推断(Sampling inference)是在抽样调查的基础上, 利用样本的实际资料计算...抽样调查(1) 86页 1下载券 第七章抽样调查基础知识 31页 1下载券 10.1抽样...第九章 抽样调查基础一、本章重点 1.抽样调查也叫做抽样推断或参数估计,必须坚持...第七章 参数估计一、单项选择题 1.抽样调查的目的在于( ) ①了解总体的基本情况 ②用样本指标推断总体指标 ③对样本进行全面调查 ④了解样本的基本情况 2.抽样...
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。}

我要回帖

更多关于 电子元件大全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信