stata最多能分析多大stata计算样本量

STATA生存分析的详细步骤及解释
生存分析(survive
analysis)即是将终点事件的出现与否和出现终点事件所经历的时间结合起来的一种统计分析方法,生存分析通常研究的终点事件是死亡,生存分析由此得名。但生存分析可更广泛的运用于恶性肿瘤、慢性疾病或其他情况的随访研究中事件分析,比如疾病的发生、复发、转移、伤口的愈合、某种症状的消失等。生存资料的分析主要特点就是考虑每个研究对象出现某一结局所经历的时间。生存曲线即是以生存时间为横轴,生存率为纵轴,将各个时间点对应的生存率连接在一起的曲线图[1-2]。
1.&生存分析中几个重要的基本概念
1.1生存时间
生存时间(survival
time)也是一个广义概念,泛指所关心的某现象的持续时间,即随访观察持续的时间,常用符号t表示。生存时间分为两种类型:1.
完全数据(complete data):指从观察起点到发生“死亡”事件所经历的时间。提供了观察对象确切的生存时间。2.
截尾数据(censored data):亦称截尾值(censored
value)或终检值。指从观察起点到发生非“死亡”事件所经历的时间。
生存结局分为“死亡”与“截尾”两类,“死亡”是感兴趣的终点时间,其他终点事件或结局都归为截尾。
1.3死亡概率
死亡概率(probability of
death)表示单位时间段开始存活的个体,在该段时间内死亡的可能性。符号q表示。"q=某年内死亡人数&某年年初人口数"
1.4生存概率
生存概率(probability of
survival)表示单位时间段开始存活的个体,到该段时间结束时仍存活的可能性。符号p表示。p=某年活满一年人口数&某年年初人口数。P=1-q。
生存率(survival rate, survival
function)表示观察对象经历tk个单位时间段后仍存活的可能性。若无截尾数据,则。其中1。若有截尾数据,须分时段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理:,Pi为某时段的生存概率,故生存率又称累积生存概率(cumulative
probability of survival)。
1.6生存曲线
生存曲线(survival
curve):生存时间为横轴,将各时点所对应的生存率连接在一起的曲线图,样本量小时生存曲线呈阶梯形,样本量足够大时,形成光滑的曲线。
1.7中位生存时间
中位生存时间是指50%观察对象能存活的时间。
2.&生存分析的统计学方法
由于生存时间一般不呈正态分布,而且需要考虑截尾数据,生存分析有其独特的统计学方法。常用的统计学方法有以下几种。
2.1描述性分析
根据样本生存资料估计总体生存率及其他有关指标(如中位生存时间等)。常采用Kaplan-Meier法(乘积极限法)进行分析。对于频数表资料则采用寿命表法进行分析。计算生存率需要考虑时间顺序。
2.2比较分析的方法
对不同组生存率进行比较分析,常采用非参数的log-rank检验,检验无效假设使两组或多组总体生存时间分布相同。
2.3影响因素分析
通过生存分析模型来探讨影响生存时间的因素,常用的方法为COX比例风险模型。
3.&基于Stata软件的统计学实现生存分析(笔者注:以下所举实例数据全部来自于陈峰教授主编《现代医学统计方法与Stata应用(第2版)》,相关Stata命令及结果解释大部分来自于这本书,其中部分命令有少许改动。陈锋教授主编的这本书通俗易懂,感兴趣的读者可以找来一读)
3.1生存资料的定义
在对随防资料进行生存分析之前,需先将该数据库定义为生存资料数据库,其命令是:
stset&时间变量&[,failure(截尾变量==#)]
其中,选择项failure(截尾变量==#)规定截尾变量取值为“#”时研究对象出现预期结果,没有该选择项时,Stata 以所有不等于0
的非缺失值为出现预期结果。对数据库进行定义时必须注意变量顺序,命令stset
后的变量顺序依次为时间变量、截尾变量。定义数据库后,系统自动产生四个变量:
/*&数据库中该条记录是否被定义为生存资料
/*&该条记录是否出现预期结果
/*&观察对象被随访的时间
/*&观察对象第一次被观察到的时间(开始过程的时间为0)
例1 某医院泌尿外科于 年间作了19例肾移植手术,拟了解肾移植后病人
的生存时间(天)。规定随访开始时间为病人术后一天,预期结果为该病人因与肾移植有关的各种原因的死亡。后改进手术方式,于
年又作了14 例,资料如下(有+的数据表示该病人截尾)。计算各组的生存率及可信区间(资料已存入文件例1.dta)。
一般手术: 3 9 15 20 20 26 30 41 46 64+ 64 135 223 365 450 596+ 680+
改进手术: 10 390+ 518+ 70+ 70+ 120 475+ 225 801+ 366 647+ +
键入命令如下:
. stset time,
failure(outcome)
得结果如下:
数据库“例-1”被定义为生存分析数据库,变量“outcome”取值不等于0
且不等于缺失值时,该记录为完全数据,即出现预期结果。反之则为截尾值,表示未观测到病人出现预期结果。完成上述定义后,即可用下面介绍的命令作进一步分析。
3.2 生存资料的描述
用于计算中位生存时间的命令是:
[if&表达式] [,by(分组变量)]
可用stci 命令计算中位生存时间、平均生存时间、生存时间的百分位数,及其可信区间:
stci [if 表达式], [by(分组变量) 选择项]
其中,选择项有:
/*&计算中位生存时间
/*&计算平均生存时间时,如果生存时间最长一例为截尾值,emean&假设数据服从指数分
布,并根据指数分布将该例后生存曲线部分延长至与横轴相交,曲线下面积即为所求
的平均生存时间。
/*&计算平均生存时间时,如果生存时间最长一例为截尾值,rmean&不对数据延长,曲线
下面积即为所求的平均生存时间。此即为通常教科书上所教授的平均生存时间。
/*&生存时间的百分位数
/*&可信区间的可信度
也可用survsum 命令计算中位生存时间的中位数。
继续以例1数据为例,在命令窗口键入:
. stsum, by(treat)
数字化结果如下:
第二组(改进手术组) 较早出现了截尾数据,故该组的中位生存时间无法进行估计,Stata
用缺失值表示。
用stci 命令可以计算平均生存时间及其可信区间:
命令窗口键入命令如下:
. stci, rmean
数字化结果如下:
第二组的平均生存时间明显长于第一组。对于观察队列中最后一例为截尾值者,平均生
存时间的估计值偏低(underestimated)。Stata 在相应数值后加“*”表示。
3.3生存率的估计
生存率的估计一般采用乘积极限(product-limit)法,又称Kaplan-Meier 法,其标准误的计
算用Greenwood 近似法。根据生存率及其标准误,可以绘制生存曲线,估计可信区间。
用于输出生存率、生存率的标准误等统计量的命令是:
[if&表达式] [, by(分组变量) strata(分层变量) adjustfor(校正变量)&选择项]
选择项有:
/*&输出死亡函数&(1-S(t))
/*&输出累积风险函数
/*&规定所输出可信区间的可信度
这里,by 与strata 选择项的使用有所不同。使用by 选择项时,Stata
对分组变量的不同水平分别计算生存函数和累积风险函数。而在使用strata 选择项时必须同时使用adjustfor
选择项,此时Stata 将计算adjustfor 选择项中校正变量取值为0
时的生存函数、累积风险函数,即计算基线生存函数、基线累积风险函数。
用于绘制Kaplan-Meier 生存(死亡)曲线的命令是:
stsgraph [,by(分组变量)
separate&绘图命令选择项]&/*&绘制Kaplan-Meier&生存(死亡)曲线
stphplot [,by(分组变量)&绘图命令选择项]&/*&绘制log(-log(S(t)))与log(time)的线图
stcoxkm [,by(分组变量)
separate&绘图命令选择项]&/*&绘制Kaplan-Meier&生存曲线与Cox&预测曲线
在上述的“绘图命令选择项”中,可以选用xlab,ylab,xtick,ytick 以及标题命令t1,t2,b1,
b2,l1,l2,r1,r2 等,但connect, symbol, pen 等选择项不能用,因y 轴是从0 开始,所以ylog
等选择项亦不能用。在stphplot 命令中,可选用connect, symbol, pen 等选择项。
sts graph 命令中的其他常用选择项:
adjustfor(变量) /*&按指定变量进行调整
/*&指定绘制“死亡”曲线,缺失为绘制生存曲线
/*&绘制生存(或死亡)曲线及其Greenwood&可信区间
/*&绘制Nelson-Aalen&累积风险函数曲线
/*&绘制Nelson-Aalen&累积风险函数曲线及其可信区间
/*&在曲线上标出该时间点截尾值例数
计算各组的生存率及标准误,命令及结果如下:
. sts list if treat==1
绘制各组的生存曲线,命令及结果如下:
. sts graph,by(treat)
两条曲线分别表示两组的生存曲线,曲线上的数字表示在该时刻的截尾值例数。显然,两
组的生存率不同。绘制各组的生存曲线及其可信区间,使用gwood 选择项。如对第1 组,命令及结果如下:
. sts graph if treat==1,
图中,中间一条线是treat=1 组的生存曲线,上、下两条线分别表示生存率的可信区
间的上下限。注意,率的可信区间是不对称的。
3.4 生存率的比较
一、两组或多组生存率的比较
检验两组或多组生存率是否相同一般采用Log-rank(Mantel&Cox)检验、Wilcoxon(Breslow)
检验。命令如下:
test&分组变量&[,选择项]
选择项有:
/*&进行Log-Rank&检验
/*&进行Wilcoxon(也叫Wilcoxon-Gehan&检验或Breslow&检验)
/*&检验死亡(生存)率是否随分组变量取值水平的增高而上升或下降
就例1资料,比较两组病人的生存时间有无差别。键入命令如下:
. sts test treat,
数字化结果如下:
这里的检验假设是第一处理组的生存率与第二组的相同。输出结果中给出了两组的实际
数(Events observed)及理论数(Events
expected)。本例中改进手术组的实际实际死亡数小于理论数,说明该组病人预后情况较好,经Log-rank检验,χ2=
6.71,自由度υ=1,P=0.0096,按α=0.05的检验水准认为两组病人的生存时间有差别,以改进手术组为优。
3.5 Cox 比例风险模型
恶性肿瘤患者生存时间的长短,不仅与治疗有关,还受病人的年龄、性别、病情、心理、环境、社会等因素的影响,如果要确切地显示治疗措施的效果,所有的病人除了治疗措施不同以外,其他影响因素必须相同(或相近),但这在实际上是不可能做到的。因此,我们最好能采用多因素分析方法,即分析包括治疗措施在内的可能因素对生存时间长短的影响(大小和方向)。
但生存时间的分布往往不服从正态分布(大多为正偏态分布),有时不知道它的分布类型,又存在截尾数据(Censored
data)这样,就不能用多元线性回归方法来分析。而传统的方法只能进行单因素分析,又不能利用截尾数据(Censored
data)。1972年,英国统计学家 D. R. COX提出了一种比例风险模型(Cox proportional hazard
model),简称COX模型。它可以分析多种因素对生存时间的影响,而且允许有“截尾”存在。是生存分析中最重要的模型之一。COX模型主要用于肿瘤和其它慢性病的预后因素分析,也可以用于一般的临床疗效评价和队列的病因探索。Cox
比例风险模型的一般形式是:
h(t)表示研究对象在时点t暴露于协变量(x1,&x2, …,&xm)之下的风险函数,h0(t)表示所有协变量取值均为0
时的基线风险函数。在Cox模型中h0(t)不能由样本得出,因而不能估计生存率。但这并不妨碍对各协变量相对危险度的估计。
估计Cox比例风险模型的命令格式为:
stcox [协变量] [,nohr strata(分层变量)]
估计含有时依变量的Cox比例风险模型的命令格式为:
cox&时间变量&[协变量] [,hr dead(截尾变量) strata(分层变量)&选择项]
进行逐步Cox 回归分析的命令为:
cox&时间变量协变量&[, cox&命令选择项逐步回归选择项]
这里选择项有:
/*&指定输出回归系数b&而不是危险比exp(b)
tvc(时依变量) /*&指定时依变量
/*&时依变量取值变化表达式
/*&可信区间的可信度
maximize-options
/*&进行最大似然估计的控制选项
[注]&应用命令“cox”时无须事先应用stset&对数据进行定义,且进行逐步回归时只能使用cox&命令。
用 sw cox 命令可以进行逐步Cox 回归分析。
就例1资料进行Cox 回归分析。
在应用stset 对数据进行规定后,可直接用stcox 命令进行Cox 回归分析。键入命令如下:
. stcox treat,nohr
或者也可以使用如下命令:
. cox time treat,
dead(outcome)
结果如下:
风险函数一般用极大似然估计,用Newton-Raphson 法迭代。结果中给出了每次迭代的似
然函数之对数值(Log Likelihood), 本例经四次迭代得极大似然估计变量treat 的系数
(Coefficient)为-1.371774,其标准误(Std.Error)为.5708971,z 值为-2.40,是对treat
的系数是否为0的检验,P&|z|是相应的概率。本例的P=0.0016,故可认为treat的系数不为0。从而得Cox
比例风险函数:
如果计算HR则可使用如下命令:
. stcox treat, hr
或者使用以下命令:
. cox time treat, dead(outcome)
结果如下:
以例2数据为例继续演示Stata软件实现Cox回归
某临床试验比较A,B 两治疗方案对某病的治疗效果,A 组(group=0)12 人,B
组(group=1)13
人。病人分组后检验其肾功能(kidney),功能正常者记0,不正常者记为1;治疗后生存时间为stime(天);数据已存入文件例2.dta。问不同治疗方案及肾功能对病人的生存时间是否有影响?
这里,时间变量是stime,终检变量是censor,治疗方案(group)是研究因素,而肾功能
(kidney)是混杂因素。例2数据如下图所示:
键盘键入命令设置数据为生存数据,如下:
. stset stime,
failure(censor)
结果如下:
继续键入命令如下:
. stcox group kidney, nohr
得结果如下:
计算HR,则输入如下命令:
. stcox group kidney,
3.6 随访生存资料的寿命表法
当样本含量较大或不能准确得知研究结果出现的时间时,可以将各研究对象的生存时间
按年或月进行分组计算其生存率。Stata相应的命令是:
ltable&时间变量&[dead(截尾变量)] [,by(分组变量)&选择项绘图选择项]
ltable命令中大部分选择项前面已经介绍过,未介绍过的有:
weight&/*&指定权重变量
survival&/*&指定输出生存率
failure&/*&指定输出死亡率
hazard&/*&指定输出风险函数
interval&/*&指定寿命表中生存时间组距
test&/*&应用似然比检验、Log-rank检验对各总体生存率曲线是否相同进行检验
notab&/*&不输出寿命表
noconf&/*&绘制生存率曲线时不绘制各时间点生存率的可信区间
graph&/*&指定绘制生存率曲线
随访某种恶性肿瘤患者生存情况如下图所示,试作统计分析。这是一个分组资料,先将数据整理成下列形式,包括处理变量treat,生存年数year,是否截尾censor,以及频数num。其中,生存年数输入时“0~”输为0.5,“1~”输为1.5,其他依此类推。
计算寿命表并,进行统计学检验,命令如下:
. ltable year censor
[weight=num], test by(treat) interval(1)
得数字化结果如下:
Stata依次输出各段生存时间起点及终点、期初人数、期内死亡人数、截尾例数、生存率
及其标准误和相应的95%可信区间。同时给出了两组的齐性检验(Lawlsee,1982)及log-rank检
绘制第一组(group=1)病人的生存率曲线图。命令如下:
. ltable year censor
[weight=num], test by(treat) interval(1) graph
得数字化结果如下:
生存分析应用广泛,作为一个临床医生至少应该掌握使用一种统计学软件实现生存分析,本文在参考了《现代医学统计方法与Stata应用(第2版)》基础上给大家演示了Stata软件实现生存分析的过程,希望能对大家的科研工作有所帮助。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。用STATA进行样本内预测和样本外预测
样本内预测:根据估计的模型对已有的样本进行预测,可与样本数据进行比较
样本外预测:根据估计的模型对未来进行预测,这个是对未来进行的估计,不能进行比较
auto,clear
reg price mpg in 1/30
capture drop a
*下面的命令是进行样本内预测
predict a if e(sample)
*下面的命令是进行样本外预测
predict aa if e(sample)!=1
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。应用STATA做统计分析_百度百科
清除历史记录关闭
声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗。
应用STATA做统计分析
本书从STATA软件与STATA的资源,数据管理,制图,概要统计及交互表,方差分析和其他比较方法,线性回归分析,回归诊断,拟合曲线,稳健回归,LOGISTlC回归,生存模型与事件计数模型,主成分、因子和聚类分析,时间序列分析,编程入门,等等,完整而精练地介绍了STATA软件或软件包的各项基本功能和在统计分析中的应用。
应用STATA做统计分析编辑推荐
“万卷方法”的理想:为社会学、政治学、管理学、经济学、传播学、心理学、教育学等社会科学各领域的学者和研究生提供一个内容规范、使用便捷的“研究方法工具箱”。
“万卷方法”的受众:图书馆及大学这会科学各院系的资料室。社会科学各领域的研究人员。社会科学各学科研究方法课程的教学人员。社会科学各专业的研究生和本科生。
应用STATA做统计分析内容简介
本书从STATA软件与STATA的资源,数据管理,制图,概要统计及交互表,方差分析和其他比较方法,线性回归分析,回归诊断,拟合曲线,稳健回归,LOGISTlC回归,生存模型与事件计数模型,主成分、因子和聚类分析,时间序列分析,编程入门,等等,完整而精练地介绍了STATA软件或软件包的各项基本功能和在统计分析中的应用。全书以列举实例的方式编写,并穿插了上百幅图片,广泛引证各种相关资料中的数据,简明地介绍了常用的各种命令的分析运行情况,便于学习掌握。此外,在最后一章拓展性地介绍了常用的编程知识和技能,以便于能更加灵活地运用STATA软件做更多的统计分析。
本书突出了程序性、实用性、完整性,本书兼具教材和使用手册的特点,适宜作为致力于统计学研究和数据分析应用的专家和学者自学参考。
应用STATA做统计分析图书目录
1 Stata软件与Stata的资源
本书体例的说明
一个Stata操作的例子
Stata的文件管理与帮助(Help)文件
Statalis七
专门期刊Stata Journal
应用Stata的图书
2 数据管理
创建一个新数据
定义数据的子集:in和if选择条件
创建和替代变量
数值和字符串之间的格式转换
创建新的分类变量和定序变量
标注变量下标
导人其他程序的数据
合并两个或多个stata文件
数据的转置、变换或分拆
观测案例的加权
生成随机数据和随机样本
编制数据管理程序
曲线标绘图
连线标绘图
其他类型的二维标绘图
对称图和分位数图
质量控制图
对图形添加文本
叠并多幅二维图
使用Do文件制图
取出与合并图形
4 概要统计及交互表
定距变量的描述性统计
探测性数据分析
正态性检验和数据转换
频数表和二维交互表
多表和多维交互表
关于平均数、中位数以及其他概要统计指标的列表
使用频数权数
5 方差分析和其他比较方法
单样本检验
两样本检验
单因素方差分析
双因素和多因素方差分析
协方差分析
预测值和误差条形图
6 线性回归分析
预测值及残差
回归的基本图形
分类变量的自动标识和交互项
多项式回归
7 回归诊断
SAT分数的重新回归
诊断标绘图
诊断案例统计量
多元共线性
8 拟合曲线
lowess修匀
转换变量回归—1
转换变量回归—2
条件效应标绘图
非线性回归—1
非线性回归—2
9 稳健回归
用理想数据的回归
y上的特异值
x上的特异值(杠杆作用)
不对称的误差分布
稳健的方差分析
对rreg和qreg的更多应用
方差的稳健估计—1
方差的稳健估计—2
10 logistic回归
航天飞机数据
使用logistic回归
条件效应标绘图
诊断统计与标绘图
对序次多分类y的logistic回归
多项logistic回归
11 生存模型与事件计数模型
生存时间数据
计数时间数据
Kaplan-Meier存活函数
Cox比例风险模型
指数回归与Weibull回归
一般化线性模型
12 主成分、因子和聚类分析
最大似然法
聚类分析—1
聚类分析—2
13 时间序列分析
更多时间标绘图例子
时滞、前导和差分
14 编程入门
基本的概念与工具
程序示范:移动自相关
蒙特卡罗模拟
关键词索引
清除历史记录关闭stata回归分析完整步骤-吐血推荐_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
stata回归分析完整步骤-吐血推荐
&&计量经济学 实证分析
阅读已结束,下载本文需要
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩9页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢苹果/安卓/wp
积分 21, 距离下一级还需 3 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 4 天连续签到: 1 天[LV.2]偶尔看看I
如题,我看有介绍说mp最大能处理3万多的数据,但我今天试了10万的也可以,不知道最大能处理多少?有大佬知道嘛谢谢了!
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
Crazysoul7 发表于
如题,我看有介绍说mp最大能处理3万多的数据,但我今天试了10万的也可以,不知道最大能处理多少?有大佬知道 ...补充一下我是14.2
是3万多个变量(而非观测值)。
观测值的限制(14版)为:
For Stata/MP, the maximum number of observations is 281,474,976,710,655, and for Stata/SE, the maximum number is 2,147,483,647.
Stakiny 发表于
是3万多个变量(而非观测值)。
观测值的限制(14版)为:
For Stata/MP, the maximum number of observa ...谢谢!
在stata的命令行中键入
help limits
就可以看到到对各种的限制。
这些没有必要听人家说,要看软件设计者说的。
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
初级学术勋章
初级学术勋章
中级学术勋章
中级学术勋章
中级热心勋章
中级热心勋章
中级信用勋章
中级信用勋章
高级热心勋章
高级热心勋章
高级信用勋章
高级信用勋章
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师}

我要回帖

更多关于 stata样本外预测 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信