数据分析 Stata 15.1 Win&Mac&Linux-落尘之木

Stata15 正式发布, 这是Stata有史以来最大的一次版本更新, Stata 15.1版本更新首次加入了简体中文支持，除了界面、DO转码、set more off的自动设置和do file edit美化等一些变化外，还增加了扩展回归模型、潜在类别分析(LCA)、贝叶斯前缀指令、线性动态随机一般均衡(DSGE)模型、 web 的动态Markdown文档、非线性混合效应模型、空间自回归模型(SAR)、区间删失参数生存时间模型、有限混合模型(FMMs)、混合Logit模型、非参数回归、聚类随机设计和回归模型的功率分析、 Word和PDF文档、图形颜色透明度/不透明度、ICD-10-CM/PCS支持、联邦储备经济数据(FRED)支持。

软件功能

一、统计功能

Stata 的统计功能很强，除了传统的统计分析方法外，还收集了近 20 年发展起来的新方法，如 Cox 比例风险回归，指数与 Weibull 回归，多类结果与有序结果的 logistic 回归， Poisson 回归，负二项回归及广义负二项回归，随机效应模型等。具体说， Stata 具有如下统计分析能力：
数值变量资料的一般分析：参数估计，t检验，单因素和多因素的方差分析，协方差分析，交互效应模型，平衡和非平衡设计，嵌套设计，随机效应，多个均数的两两比较，缺项数据的处理，方差齐性检验，正态性检验，变量变换等。
分类资料的一般分析：参数估计，列联表分析 ( 列联系数，确切概率 ) ，流行病学表格分析等。
等级资料的一般分析：秩变换，秩和检验，秩相关等
相关与回归分析：简单相关，偏相关，典型相关，以及多达数十种的回归分析方法，如多元线性回归，逐步回归，加权回归，稳键回归，二阶段回归，百分位数 ( 中位数 ) 回归，残差分析、强影响点分析，曲线拟合，随机效应的线性回归模型等。
其他方法：质量控制，整群抽样的设计效率，诊断试验评价， kappa 等。

二、作图功能

Stata 的作图模块，主要提供如下八种基本图形的制作 : 直方图 (histogram) ，条形图 (bar), 百分条图 (oneway) ，百分圆图 (pie) ，散点图 (twoway) ，散点图矩阵(matrix) ，星形图 (star) ，分位数图。这些图形的巧妙应用，可以满足绝大多数用户的统计作图要求。在有些非绘图命令中，也提供了专门绘制某种图形的功能，如在生存分析中，提供了绘制生存曲线图，回归分析中提供了残差图等。
Stata 的矩阵运算功能
矩阵代数是多元统计分析的重要工具， Stata 提供了多元统计分析中所需的矩阵基本运算，如矩阵的加、积、逆、 Cholesky 分解、 Kronecker 内积等；还提供了一些高级运算，如特征根、特征向量、奇异值分解等；在执行完某些统计分析命令后，还提供了一些系统矩阵，如估计系数向量、估计系数的协方差矩阵等。

三、程序设计功能

Stata 是一个统计分析软件，但它也具有很强的程序语言功能，这给用户提供了一个广阔的开发应用的天地，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。事实上， Stata 的 ado 文件 ( 高级统计部分 ) 都是用 Stata 自己的语言编写的
Stata 其统计分析能力远远超过了 SPSS ，在许多方面也超过了 SAS ！由于 Stata 在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此计算速度极快（一般来说， SAS 的运算速度要比 SPSS 至少快一个数量级，而 Stata 的某些模块和执行同样功能的 SAS 模块比，其速度又比 SAS 快将近一个数量级！） Stata 也是采用命令行方式来操作，但使用上远比 SAS 简单。其生存数据分析、纵向数据（重复测量数据）分析等模块的功能甚至超过了 SAS 。用 Stata 绘制的统计图形相当精美，很有特色。

四、功能列表

数据管理 (Data management)
资料转换、分组处理、附加档案、 ODBC 、行 – 列转换、数据标记、字符串函数…等
基本统计 (Basic statistics)
直交表、相关性、 t- 检定、变异数相等性检定、比例检定、信赖区间…等
线性模式 (Linear models)
稳健 Huber/White/sandwich 变异估计 , 三阶最小平方法、类非相关回归、齐次多项式回归、 GLS
广义型线性模式 (Generalized linear models)
十连结函数、使用者 – 定义连结、 ML 及 IRLS 估计、九变异数估计、七残差…等
二元、计数及有限应变量(Binary, count, and limited dependent variables)
罗吉斯特、 probit 、卜松回归、 tobit 、 truncated 回归、条件罗吉斯特、多项式逻辑、巢状逻辑、负二项、 zero-inflated 模型、 Heckman 选择模式、边际影响
Panel 数据 / 交叉 – 组合时间序列(Panel data/cross-sectional time-series)
随机及固定影响之回归、 GEE 、随机及固定 – 影响之卜松及负二项分配、随机 – 影响、工具变量回归、AR(1) 干扰回归
无母数方法 (Nonparametric methods)
多变量方法 (Multivariate methods)
因素分析、多变量回归、 anonical 相关系数
模型检定及事后估计量支持分析(Model testing and post-estimation support)
Wald 检定、 LR 检定、线性及非线性组合、非线性限制检定、边际影响、修正平均数 Hausman 检定
群集分析 (Cluster analysis)
加权平均 , 质量中心及中位数联结、 kmeans 、 kmedians 、 dendrograms 、停止规则、使用者扩充
图形 (Graphics)
直线图、散布图、条状图、圆饼图、 hi-lo 图、回归诊断图…
调查方法 (Survey methods)
抽样权重、丛集抽样、分层、线性变异数估计量、拟 – 概似最大估计量、回归、工具变量…
生存分析 (Survival analysis)
Kaplan – Meier 、 Nelson – Aalen, 、 Cox 回归 ( 弱性 ) 、参数模式 ( 弱性 ) 、危险比例测试、时间共变项、左 – 右检查、韦柏分配、指数分配…
流行病学工具 (Tools for epidemiologists)
比例标准化、病例控制、已配适病例控制、 Mantel – Haenszel, 药理学、 ROC 分析、 ICD-9-CM
时间序列 (Time series)
ARIMA 、 ARCH/GARCH 、 VAR 、 Newey – West 、 correlograms 、 periodograms 、白色 – 噪音测试 ,最小整数根检定、时间序列运算、平滑化
最大概似法 (Maximum likelihood)
转换及常态检定 (Transforms and normality tests)
Box – Cox 、次方转换 Shapiro – Wilk 、 Shapiro – Francia 检定
其它统计方法 (Other statistical methods)
样本数量及次方、非线性回归、逐步式回归、统计及数学函数
包含样本范例 (Sample session)
再抽样及模拟方法 (Resampling and simulation methods)
bootstrapping 、 jackknife 、蒙地卡罗模拟、排列检定

五、网络功能

安装新指令、网络升级、网站档案分享、 Stata 最新消息

Stata15新功能：

1.扩展回归模型
我们称之为ERMS 扩展回归模型。四个新的命令适合
. 线性回归分析,
. 区间回归包括 tobit模型，
. 概率，
. 有序概率模型
可任意组合成：
. 内生变量
. 非随机处理任务
. 内源性(Heckman-style)样本的选择
这些新的命令让人惊喜，因为可以在任何一个方程中加入内生变量，包括处理赋值和概率选择方程。内生变量并不局限于连续性。它们可以是二进制或序数。不管是外生的还是内生的，它们都可以与其他变量相互作用。它们甚至可以互相作用，形成平方项或立方项!
这些新的ERM命令—eregress,eintreg,eprobit, 和eoprobit注定会流行起来，因为他们解决了研究人员的很多问题。首先, 可能有一个内生变量, 因为许多模型都省略了与模型中的变量相关的变量。其次，数据经常被删剪，而删剪不是随机的。ERM 样本选择选项允许您对选择过程进行建模, 并对其进行调整。或者, 如果您正在使用非随机处理效应模型, 则可以用 ERM处理分配选项。或者, 可以结合处理分配和选择选项, 其中一些是由于后续的行为而损失的拟合内生处理分配模型。
2、潜在类别分析(LCA)
潜在的均值未被观测。分类也就是分组。潜在类是数据中未观测到的组。你可能有关于消费者的数据，并且根据消费者对产品的潜在兴趣将他们分成三组。但是，在数据中没有指定每个消费者所属组的变量。拟合模型后，你可以
. 使用新的estat lcprob命令估计属于每一类的消费者比例;
. 使用新的estat lcprob命令估计每个类中Y1、Y2、Y3、Y4的边际均值(均值就是示例所示的概率);
. 使用新estat lcprob命令来评价适合度;
. 使用现有的predict命令获取分类成员的预测概率和观测结果变量的预测值。
3、贝叶斯前缀指令
新的bayes：前缀命令使你能够适应比以前版本更广泛的贝叶斯模型。原来也可以拟合贝叶斯线性回归, 但是现在可以通过输入文字就可以：在这个模型中, 为变量 id的每个值添加随机截距。
新的bayes：前缀命令在许多Stata评估命令之前工作，并提供超过50种可能性的模型。支持的模型包括多级、面板数据、生存和样本选择模型!
新命令支持所有Stata的贝叶斯的功能。你可以从之前的模型参数的分布中选择，也可以使用之前默认的。当闭合形式解决方案用于Gibbs方法时，可以使用默认的自适应 Metropolis–Hastings 抽样, 或Gibbs抽样, 或两种方法的组合。在bayesmh命令的基础上可以使用STATA的任何其他功能。可以更改回归系数的缺省先验分布，比如，使用prior()选项：
4、线性动态随机一般均衡(DSGE)模型
DSGEs是经济学中的一个时间序列模型。它们是传统预测模型的替代品。两者都试图解释总的经济现象, 但 DSGEs 允许对来自经济理论模型的基础上做这个。建立在经济理论基础上的方程很多。这些方程的关键特征是, 未来变量的期望值会影响今天的变量。这是区别 DSGEs 与矢量回归或状态空间模型的一个特性。另一个特点是, 从理论推导出来的参数通常可以用这个理论来解释。
在DSGE模型中有三种变量：
. 控制变量和方程，如p没有冲击,并且是由方程组决定的。
. 状态变量 (如 y) 具有隐含的冲击, 在时间段开始时是预先确定的。
. 冲击是驱动系统的随机错误。
在任何情况下, 以上dsge 命令可以定义一个模型并拟合。
如果我们有一个关于 beta 和kappa之间关系的理论, 比如它们是相等的, 我们可以用现有的命令test来测试它。
新的 postestimation命令estat policy和estat transition报告策略和转换矩阵。如果键入
显示将控制变量作为状态变量的线性函数。如果有五个控制变量和三个状态变量, 则每个控件将被报告为三个状态的线性函数。在上面的简单例子中, 预测 p 的线性函数将显示为现在的 y 函数。
同时，报告转换矩阵。而策略矩阵将 p 报告为函数y, 而转换矩阵则报告 y 如何通过时间演变为p。可以使用Stata的现有预测命令来生成预测。可以使用Stata现有的irf命令来绘制脉冲响应函数。
5、web动态的Markdown文档
你有没有听过Markdown?它是一种创建 html 文档的流行方式。html 文件是繁琐的。Markdown简单直观，想法很简单。可以创建一个文件, 其中包含所需的可读格式的文本, 然后通过它运行一个命令来创建一个HTML文件。
Stata现在支持Markdown, 我们已经添加了标签 (功能) 到Markdown, 允许包括输入文件中的Stata命令。你所包含的命令将被运行和显示, 或者以秘密方式运行, 以及提取输出的部分供文档使用。
6、非线性混合效应模型
非线性混合效应模型也被称为非线性多级模型和非线性层次模型。可以用两种方式来考虑这些模型。可以把它们看成包含随机效应的非线性模型。或者可以把它们看成线性混合效应模型, 其中一些或所有的固定和随机效应都是非线性的。不管哪种方式, 总的误差分布假设成Gaussian分布。
这些模型在人口药代动力学, 生物鉴定和研究生物学和农业成长过程中很流行。比如，采用非线性混合效应模型对机体的药物吸收、地震强度和植物生长进行了模拟。
新的评估命令被命名为 menl。它实现了 popular-in-practice Lindstrom–Bates 算法, 是基于对固定和随机效应的非线性均值函数进行线性化。支持最大似然和受限最大似然估计方法。
Menl易于使用。可以直接输入单个方程。大括号{ }，用于将要匹配的参数括起来：
除了标准功能外, postestimation特征还包括对随机效应及其标准误差的预测，对模型中定义的感兴趣参数的预测, 作为其他模型参数和随机效应的参数、聚类相关矩阵的整体评估等。
7、空间自回归模型(SAR)
Stata适合空间自回归 (SAR) 模型, 也称为同步自回归模型。新的spregress,spivregress, 和spxtregress命令允许因变量的空间滞后、自变量的空间滞后和空间自回归误差。空间滞后是时间序列滞后的空间模拟。时间序列滞后近年来成为变量值。空间滞后是附近地区的值。
该模型适用于区域数据, 也称为区域性数据。观测结果被称为空间单位, 可以是国家、州、区、县、市、邮政编码或城市街区，或者它们可能根本就不是地理位置。它们可能是社交网络的节点。空间模型评估直接影响—区域对自身的影响，并估算邻近地区的间接或溢出效应。
有一个全新的 [SP] 手册专门介绍Stata的新SAR功能。这些命令被称为Sp命令。它们可以与以下一起工作：
·shapefiles通过 web 获取你选择数据，或者
·没有shapefiles 和数据，只包含位置的坐标，或者
·没有 shapefiles没有位置会出现社会网络数据。
8、区间删失参数生存时间模型
Stata新的stintreg 命令加入 streg, 用于拟合参数生存模型。stintreg拟合区间删失数据模型。在区间删失数据中，故障时间并不确定。众所周知, 受试者还没有失败的时候, 以及后来他们已经失败的时候。
stintreg拟合指数，Weibull, Gompertz, 对数正态分布、对数逻辑和广义的gamma生存时间模型。支持比例风险和加速故障时间度量。功能包括
. 分层估计
. 灵活的辅助参数建模
. robust, cluster–robust, bootstrap,和jackknife的标准误差
除了基本功能, postestimation功能还包括plots of survivor,, hazard, 和cumulative hazard函数;平均数和中位数时间预测;Cox–Snell and martingale-like残差值等。
9、有限混合模型(FMMs)
新的fmm:当数据来自未观测到的亚群时, 前缀命令拟合模型。它可以与17 个Stata评估命令一起使用。
大多数用户使用fmm来拟合模型中的参数 (系数、位置、方差、比例等) 在不同亚群之间的变化。在这些模型中，未观测到的亚群称为类。比如说你感兴趣的拟合模型。每个分类在总人口的比例中，Postestimation 命令可用于 (1) 评估，(2) 报告类内结果变量的边际均值，(3) 预测类成员的概率和预测结果。
10、混合Logit模型
Stata已经拟合多项Logit模型。Stata15能使它们拟合混合形式, 包括随机系数。
随机系数对拟合多项式逻辑模型具有特殊的意义。它们是围绕Independence of the Irrelevant Alternatives (IIA)假设一种方式。这一假设表明, 如果你选择步行去工作, 当你的选择是步行, 乘坐公交车, 或自驾, 你仍然选择步行, 即使你没有选择不可再用的一个选项。如果选项是在步行或开车之间，你仍然会选择步行。人类有时行为不同。
IIA假设在协变量的条件下, 选择是独立的。如果违反这种假设, 选择将是相关的。随机系数允许选择相关性。研究人员经常在随机效用模型和离散选择分析的中使用混合模型。Stata新的asmixlogit Logit命令支持各种随机系数分布, 并允许包含特定案例变量的模型。
11、非参数回归
Stata现在适合非参数回归。在这些模型中, 不指定函数形式。指定变量并指定想要匹配的变量：
匹配项是g()。该方法不假定 g () 是线性的
12、聚类随机设计和回归模型的功耗分析
Stata现有的power命令执行功率和样本(PSS) 分析。其功能包括PSS线性回归和集群随机设计 (CRDs)。现在可以添加你自己的功率和样本大小的方法。
线性回归的新方法包括
. power oneslope，在一个简单的线性回归中对斜率测试执行pss。根据给定的其他研究参数计算样本的大小或功率
. power rsquared，在多元线性回归中执行R-squared检验的PSS。R-squared检验是对测定系数 (R-squared) 的 f 检验。测试可以用来测试所有系数的意义, 也可以用来测试其中的一个子集。在这两种情况下, power rsquared计算样本大小或功率或目标R-squared给其他参数研究。
. power pcorr，在多元线性回归中执行PSS的部分相关测试。部分相关检验是平方偏多相关系数 f的检验。该命令根据其他研究参数计算样本大小或功率或目标平方偏相关系数。
Stata 15现在还支持集群随机化设计：
在 CRD中, 组的受试者 (集群) 是随机的而不是个体, 这意味着样本大小的作用是通过数字集群和集群大小来发挥的。样本大小确定包括给定集群大小的数量或给定集群的大小。CRD命令计算 (1) 的一个集群的数目, (2)的集群大小, 或 (3)的功率, 或最小的可检测到的效果大小给定的其他参数。这些命令可以根据不相等的集群大小调整选项。
. 当指定新的选项集群时, 现有的5个 power方法将扩展到支持CRDs。它们是
. 对于两个样本方法, 还可以针对两个组中的不相等的集群进行调整。
与所有其他功率方法一样, 新方法允许指定参数的多个参数值, 并自动生成表格和图形结果。
另一个新功能是可以添加自己的PSS方法。这是很容易做到的。编写一个计算样本大小、功率或效果大小的程序。power命令将为您完成其余部分。它将处理选项中多个值的支持, 并且自动生成图形和结果表。
13、Word和PDF文档
现在, 使用Stata嵌入的结果生成 Word 和 PDF档就像制作 Excel 工作表一样容易。大多数使用者喜欢Stata 14中的putexcel，如果你也是他们中的一员，你会爱上新的putpdf和putdocx命令。他们像putexce一样工作。可以编写do-file来创建包含最新结果、表格和图表的整个Word 或 PDF报表。可自动执行可重复的报告。
新的 putdocx 命令将段落、图像和表格写入 word 文档 (. docx 文件)。图像包括Stata图形和组织的标志。也可以设置文本对象的格式。包括字体大小、粗体、倾斜、自定义表等。
14、图形颜色透明度/不透明度
到现在为止, 在另一个上面画一个物体, 上面的物体盖住下面的物体。在计算机图形学的行话中, Stata颜色完全不透明, 或者, 如果你喜欢不完全透明。Stata15允许控制其颜色的不透明度。
不透明度指定为一个百分比。默认情况下, Stata的颜色是100% 不透明的。
每当指定一个颜色时都可以指定不透明度，例如在mcolor ()选项中控制标记的颜色。你可以指定green%50，而不是green。你可以指定”0 255 0%50″.而不是”0 255 0%50″(相当于绿色)。可以自行指定%50, 使默认颜色50%不透明。但是, 不要指定%0。这是完全透明的, 也是无形的。
这里是一个图表，使用70 %的不透明度:
15、ICD-10-CM/PCS支持
Stata 15支持 ICD-10-CM 和 ICD-10-PCS, 由 NCHS 和CMS 提供的美国 ICD-10 代码。Stata 15支持从2016版本开始(从2015年10月开始) 的代码, 当它们被授权在美国使用, 并支持所有后续版本。
Stata在 1998年开始支持ICD, 从 ICD-9-CM 16版本开始, 并支持之后的每 ICD-9 版本。自2003年以来, Stata也支持 ICD-10 代码版本。
1998年以来, Stata的ICD命令从仅仅是一个自动的有效代码和简短短语列表, 成为ICD代码的整个数据管理系统。该系统甚至包括在一个数据集中管理多个ICD版本的能力!
16、联邦储备经济数据(FRED)支持
圣路易斯联邦储备局向注册用户提供超过47万的美国和国际经济和金融时间序列。注册是免费的并且很容易做。这项服务叫FRED。它包括来自84个来源的数据, 包括美联储、宾州世界表、欧统局和世界银行。
Stata 15中，你可以使用Stata的GUI来访问和下载FRED数据。可以按类别、发布或来源进行搜索或浏览。可以单击选择感兴趣的系列。选择1或选择100。当您点击下载”时, Stata将下载它们并将它们合并到一个内存中的单个自定义数据集中。
Stata命令行界面也提供了这些相同的功能。命令是import fred。当追踪月报表需要自动更新27个不同系列时, 该命令非常方便。
Stata可以访问FRED和ALFRED。ALFRED是FRED的历史档案数据。
17、其他
在Stata功能页面中了解更多上述功能, 还有以下功能：
.贝叶斯多级模型
.门限回归
.具有随机系数的面板数据tobit
.区间测量结果的多层回归
.删失结果的多级Tobit回归
.面板数据的协整测试
.时间序列中多断点的测试
.多组广义 SEM
.异方差的线性回归
.Heckman风格的样本选择Poisson模型
.具有随机系数的面板数据非线性模型
.贝叶斯面板数据模型
.随机系数的面板数据区间回归
.SVG的导出
.贝叶斯生存模型
.零膨胀有序概率
.添加您自己的电源和样本大小的方法
.贝叶斯样本选择模型
.支持瑞典语
.对DO文件编辑器的改进
.流随机数生成器
.对于java插件的改进
.Stata / MP更多的并行化

官方网站：https://www.stata.com

下载地址

数据分析 Stata 15.1 Win&Mac&Linux
百度网盘：https://pan.baidu.com/s/1c3AAO7m

更新文件 Update without Internet access within Stata

Type about in Stata and note the “Revision” date. If you see a date earlier than “11 Jan 2018”, you need to update Stata. Also make note of your platform and whether it is 64-bit or 32-bit. Download the appropriate file for your operating system and follow the instructions below.

获取Stata更新请访问：https://www.stata.com/support/updates/