pysal.model.spreg.GM_Combo_Hom_Regimes

class pysal.model.spreg.GM_Combo_Hom_Regimes(y, x, regimes, yend=None, q=None, w=None, w_lags=1, lag_q=True, cores=False, max_iter=1, epsilon=1e-05, A1='het', constant_regi='many', cols2regi='all', regime_err_sep=False, regime_lag_sep=False, vm=False, name_y=None, name_x=None, name_yend=None, name_q=None, name_w=None, name_ds=None, name_regimes=None)[源代码]

基于Drukker等人的空间滞后和误差模型的GMM方法,具有同构性、状态和内生变量、结果和诊断。(2013年)【Drukker2013年】uu,继Anselin(2011年)【Anselin2011年】u之后。

参数:
y : 数组

因变量nx1数组

x : 数组

二维数组,n行,每个独立(外生)变量一列,不包括常量

yend : 数组

二维数组,n行,每个内生变量一列

q : 数组

二维数组,n行,每个外部外部变量一列,用作工具(注意:这不应包含x中的任何变量)

regimes : 列表

n值列表,并将每个观测值映射到一个区域。假定与“x”对齐。

w : Pysal W对象

空间权重对象(始终需要)

常量_regi:[一','多']

切换器控制恒量项设置。它可以采用以下值:

  • “one”:1的向量附加到x并保持
    各政权间的常数
  • “many”:将一个向量附加到x并考虑
    每个制度不同(默认)
cols2regi : 列出“全部”

表明x的每一列是否应视为不同的制度或保持不变的论点(错误)。如果一个列表,k布尔值表示每个变量的选项(如果每个区域一个,则为真,如果保持不变,则为假)。如果“全部”(默认),则所有变量都会随状态而变化。

regime_err_sep : 布尔

如果为真,则为每个政权运行单独的回归。

regime_lag_sep : 布尔

如果为真,空间滞后的空间参数也会根据不同的状态进行计算。如果为“假”(默认),则空间参数为固定交叉区域。

w_lags : 整数

w的阶数作为空间滞后相关变量的工具。例如,w_lags=1,则仪器为wx;如果w_lags=2,则为wx、w wx;依此类推。

lag_q : 布尔

如果为真,则包括附加仪器的空间滞后(q)。

max_iter : 利息

arraiz等人的步骤2a和2b的最大迭代次数。注意:epsilon提供了一个额外的停止条件。

ε : 浮动

为了停止arraiz等人的步骤2a和2b的迭代,所需lambda的最小变化。注:Max-Iter提供了额外的停止条件。

A1 : 一串

如果a1='het',那么矩阵a1的定义如arraiz等人所述。如果a1='hom',则如Anselin(2011)所述。如果a1='hom_sc',那么就像Drukker、Egger和Prucha(2010)以及Drukker、Prucha和Raciborski(2010)一样。

vm : 布尔

如果为真,则在汇总结果中包含方差-协方差矩阵

cores : 布尔

指定是否使用多处理默认值:无多处理,cores=false注意:多处理可能无法在所有平台上工作。

name_y : 一串

输出中使用的从属变量的名称

name_x : 字符串表

输出中使用的自变量的名称

name_yend : 字符串表

输出中使用的内生变量的名称

name_q : 字符串表

输出用仪器名称

name_w : 一串

输出中使用的权重矩阵的名称

name_ds : 一串

用于输出的数据集名称

name_regimes : 一串

输出中使用的状态变量的名称

实例

我们首先需要导入所需的模块,即numpy来将我们读取的数据转换为 spreg 理解和 pysal 执行所有分析。

>>> import numpy as np
>>> import pysal.lib

使用pysal.lib.io.open()打开有关NCOVR美国县凶杀案(3085个地区)的数据。这是与nat形状文件关联的dbf。注意pysal.lib.io.open()也以csv格式读取数据;由于实际类需要以numpy数组的形式传入数据,因此用户可以使用任何方法读取其数据。

>>> db = pysal.lib.io.open(pysal.lib.examples.get_path("NAT.dbf"),'r')

从dbf文件中提取hr90列(1990年的凶杀率),并使其成为回归的因变量。请注意,pysal要求这是一个形状(n,1)的numpy数组,而不是其他包接受的(n,1)的常见形状。

>>> y_var = 'HR90'
>>> y = np.array([db.by_col(y_var)]).reshape(3085,1)

从DBF中提取UE90(失业率)和PS90(人口结构)向量,作为回归中的独立变量。其他变量可以通过将其名称添加到x_var来插入,例如x_var=['var1','var2','..]请注意,pysal要求它是nxj numpy数组,其中j是独立变量的数量(不包括常量)。默认情况下,该模型向传入的自变量添加一个1的向量。

>>> x_var = ['PS90','UE90']
>>> x = np.array([db.by_col(name) for name in x_var]).T

根据南部和北部假人(南部),给出了该数据中的不同状态。

>>> r_var = 'SOUTH'
>>> regimes = db.by_col(r_var)

由于我们想要运行一个空间组合模型,所以我们需要指定包含观测的空间配置的空间权重矩阵。为此,我们可以打开一个已经存在的gal文件或创建一个新的gal文件。在这种情况下,我们将从 NAT.shp .

>>> w = pysal.lib.weights.Rook.from_shapefile(pysal.lib.examples.get_path("NAT.shp"))

除非有充分的理由不这样做,否则必须对权重行进行标准化,以便矩阵的每一行合计为一。除此之外,这允许将变量的空间滞后解释为相邻观测值的平均值。在Pysal中,可以通过以下方式轻松执行:

>>> w.transform = 'r'

我们都准备好了预赛,我们很好地运行模型。在这种情况下,我们需要变量和权重矩阵。如果我们希望在输出摘要中打印变量的名称,那么我们也必须将它们传入,尽管这是可选的。

只有空间滞后的例子

Combo类运行Sarar模型,即空间滞后+错误模型。在这种情况下,我们将运行一个简单的版本,在那里我们有空间效应和外生变量。因为它是一个空间模型,所以我们必须传递权重矩阵。如果我们希望在输出摘要中打印变量的名称,那么我们也必须将它们传入,尽管这是可选的。我们可以通过键入:model.summary来获得输出摘要,或者,我们可以检查betas:

>>> reg = GM_Combo_Hom_Regimes(y, x, regimes, w=w, A1='hom_sc', name_y=y_var, name_x=x_var, name_regimes=r_var, name_ds='NAT')
>>> print reg.name_z
['0_CONSTANT', '0_PS90', '0_UE90', '1_CONSTANT', '1_PS90', '1_UE90', '_Global_W_HR90', 'lambda']
>>> print np.around(reg.betas,4)
[[ 1.4607]
 [ 0.9579]
 [ 0.5658]
 [ 9.1129]
 [ 1.1339]
 [ 0.6517]
 [-0.4583]
 [ 0.6634]]

该类还允许用户运行一个空间滞后+误差模型,该模型具有包括非空间内生回归量的额外特性。这意味着,除了空间滞后和误差之外,我们将方程右侧的一些变量视为内生变量,并对此进行检验。在这种情况下,我们将RD90(资源剥夺)视为一个内生回归量。我们使用fp89(贫困以下的家庭)来解决这一问题,因此将其放入仪器参数“q”。

>>> yd_var = ['RD90']
>>> yd = np.array([db.by_col(name) for name in yd_var]).T
>>> q_var = ['FP89']
>>> q = np.array([db.by_col(name) for name in q_var]).T

然后,我们可以运行和探索与前一个组合类似的模型:

>>> reg = GM_Combo_Hom_Regimes(y, x, regimes, yd, q, w=w, A1='hom_sc', name_y=y_var, name_x=x_var, name_yend=yd_var, name_q=q_var, name_regimes=r_var, name_ds='NAT')
>>> print reg.name_z
['0_CONSTANT', '0_PS90', '0_UE90', '1_CONSTANT', '1_PS90', '1_UE90', '0_RD90', '1_RD90', '_Global_W_HR90', 'lambda']
>>> print reg.betas
[[ 3.4196478 ]
 [ 1.04065595]
 [ 0.16630304]
 [ 8.86570777]
 [ 1.85134286]
 [-0.24921597]
 [ 2.43007651]
 [ 3.61656899]
 [ 0.03315061]
 [ 0.22636055]]
>>> print np.sqrt(reg.vm.diagonal())
[ 0.53989913  0.13506086  0.06143434  0.77049956  0.18089997  0.07246848
  0.29218837  0.25378655  0.06184801  0.06323236]
>>> print 'lambda: ', np.around(reg.betas[-1], 4)
lambda:  [ 0.2264]
属性:
summary : 一串

回归结果和诊断摘要(注:与print命令一起使用)

betas : 数组

Kx1估计系数数组

u : 数组

nx1残差数组

e_filtered : 数组

nx1空间滤波残差数组

e_pred : 数组

nx1残差数组(使用简化形式)

predy : 数组

nx1预测Y值数组

predy_e : 数组

nx1预测Y值数组(使用缩减形式)

n : 整数

观测次数

k : 整数

当进行多次回归时,仅在字典“multi”中提供估算系数(包括常数)的变量数(有关详细信息,请参阅下面的“multi”)。

y : 数组

因变量nx1数组

x : 数组

二维数组,有n行,每个独立(外生)变量有一列,其中常量仅在多重回归时字典“multi”中可用(有关详细信息,请参见下面的“multi”)。

yend : 数组

二维数组,n行,每个内生变量一列,只有在多重回归时字典“multi”中才可用(详情请参见下面的“multi”)。

q : 数组

二维数组,n行,每个外部外部变量一列,用作工具,只有在多重回归时字典“multi”中才可用(详细信息请参见下面的“multi”)。

z : 数组

nxx变量数组(x和yend的组合)仅在多重回归时字典“multi”中可用(有关详细信息,请参见下面的“multi”)。

h : 数组

nxl仪器阵列(x和q的组合)仅在多重回归时在字典“multi”中可用(有关详细信息,请参见下面的“multi”)。

iter_stop : 一串

在迭代arraiz等人的步骤2a和2b期间达到停止标准。只有在多重回归时字典“multi”才可用(有关详细信息,请参阅下面的“multi”)。

iteration : 整数

arraiz等人的步骤2a和2b的迭代次数。只有在多重回归时字典“multi”才可用(有关详细信息,请参阅下面的“multi”)。

mean_y : 浮动

因变量均值

std_y : 浮动

因变量标准差

vm : 数组

方差协方差矩阵(kxk)

pr2 : 浮动

伪r平方(y和ypred之间的平方相关性)仅在多重回归时字典“multi”中可用(有关详细信息,请参阅下面的“multi”)。

pr2_e : 浮动

伪r平方(y和ypred_e之间的平方相关性(使用约简形式))仅在多重回归时字典“multi”中可用(有关详细信息,请参阅下面的“multi”)。

sig2 : 浮动

计算中使用的sigma平方(基于过滤残差)仅在多重回归时字典“multi”中可用(有关详细信息,请参见下面的“multi”)。

std_err : 数组

1XK的betas标准错误数组,仅在多重回归时字典'multi'中可用(有关详细信息,请参阅下面的'multi')

z_stat : 元组列表

z statistic;每个元组都包含一对(statistic,p-value),其中每个元组都是一个浮点,只有在进行多次回归时才能在字典“multi”中使用(有关详细信息,请参见下面的“multi”)。

name_y : 一串

输出中使用的从属变量的名称

name_x : 字符串表

输出中使用的自变量的名称

name_yend : 字符串表

输出中使用的内生变量的名称

name_z : 字符串表

用于输出的外生变量和内生变量的名称

name_q : 字符串表

外部仪表名称

name_h : 字符串表

输出中使用的所有仪器的名称

name_w : 一串

输出中使用的权重矩阵的名称

name_ds : 一串

用于输出的数据集名称

name_regimes : 一串

输出中使用的状态变量的名称

title : 一串

所用回归方法的名称

只有在多重回归时字典“multi”才可用(有关详细信息,请参阅下面的“multi”)。

regimes : 列表

n值列表,并将每个观测值映射到一个区域。假定与“x”对齐。

constant_regi : [一','多' ]

如果状态为假,则忽略。制度不变的选择。切换器控制恒量项设置。它可以采用以下值:

  • “one”:1的向量附加到x并保持
    各政权间的常数
  • “many”:将一个向量附加到x并考虑
    不同体制
cols2regi : 列出“全部”

如果状态为假,则忽略。表明x的每一列是否应视为不同的制度或保持不变的论点(错误)。如果一个列表,k布尔值表示每个变量的选项(如果每个区域一个,则为真,如果保持不变,则为假)。如果“全部”,则所有变量都随状态而变化。

regime_err_sep : 布尔

如果为真,则为每个政权运行单独的回归。

regime_lag_sep : 布尔

如果为真,空间滞后的空间参数也会根据不同的状态进行计算。如果为“假”(默认),则空间参数为固定交叉区域。

kr : 利息

变量/列的数量将被“区域化”或按制度变化。这将导致对每个变量(即每个变量的nr参数)按状态进行一次参数估计。

kf : 利息

变量/列的数量被认为是固定的或全局的,因此只能得到一个参数估计。

nr : 利息

“制度”列表中不同制度的数量

multi : 词典

只有在估计多个回归时才可用,即当状态“err_sep=真”且没有变量跨状态固定时。包含每个回归的所有属性

__init__(y, x, regimes, yend=None, q=None, w=None, w_lags=1, lag_q=True, cores=False, max_iter=1, epsilon=1e-05, A1='het', constant_regi='many', cols2regi='all', regime_err_sep=False, regime_lag_sep=False, vm=False, name_y=None, name_x=None, name_yend=None, name_q=None, name_w=None, name_ds=None, name_regimes=None)[源代码]

初始化自身。请参阅帮助(键入(self))以获得准确的签名。

方法

__init__ \(Y,X,状态[,是,Q,W,…]) 初始化自身。

属性

mean_y 
std_y