统计211

标题: 哑变量的设置与解释 [打印本页]

作者: amoyzz    时间: 2016-4-11 16:34
标题: 哑变量的设置与解释
本帖最后由 amoyzz 于 2016-5-11 08:59 编辑

    哑变量(Dummy Variable),也叫虚拟变量,虚设变量或者名义变量。它是量化了的质变量,通常取值为0或1。
    一、在需要做回归模型研究一个因变量的时候,自变量中除了定量变量,有时候也会遇到一些定性变量,常见的就有性别、职业、民族、婚姻状况、BMI分级等。哑变量的目的是,将不能够定量处理的变量量化,举一个例子,假设变量“职业”的取值分别为:工人、农民、商人、其他,4种选项,我们可以增加3个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=商人/0=非商人),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D4(1=其他/0=非其他)了。这个过程就是引入哑变量的过程。
    二、操作:
    1. 我们以多重现性回归(multivariable linear regression)设置哑变量为例,给大家介绍一下SPSS软件的操作;
转换——编码为不同变量——填好“输出变量”——“旧值和新值”——继续——更改——确定,一个变量(D1)就设置好了,D2和D3同理。
图片1.png (23.03 KB, 下载次数: 0)
图片2.png (40.48 KB, 下载次数: 0)
图片3.png (23.33 KB, 下载次数: 0)
图片4.png (2.99 KB, 下载次数: 0)
    2. 结果解释
回归分析的SPSS操作中,要把“D1,D2,D3”用ENTER 法纳入到回归模型,然后点击“下一张”,再纳入其他变量,用stepwise法进行逐步回归分析。output如果“工人”是显著的,则表明“工人”相比于“其他”Y的均值有显著不同(ANOVA的思想);如果“农民”是显著的,则表明对于“农民”相比于“其他”Y的均值有显著不同。
    3. Logisitc 回归SPSS界面中有设置哑变量的选项——“分类”,英文版本的为“category”,选择这个选项后,将要设置的变量选入即可

统计211网现推出微信公众号平台,每日更新,由一批专业统计领域的专业人士撰稿,每位专家根据自己擅长的领域为各位统计爱好者提供原创或经典的科研统计相关信息。内容包含统计理论解析、应用案例解读、典型错误辨析等,也涉及统计方法在软件中的应用,例如 SPSS、R、SAS、STATA、Amos等统计软件,全方位多视角的介绍统计相关知识,力求为广大读者提供帮助。
公众号名称:统计211网
公众号ID: tj211_com

二维码.png (15.1 KB, 下载次数: 0)




欢迎光临 统计211 (http://www.tj211.com/) Powered by Discuz! X3.2