什么是数据清洗?


数据清洗主要指回收数据后,对样本、变量、数据、问卷逻辑等进行预处理的过程,是数据分析前非常重要的一步,其结果直接关系到数据分析的质量和效率。

数据清洗的目的?


1.检查数据回收情况,如回收样本量是否与实际相符,变量名是否与问卷一致等;

2.提高数据的质量,如是否出现快速做答、重复做答等;

3.便于后续的数据分析,如将省份分类、合成量表总分等。

如何进行数据清洗?


原则:保留原始数据

1.数据清洗前,备份原始数据

2.数据清洗时,不改变原有数据

步骤:

1.检查

(1)检查样本量

样本量确定时,检查是否与预期样本相符;

样本量不确定时,查看现有样本量

(2)检查变量

检查变量的数量是否与问卷一致;

检查变量名、变量标签是否完全显示,如果显示完整,是否与问卷一致

检查变量类型是否与问卷一致

(3)检查数据

检查数据是否出现异常值,如只有1-5个选项,出现了6

2.变量的清洗

(1)重命名变量名,并贴标签

为便于数据分析,变量名常用英文表示,且与问卷题号保存一致,如第一部分第一题,常命名为P1Q1。

有的数据的变量名可能直接用问卷题项命名,需重新编码、命名,并在命名之后为其贴标签。

图6 贴值标签后

图2 重命名后的变量名及标签

(2)更改变量类型

变量类型主要有数值型和字符型两种,数据分析时,常需要数值型变量。

图4 变量类型为数值型

(3)贴变量的值标签

通常情况下,回收的数据为数字,但分析数据时,常需要具体的选项内容,为此,需要贴值标签。

图5 贴值标签前

图6 贴值标签后

(4)重新编码变量

A.反向记分

如原选项为1、2、3、4、5,反向后为5、4、3、2、1

B.计算变量

如量表题中,生成总分的变量

C.新增分类

如省份,重新生成东中西部地区

D.数字填空题

如薪资的填空题,超出最大值、单位写错等

3.数据的清洗

(1)重复数据

根据唯一字段,如学号、学校等删除重复个案

(2)无意义数据

A.时间

计算答题时间,删除时间在3个标准差之外的样本,或者,前后各2.5%的样本,也可同时考虑

同时,根据具体情况再做删除,如问卷需10分钟做完,则删除10分钟以下的个案。

B.测谎题

如,设置的测谎题为“请选择第二项”,选择其他项的样本均删除

C.直线做答

所有题项均答同一个选项的为直线做答,删除此部分样本

(3)极端值

常出现于填空题中,如薪资的数据均值在1万,10万则可能是极端值。可通过箱图等判断极端值,将其设置为缺失或删除。

4.问卷逻辑的清洗

问卷中,有时会设置跳转的题项,如本科生回答部分题目,研究生回答另一部分题目,需要查看跳转逻辑是否正确。

逻辑是否正确。