codebook-pass

调查数据清洗Skill。处理调查数据（CGSS/CHIP/CSS等）时的标准化清洗流程，包括缺失值处理、变量编码统一、数据异常值检测。触发词：数据清洗/调查数据/codebook/数据清洗流程/问卷数据处理

brycewang-stanford 2,608 353 Updated 1w ago

GitHub

Install

npx skillscat add brycewang-stanford/auto-empirical-research-skills/codebook-pass

Install via the SkillsCat registry.

SKILL.md

codebook-pass — 调查数据清洗Skill

本 Skill 是处理中国综合社会调查（CGSS）、中国家庭收入调查（CHIP）、中国社会科学调查（CSS）等大型调查数据的标准化清洗流程。确保从 codebook 到可用面板数据的每一步都可审计、可复现。

适用场景

从 CGSS/CHIP/CSS 等数据库下载原始数据后
合并多个年份的调查数据时
构建面板数据时
论文数据准备阶段

核心理念

调查数据清洗的核心原则：原始数据只读不修改，所有转换操作记录在 processed/ 文件夹中，且必须更新 provenance.json。

三个关键规则：

原始数据不可直接修改——所有操作在 processed/ 文件夹中进行
每一步转换必须有记录——包括变量名、编码、处理方式
缺失值必须明确标注——不得将缺失值默认为 0 或其他有意义的数值

工作流程

原始数据 → 导入检查 → 变量命名规范化 → 缺失值处理 → 异常值处理 → 编码统一 → 合并面板 → 输出报告

Step 1 · 原始数据导入检查

必须执行：

import pandas as pd
import numpy as np

# 读取原始数据
df = pd.read_stata("data/raw/cgss2021.dta")

# 基础检查
print(f"样本量: {len(df)}")
print(f"变量数: {len(df.columns)}")
print(f"\n缺失值概况:")
print(df.isnull().sum()[df.isnull().sum() > 0])

检查项：

检查项	预期结果
样本量	与 codebook 描述一致
变量数	与 codebook 描述一致
极端缺失变量	缺失率 >50% 的变量需标注
数据类型	数值型/字符型与 codebook 一致

Step 2 · 变量命名规范化

统一命名规则（建议采用）：

{数据库缩写}_{年份}_{变量原名}
例如：cgss_2021_income, chip_2018_urban

变量编码记录（必须写入 provenance.json）：

{
  "variable": "cgss_2021_urban",
  "description": "城乡户籍类型",
  "original_codes": {"1": "城市", "2": "农村", "9": "未知"},
  "transformed_codes": {"1": "urban", "2": "rural"},
  "missing_handling": "9 → NaN"
}

Step 3 · 缺失值处理

必须明确处理的缺失类型：

缺失类型	调查数据常见编码	处理方式
真实缺失	`.` / `NA`	保持 NaN
不适用	`97/98/99`	保持 NaN，不填0
拒绝回答	`97`	保持 NaN
不知道	`98`	保持 NaN
数据缺失	`99`	保持 NaN

⚠️ 常见错误：

❌ 将 97/98/99 填为 0（改变了变量的均值）
❌ 将缺失值当作有效值处理
❌ 删除所有含缺失值的观测（浪费数据）

正确做法：

# 识别调查数据中的特殊编码
missing_codes = [97, 98, 99, 999, 9999]

for var in categorical_vars:
    df[var] = df[var].replace(missing_codes, np.nan)

Step 4 · 异常值检测

常用方法：

# 描述统计 + 分布检查
print(df[numeric_vars].describe(percentiles=[.01, .05, .25, .50, .75, .95, .99]))

# 极端值检测（IQR方法）
def detect_outliers_iqr(series, factor=3):
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - factor * IQR
    upper = Q3 + factor * IQR
    return (series < lower) | (series > upper)

outliers = detect_outliers_iqr(df['income'])
print(f"极端值数量: {outliers.sum()}")

处理方式：

异常类型	处理方式
数据录入错误（明显不合理值）	修正或标记为缺失
合理极端值	保持，报告中位数替代均值
离群点（ winsorize）	双边 winsorize（1%和99%分位）

Winsorize 示例：

from scipy.stats import mstats

for var in ['income', 'education_years']:
    df[var] = mstats.winsorize(df[var], limits=[0.01, 0.01])

Step 5 · 编码统一（多年份/多数据库合并）

纵向合并（多年份 CGSS）：

# 确保变量名一致
cgss_2017 = pd.read_stata("data/raw/cgss2017.dta")
cgss_2021 = pd.read_stata("data/raw/cgss2021.dta")

# 重命名统一
cgss_2017 = cgss_2017.rename(columns={
    "a2017_income": "income",
    "a2017_urban": "urban"
})
cgss_2021 = cgss_2021.rename(columns={
    "a2021_income": "income",
    "a2021_urban": "urban"
})

# 合并
df_combined = pd.concat([cgss_2017, cgss_2021], ignore_index=True)
df_combined['year'] = 2017  # 添加年份变量

横向合并（CHIP + CGSS）：

# 统一变量定义和编码
# CHIP: income_2018; CGSS: income_2021
# 需标注：不同数据库收入定义可能不同

Step 6 · 构建面板数据

长宽格式转换：

# 宽 → 长
df_panel = df.melt(
    id_vars=['id', 'year'],
    value_vars=['income', 'education', 'employment'],
    var_name='variable',
    value_name='value'
)

Step 7 · 输出报告

必须输出：

数据清洗报告（data/processed/cleaning_report.md）
变量定义表（data/processed/variable_definition.csv）
更新的 provenance.json

清洗报告模板：

## 数据清洗报告

**原始数据**：CGSS 2021 (N=10,000)
**清洗后数据**：processed/cgss_2021_clean.dta (N=9,847)
**清洗时间**：[日期]

### 样本变动

| 处理类型 | 样本数 | 原因 |
|----------|--------|------|
| 原始样本 | 10,000 | |
| 删除重复记录 | -15 | ID重复 |
| 核心变量缺失 | -138 | income/education 缺失 |
| 清洗后 | 9,847 | |

### 变量处理记录

| 变量名 | 原始编码 | 处理方式 | 备注 |
|--------|----------|----------|------|
| income | 99999→NaN | 特殊编码替换 | 拒绝回答 |
| urban | 1/2 | 保持 | 城市=1,农村=2 |

调用接口

在 Claude Code 对话窗口输入：

/codebook-pass

或完整 Prompt：

按调查数据清洗Skill处理本项目的CGSS/CHIP数据：原始数据导入检查→变量命名规范化→缺失值处理→异常值检测→编码统一→构建面板→输出清洗报告和provenance.json

重要声明

原始数据永远不可修改——所有操作在 processed/ 文件夹中进行
缺失值处理必须具体说明每种编码的含义，不得统一当作"缺失"处理后填 0
不同年份调查问卷可能有细微差异，合并时必须逐变量核查

codebook-pass

Install

codebook-pass — 调查数据清洗Skill

适用场景

核心理念

工作流程

Step 1 · 原始数据导入检查

Step 2 · 变量命名规范化

Step 3 · 缺失值处理

Step 4 · 异常值检测

Step 5 · 编码统一（多年份/多数据库合并）

Step 6 · 构建面板数据

Step 7 · 输出报告

调用接口

重要声明

Categories

Install

Recommended Skills