数据到手就蒙圈?新手数据清洗的3个必备步骤
拿到原始数据却无从下手?别慌,这不是你一个人遇到的坎。真正卡住大多数人的,不是分析思路,而是最基础的数据清洗。原始数据就像刚摘回来的菜,带着泥、杂着草,没法直接下锅。这三个步骤,帮你把烂摊子变成能用的表格。
第一步:处理缺失值——别急着删,先看情况
空单元格遍地都是,直接全删数据集就残了。先看缺失比例:
少于5%:直接删,对整体影响不大
5%-20%:用列平均值或中位数填上,数值型数据就这么干
超过20%:别硬撑,这列可能本来就有问题,要么整个去掉,要么标记为"数据不足"
分类数据缺失更简单,建个"未知"类别扔进去就行。记住:删之前先备份,这是血泪教训。
第二步:格式统一——让电脑认得你的数据
Excel不认"2024.01.15"这种日期,透视表会把"北京"、"北京市"、"beijing"当成三个地方。格式混乱,后面全是坑。
重点收拾这三样:
日期:全转成"2024-01-15"标准格式,用分列功能批量改
文本:统一大小写,去掉空格,用TRIM和CLEAN函数一把梭
数值:检查有没有逗号、人民币符号,全转成纯数字
搞定之后,排序检查最管用。排个序,格式不对的数据会自己冒头。
第三步:透视表基础——清洗效果的试金石
清洗完得验证一下。拖个透视表,把数据往四个区域一扔:
行区域放分类(比如地区、产品)
值区域放数字(默认是求和,不对就改成计数)
看看结果有没有奇怪的"null"或者格式混乱的项
透视表不仅能检查清洗质量,还能顺手做个初步汇总。清洗好的数据,透视表拖起来丝滑顺畅;有问题的,立马报错给你看。
微信扫码关注"datavrap"登录,未绑定自动注册账号

