课程: 学习数据分析
免费学习该课程!
今天就开通帐号,25,600 门业界名师课程任您挑!
数据清洗
我们都希望 每当有人给我一个数据项目时 都已经准备好了数据, 我就可以直接创建出精彩的报表和视觉对象, 但是很少会发生这种情况。 想象一下,对于二三十年, 甚至是上百年历史的企业, 他们的流程变更频率有多高? 而这样的变更对数据是否有影响呢? 随着时间的推移, 分析师们学会了数据清洗的最佳方法, 这当然不是一个适用于所有流程的、 放之四海皆准的万能良方, 但是通过学习, 你会更容易发现 应对每个数据挑战的最佳方法。 那么什么是数据清洗呢? 你可以在各类百科网站上找到它的定义。 通常数据清洗 是为了达到数据标准化的目标, 删除报表中不需要的内容, 更正不一致的数据。 我们的处理步骤包括: 第一,对错误的数据, 在确认它们无效时把它删除; 第二,验证数据, 基于实际情况或是事实 对数据进行校验; 第三,数据标准化处理, 比如统一部门的名称、 一些标准名称的缩写等等。 当然,这些步骤 可不是我们要完成的所有事情, 但它们足够让你入门。 你可能会发现只是抽取了一部分数据, 或者只是让代码变得更有意义了, 比如把性别从代码“1” 改为“男”,“2”改为“女”, 你可能还进行了大量的排序工作, 将一列数据拆分成了多个字段, 从而可以进行更多的排序。 重要的是,你的脑子里 要始终有一个目标, 就是要有高质量的数据集, 对结果和可读性信心十足。
随堂练习,边学边练
下载课堂讲义。学练结合,紧跟进度,轻松巩固知识。