课程: 学习数据分析:1. 基础知识

使用Power Query清理数据

课程: 学习数据分析:1. 基础知识

使用Power Query清理数据

当你开始学习 Power Query 的时候, 即便是最基本的数据清理任务, 你都会发现它更加地实用。 和宏相比, Power Query, 更加容易操作并且功能强大。 因为它专为数据连接设计, 所以操作起来非常直观。 你只需要投入一点时间学习, 就可以轻松地掌握它。 现在我们打开练习文件 “清理调查数据”, 然后我们要使用 Power Query, 连接同一个文件夹中的 Excel 文件 “支出趋势调查”。 这样,每当有新的数据时, 我们直接替换原来的文件, 或者是修改连接的数据源就可以了。 首先,我们打开“数据”选项卡, 然后点击“获取数据”按钮。 我们选择“来自文件”。 因为我们的文件来源 是 Excel 工作簿, 所以我们选择 “从 Excel 工作簿”。 然后我们打开练习文件 “06_03”中的 “支出趋势调查” 这个 Excel 工作簿, 点击“导入”按钮。 在弹出的窗口中,我们选中“数据”。 接下来我们有两个选择。 我们可以将数据加载到电子表格中查看, 也可以直接进入转换数据的操作。 因为我们目前关注的是数据清理, 所以我们选择“转换数据”。 我们待会再把数据加载到表格中。 在右边的“查询设置”中, 我们可以看到已经应用的步骤。 Power Query, 它会把每个更改都记录下来。 实际上, 有些步骤,它已经为我们自动完成了。 好的,接下来我们的第一步 就是删掉不必要的列, 我们有很多方法可以做到这一点。 我们可以使用鼠标右键, 点击“收集者 ID”这一列, 然后选择“删除”。 另外,因为我们不需要进行 开始日期和结束日期的比较, 所以我们可以直接把“结束日期”列, 也删除掉。 右键点击“结束日期”列的列标题, 然后选择“删除”。 接下来,我还想删除 “ID 地址”、 “电子邮件地址”、 “姓名”, 以及“自定义数据1”这一列。 这一次,我们可以使用另外一种方法, 我们点击“选择列”按钮, 然后从列表中取消勾选不需要的列, 然后点击“确定”就可以了。 现在你注意到右边的步骤列表了吗? 其中有一项就是“删除的列”。 我们如果选择它,就可以回到这一步。 看看我删掉了哪些列。 如果我们选择的是“删除的其他列”, 它不仅会展示删除的列, 我们还可以点击步骤右边的小齿轮。 我们来修改这一步的操作内容, 比如添加或是删除其他的列。 接下来,因为我们只需要日期,不需要时间, 所以我们点击 “开始日期”列标题前面的图标, 把它修改为“日期”。 你会看到在右边应用的步骤中, 又出现了一个新的步骤, 叫“更改的类型1”。 这是因为, 我们前面已经有了一个“更改的类型”步骤。 为了让步骤的名称更加有意义, 我们把这一步修改一下名字, 右键点击这个步骤, 然后选择“重命名”, 我们把它改为“去掉日期中的时间”。 我更喜欢使用有意义的名称, 因为其他人可能要查阅我的文件。 然而,即使这样,每个人命名文件的方式, 和对同一个名称的理解, 也可能会有所差别。 现在我注意到当前的列标题, 都是以问题的形式命名的。 所以我会把“年龄问题”改为“年龄”, 我们双击列标题就可以改名, 回车确认。 接下来把“性别问题”改名为“性别”, 然后把下一个标题改为“自我描述”, 然后把受教育程度的问题, 改为“受教育水平”。 在每次更改的时候, Power Query 都会记录这些重命名的列。 如果想查看这些列, 我们可以展开公式栏进行查看。 这里使用的代码叫 M 语言。 如果有需要,我们也可以手动地进行调整。 作为数据分析师, 我们工具箱中最强大的功能之一 就是将数据连接起来。 在 Excel 中, 我们可以使用 Connect, 或者是 Contact 函数 来完成这项工作。 在 Power Query 中, 我们通过合并功能来实现。 好的,接下来我要选中“性别”这一列。 点击列标题就可以选中它, 然后按住 Ctrl 键, 再选中“自我描述”这一列。 接下来点击右键,选择“合并列”。 在打开的“合并列”对话框中, 我们可以选择分隔符, 然后给合并后的新列起一个名字, 我把它起名为“性别信息”。 然后点击“确定”按钮。 现在这两点已经被合并成了一列。 同样,在这个步骤中也有一个齿轮图标。 我们也可以在这里改变前面的选择。 比如我可以把这里的“性别”信息, 修改为“合并性别”。 接下来因为这是调查问卷的回复数据, 这里有两个级别的标题。 列标题是所有的问题。 在列标题的下面, 第一行数据只是一些说明信息, 所以我要删除第一行数据。 我可以打开“受访者ID”列标题 右边的下拉列表, 这里有一个“空值(null)”的选项, 我们取消选中它, 然后点击“确定”。 这样,我们就删除了那行说明信息。 接下来我们把这个步骤改一下名字。 我们把它改为“删除二级标题”。 在执行了所有需要的数据处理步骤以后, 我们就可以点击 “关闭并上载”按钮。 接下来 Power Query, 它会把数据加载到电子表格中。 我们可以看到, 已经加载了 262 行数据。 现在我们得到了干净整洁的数据。 Power Query 是现代 Excel 用户 最为强大的工具之一, 它已经问世好几年时间了。 听到这你可能会有点受伤, 因为这么好用的工具本来早就可以用上, 但是现在正是采取行动的最佳时机。 而且,如果你已经在 Excel 中 学会了使用 Power Query, 那么你就同时掌握了 Power BI 中的 Power Query。 如果想了解更多有关 Power Query 的信息, 可以搜索领英学习上的相关课程, 或是关注我们的课程更新。

内容