数据处理工作的基本流程

前面的文章介绍了Excel的基本应用,就算是热热身了。本文来聊一聊数据处理工作的基本流程,之后会讨论Excel在数据处理工作各个环节的实际应用。

关于数据处理工作的基本流程,我们会从规划、数据获取、数据备份、数据整理、数据计算与分析、结果输出、数据应用等方面进行讨论。

规划

  • 需要什么数据?
  • 如何获取数据?
  • 数据量有多大?
  • 需要怎样的数据处理工具?
  • 数据处理的目标和期望是什么?

在开始数据处理工作之前,需要一些具体的工作规划,如上述的这些问题,在开始工作前至少应该有一些简单的答案。

需要什么数据,包括数据的内容和数据产生的时间点,只有确定需要的什么样的数据,之后再考虑如何获取这些数据。比如每一单销售记录、爱车的消费记录等。

如何获取数据,决定了数据来源和获取形式,如自己采集、从单位其他部门获取、购买第三方数据等。

数据量有多大决定了需要使用什么工具才能更加有效地开展数据处理工作,需要考虑初始数据量和数据的增长问题。

需要怎样的数据处理工具,如果数据量不大时使用Excel就可以胜任,那么Excel可以处理多大的数量量呢?如Excel2016的一个工作表最大可以保存16384列、1048576行的数据,但实际的应用效率和计算机的配置有很大关系。如果数据量较大或者是数据量会高速增长就需要考虑使用数据库管理系统;如果需要更复杂的数据处理(如深入的数据分析),可能还需要专业的软件系统或服务,而它们的费用一般都比较昂贵;如果自己可以编程,也可以开发一些应用系统,结合编程的灵活性和数据库的高性能来完成数据处理工作。

数据处理的目标和期望是什么。任何工作总会有一定的目的性,哪怕只是简单地记录生活中的消费情况,看一看每年花了多少钱。而对于商业数据来讲,有效的分析历史数据可以帮助企业更好的规划未来的发展,比如,对于用户消费数据的分析则可以更好的挖掘商品(服务)与用户的联系,为用户提供更多、更好、更有效的商品和服务。

数据获取

获取数据的形式和方法有很多种,从早期的纸质问卷、报表到计算机采集、光电扫描,从互联网时期的网页采集数据到移动时代的移动App、小程序采集数据,而现在我们正处于大数据时代,各种网络终端、传感器、浏览记录、购买记录、聊天记录、……每时每刻都在产生大量的数据。

对于个人或小型团队来说,可能并没有那么多的数据资源。如果选择了Excel做为数据处理工具,在工作表中手工录入数据就会成为一项经常性的工作,也是获取第一手数据的重要来源,前面的文章中已经讨论了Excel中数据的处理特点,如数据的本质、显示格式、录入数据验证等,这些内容可以帮助我们更加有效地录入数据。

如果单位中没有集成度很高的管理系统,那么,在工作中还经常会处理其他部门转过来的数据;同时也可能有其它路径获取的数据,如某一软件或应用平台导出的数据;这些外来数据还可能有着不同的格式,使用Excel对不同来源的数据进行整合并进一步处理时,就会需要更多的操作方法和技巧,这也是接下来的文章所要讨论的内容之一。

数据备份

获取数据后,在准备进一步操作前,第一件需要做的工作就是备份数据。保存源数据的副本在数据处理流程中是非常重要的一环;一方面,在必要的时候可以对数据溯源;另一方面,如果操作中破坏了数据,还可以重新开始。

对于专业的数据库系统来说,可以设置主从服务器,或者设置专用的备份数据库。而对于Excel文件来讲,可以使用文件系统进行备份,如使用文件夹对数据进行分类,可以按不同的数据来源、类型、日期和时间等信息进行归档和备份。

数据整理

获取数据并备份源数据后就可以开始整理数据了,可以从以下几个方面入手。

保证数据正确性。原始数据中很有可能包含了一些错误的数据,如明显超出合理范围的数据、某一指标的数据类型不正确等。此时需要对错误数据进行甄别,必要时修正错误数据,很多时候可能会要求宁缺毋滥,此时可以直接删除包含了错误的数据记录。

保证数据完整性。在数据处理工作中,没有数据和数据为0是两个不同的概念,就像Excel单元格中没有数据和有数字0,虽然大多情况下操作结果一样,但含义完全不同。对于缺失的数据,一般可以设置一个默认值,如数值类型设置为0;另一方面,如果数据很重要,也可以采用宁缺毋滥原则,直接删除包含缺失数据的记录。

处理重复数据。对于重复数据需要仔细确认,一般来讲,数据记录中会有一个或几个能够标识记录唯一性的指标,可以根据这些指标判断数据是否重复,对于确实重复的数据记录,也可以删除。

确认使用全部数据或样本数据。如果数据量不大,可以直接使用全部数据进行计算和分析;而对于数据量较大或有特殊要求的情况下,可以根据实际情况确认是使用全部数据还是使用其中的一部分数据(样本数据)。

合并或拆分数据。如果数据的指标(列)比较多,可以只使用其中一些必须的指标,这样就需要对数据进行横向拆分;同样的道理,如果只需要使用部分数据记录(样本数据),则需要对数据进行纵向拆分。如果有多个不同来源,但数据结构相同或基本相同的数据需要统一进行处理时,可以将它们的结构整理为统一标准后(如指标的顺序和数据结构保持一致),然后进行纵向合并;如果同一记录的不同指标来自不同的数据源,就需要使用主要指标进行关联,然后进行横向合并或交叉关联,即数据的连接(join)操作。

标准化数据结构。为了方便处理应将数据整理为标准的二维表格式;待数据加工、计算、分析等工作完成后再进行报表的设计工作。

数据计算与分析

数据整理完成后形成标准化的数据结构,并保证数据质量;然后就可以对数据进一步操作,如使用各种计算和分析方法,结合工作目标和期望观察分析结果,如某一指标是否合格,是否达到预期;根据计算和分析结果还可以反过来看一看是哪些数据对结果有正面的推动作用,而哪些数据对结果有负面的下拉作用,从而发现数据中的不合理部分或弱项,进而改进工作中的薄弱环节。

结果输出

数据计算和分析结果可以有多种多样的输出形式,如报表、图表;而Excel数据的输入格式也可以有多多样,如导出为PDF文件、直接分发Excel报表和图表等;有条件的情况下,还可以通过网络平台进行发布。

数据应用

数据处理结果除了发布报表、图表等形式,还可以与其它工具配合使用,如Word的邮件合并功能结合Excel数据就可以批量生成各种表格、单据、卡片、邀请函等。

本文讨论了数据处理工作中需要注意的一些环节,接下来会继续讨论如何使用Excel进行数据处理。