我最近研究了一个干净的数据集,其中包含有关全球公司的信息。原始数据集包含超过 6800 万条数据记录。清理后的版本包含近 3500 万条记录。
这意味着几乎一半的数据记录被删除。然而,3500万条完整、准确的公司数据记录仍然是一个可以为产品和深入分析提供支持的庞大数据集。
Web 数据清理示例
即将开始使用原始公共网络数据的团队应该准备好处理以下问题:
您将从哪里获取数据?
您的数据管道将会是什么样的?
您想如何处理基本为空的记录?您想保留它们吗?
如果你的数据有虚假记录怎么办?你该如何处理?
例如,你如何辨别公司简介是否是假的?
刚抓取的数据可能会出现各种问题,需要几个数据处理 推特数据 步骤才能将抓取的数据转换为干净的数据 - 其中一个关键步骤是日期解析。为了方便起见,我将主要关注公司数据。
让我们以反映公司成立日期的数据为例。日期格式有 20 多种。其中一些很常见,而另一些则不常见。想象一下,你从互联网上爬取了多种不同日期格式的数据:“2023 年 11 月 1 日”、“2023-11-01”、“2023 年 11 月 1 日”。
您想要做的是通过标准化日期字段将它们转换为一个。如果考虑到人为拼写错误和其他问题,这会很复杂。但是,仅此一点就可以使过滤等操作变得容易得多。
这是另一个示例。您抓取包含文本字段的 Web 数据。您可以在文本中找到其他符号,例如表情符号或 Web 链接。以及抓取工具视为 HTML 标记的各种文本格式化工件。所有这些都可能使数据对您来说不那么有意义。
最后,我们来谈谈地址。同样,您会遇到各种版本的地址,但对于大多数用例,您需要统一的地址格式。
无效的