在进行数据分析之前,运营者需要对收集到的数据集进行数据清洗工作。否则,数据分析的结果将会因为异常值的存在而产生误差。以"商品画像"Excel文件中的数据为例,运营者可以通过 Excel的"筛选"功能查看各个维度的数据是否存在异常值。
其操作步骤为:打开"商品画像"Excel表格,选择第一行数据,在菜单栏中选择"开始"选项卡,然后单击"排序和筛选"下拉按钮,在弹出的下拉菜单中选择"筛选"选项。当 Excel操作界面产生"筛选"的功能符号(一个小的向下的箭头)后,运营者可以单击各个维度数据的"筛选"符号,从而查看该维度数据是否存在异常值。
以"评分数量"为例,当单击"筛选"符号后,运营者会发现该维度数据存在"-1"的异常值,这类异常值是因为Python爬虫脚本在抓取数据时无法完成抓取导致的。一般而言,异常值在总数据量的5%以内都不会影响数据分析的精准度。当运营者通过上述步骤筛选"评分数量"的异常值时,可以发现一共有23个异常值。运营者可以重复上述步骤,将各个维度的异常值逐一进行删除。
需要注意的是在对排名维度进行异常值处理时,只需对"Clothing,Shoes \u0026 Jewelry"维度进行处理而不需要对"Women's Shops"维度进行处理。这是因为后者相比于前者属于小类排名存在部分商品属于大类而不属小类的情况。因此,在进行前期的数据清洗时,只需关注大类排名的数据即可。
当对"评分数量""曝光价格""商品价格范围(最低价)""商品价格范围(最高价)""Clothing,Shoes \u0026 Jewelry"这5个维度中的异常数据进行清洗后,可以获得最终数据,将清洗后的数据保存在名为"清洗后的商品画像数据"Excel文件中。随意单击该数据表格中的一列,可以发现该数据集包含18 660个ASIN的数据,相比于19152的原始数据,一共有492个带有异常值的ASIN被删除了。当完成了一系列数据清洗的步骤后,即可开始进行数据分析。
常见问题 FAQs:
Q1: 为什么需要进行数据清洗?
A1: 进行数据清洗是为了确保数据分析的准确性。异常值的存在会导致数据分析结果出现偏差,因此需要清洗掉这些异常值,提高数据的质量。
Q2: 如何在 Excel 中查找并删除异常值?
A2: 在 Excel 中可以通过"筛选"功能来查找异常值,选择需要检查的列,点击"筛选"按钮,即可看到该列的数据分布情况。发现异常值后,可以直接删除或修改这些数据。
Q3: 对排名维度的处理有什么需要注意的地方?
A3: 对于排名维度,只需要关注大类排名的数据,而对小类排名不需要过多关注。这是因为小类排名中可能存在部分商品属于大类而不属小类的情况。
Q4: 数据清洗完成后如何保存数据?
A4: 将清洗后的数据保存在一个新的 Excel 文件中,命名为"清洗后的商品画像数据"或其他合适的名称,以便后续的数据分析工作。