立即使用
跨境电商
发布时间:4月前
957 89
数据清洗及有效数据筛选


在进行数据分析之前,运营者需要对收集到的数据集进行数据清洗工作。否则,数据分析的结果将会因为异常值的存在而产生误差。以"商品画像"Excel文件中的数据为例,运营者可以通过 Excel的"筛选"功能查看各个维度的数据是否存在异常值。


其操作步骤为:打开"商品画像"Excel表格,选择第一行数据,在菜单栏中选择"开始"选项卡,然后单击"排序和筛选"下拉按钮,在弹出的下拉菜单中选择"筛选"选项。当 Excel操作界面产生"筛选"的功能符号(一个小的向下的箭头)后,运营者可以单击各个维度数据的"筛选"符号,从而查看该维度数据是否存在异常值。


以"评分数量"为例,当单击"筛选"符号后,运营者会发现该维度数据存在"-1"的异常值,这类异常值是因为Python爬虫脚本在抓取数据时无法完成抓取导致的。一般而言,异常值在总数据量的5%以内都不会影响数据分析的精准度。当运营者通过上述步骤筛选"评分数量"的异常值时,可以发现一共有23个异常值。运营者可以重复上述步骤,将各个维度的异常值逐一进行删除。


需要注意的是在对排名维度进行异常值处理时,只需对"Clothing,Shoes \u0026 Jewelry"维度进行处理而不需要对"Women's Shops"维度进行处理。这是因为后者相比于前者属于小类排名存在部分商品属于大类而不属小类的情况。因此,在进行前期的数据清洗时,只需关注大类排名的数据即可。


当对"评分数量""曝光价格""商品价格范围(最低价)""商品价格范围(最高价)""Clothing,Shoes \u0026 Jewelry"这5个维度中的异常数据进行清洗后,可以获得最终数据,将清洗后的数据保存在名为"清洗后的商品画像数据"Excel文件中。随意单击该数据表格中的一列,可以发现该数据集包含18 660个ASIN的数据,相比于19152的原始数据,一共有492个带有异常值的ASIN被删除了。当完成了一系列数据清洗的步骤后,即可开始进行数据分析。


数据清洗及有效数据筛选


常见问题 FAQs:


Q1: 为什么需要进行数据清洗?

A1: 进行数据清洗是为了确保数据分析的准确性。异常值的存在会导致数据分析结果出现偏差,因此需要清洗掉这些异常值,提高数据的质量。


Q2: 如何在 Excel 中查找并删除异常值?

A2: 在 Excel 中可以通过"筛选"功能来查找异常值,选择需要检查的列,点击"筛选"按钮,即可看到该列的数据分布情况。发现异常值后,可以直接删除或修改这些数据。


Q3: 对排名维度的处理有什么需要注意的地方?

A3: 对于排名维度,只需要关注大类排名的数据,而对小类排名不需要过多关注。这是因为小类排名中可能存在部分商品属于大类而不属小类的情况。


Q4: 数据清洗完成后如何保存数据?

A4: 将清洗后的数据保存在一个新的 Excel 文件中,命名为"清洗后的商品画像数据"或其他合适的名称,以便后续的数据分析工作。

开发优质客户,从阔象出海开始
免费、不限次查看真实采购商和供应商的贸易概述
免费试用
输入手机号
忘记密码
输入密码
AMY
alert_warn 该企业数据暂未公开
发现更多的优质采购商
请联系客服
专属热线:
官方邮箱:
AMY
立即扫码联系客服
开通高级版会员,畅享专属特权,海量贸易数据随意查看
新年享钜惠,6折福利迎新春,仅限前10位用户专享
年付5折 月付
时效
支付方式
费用
¥1608.00
收款信息
收款公司名: 重庆知站科技有限公司
收款账户: 50050122680000000033
开户行名称: 中国建设银行股份有限公司开州支行龙锦名都分理处
* 请务必在备注中注明购买物品明细:
温馨提示
1、 成功汇款后,请通过下方二维码联系客服,提供转账凭证、开通会员账号、领取发票
2、 线下汇款请直接向您在阔象出海的专属账户汇款。各种方式的到账时间一般为: 农行1-2天,跨行3-5天 (具体到账时间以银行的实际到账时间为准)
需要帮忙,请联系我们客服
为您提供帮助和支持
专属热线:
官方邮箱:
KF
立即扫码联系客服
支付
费用
¥1608.00
支付