电商平台商品评论数据采集,目前主流方法分为四类:官方API、无代码工具、Python自研爬虫、企业级代理+爬虫服务。
一、官方API:合规首选,限频但结构化最好
1. 淘宝/天猫
接口:taobao.itemcomments.get
字段:昵称、评分、正文、追评、视频晒图URL、点赞数、标签(如“保湿”“物流快”)。
2. 京东POP/自营
接口:biz.comment.list.get(需商家身份)
字段同上,额外给出“plus会员”标记。
无商家资质可走“联盟API”→jd.union.open.goods.comment.get,但只能拿到公开前100条。
3. 拼多多、抖音、快手
2025年均已上线“评论开放API”,需要ISV资质,审核7-14天
二、无代码工具:
1 奇点数据
京东、淘宝、拼多多、抖音、小红书、Amazon、Shopee全部内置模板。
结果直接导出Excel/CSV,也能推送到自家数据库。
2 无代码采集器
预置Amazon、Walmart、Lazada、Shein、Shopee评论模板;支持“按SKU批量输入5000条URL→24小时内返回结构化JSON”。
3. Thunderbit Chrome插件
在商品页点“AI推荐字段”→自动识别评论区块→一键导出Google Sheets;适合运营同学临时拉数。
------------------------------------------------
三、Python自研:最灵活,适合技术团队
1. 通用思路
① 找XHR接口(京东、淘宝、拼多多评论都是JSONP/XHR,非HTML)
② 伪造headers+Cookie+代理池
③ 控制并发≤3,随机sleep 2-6s;夜间0-6点加大抓取密度
④ 存MongoDB→清洗→做情感/关键词/画像
2. 京东评论接口实战(2025年5月亲测可用)
50页≈500条,单IP安全;百万级需代理池+分布式。
3. 代理池与反爬补充
- 住宅代理+IP-行为绑定:同一IP带固定headers,20次请求后强制更换
- 大促期(双11/618)把频率降40%,凌晨抓取;核心SKU用住宅IP,长尾SKU用机房IP
五、合规红线与最佳实践
1. 只采“公开可见”评论,不碰隐私字段(手机号、地址、头像URL若带身份信息需脱敏)
2. 遵守平台Robots协议;淘宝/京东明确禁止“未经授权大规模爬取”,请务必:
- 控制频率≤3QPS
- 使用官方/联盟API优先
- 数据不出售、不用于黑产
3. 数据留存不超过24个月,敏感词(如姓名+手机号)做MD5哈希或删除。
4. 大项目提前做PIA(个人信息保护影响评估),留存日志6个月备查。