关于数据采集, 抓取接口的几个建议

访问量: 283

1. 对于远程接口的抓取,要有User Agent, 这个是绝大部分公司判定是否是机器人的标准。
2. request header 中,该有的必须有。
3. 抓取间隔 “最好”模拟人肉,比如每次抓取的间隔都要有3~5秒的间隔。
4. 因为接口不透明,无法重现,所以不好调试。 切记保留好 http request/response 日志。因为一些错误都是远程服务器的临时宕机造成的。
5. 接口其实是一项长期的研究性工作。它的行为跟我们预想的很可能不一样:
不同型号的手机获得的结果不同,
不同地区的手机获得的结果不同,
不同渠道的手机获得的结果不同,

订阅/RSS Feed

Subscribe

分类/category