业务爬取经验总结
注意代理有没有挂上,如果没有挂上也不会有什么提示,会直接使用本机IP
,风险极高。
在平时业务开发时,遇到的网站一般分为两种类型,搜索式和列表式,当然列表式居多
列表式爬取方法
拿到一个待开发的网站,一般开发完成之后,先爬取一遍全部历史数据,再上线增量爬取。
历史数据爬取过程中需要注意的点
首先是要测试,要多看爬取日志,不要直接就推送入库;
查看日志可以看第一页、第二页、中间随机抽取几页和最后一页,日志是否和网站上的数据对应的上,避免一些程序bug压根没有成功翻页,然后也要看字段解析的是否正确,如果有比较明显的大规模错误那就要优化程序。
如果该业务的数据源是比较多的情况,就要考虑不同的源是不是会造成重复,比如当前的数据源数据质量本身很差(结构化错误比例较高或缺少关键字段信息等),那最好先看下这个源的数据是否已经被其他源覆盖(在开发之前也可以进行评估),如果已被其他源覆盖就可以不爬取历史数据或者直接不开发,避免这个源的数据覆盖其他更优质的源的数据。
其他还有一些针对数据质量不太好的源的爬取方法,比如增加过滤逻辑,缺失某些字段的数据丢弃;或者根据页码或者发布日期只爬取部分质量较好的数据。