网络爬虫设计中需要注意的几个问题
<!--more-->
做网络爬虫是件很有意义的事情。首先,它可以是一个专门的职业。从公司层面讲,业务和战略可能都需要很多数据进行多维度分析,所以现在很多公司都有专门的爬虫工程师负责设计数据采集系统;其次,很多公司以爬虫为生,爬虫就是他们用来赚取利润的最主要手段,比如说各大搜索引擎和最近比较流行的即刻 APP;最后,爬虫也可以成为程序员业余时间赚取外快的好玩具,很多社群找程序员兼职爬取目标数据;最不济,它还可以成为一个好玩具,程序员可以抓取一些好玩的图片和文章,做一个自己喜爱的 Side Project。我是通过看「静觅」上的文章接触爬虫的。作者最近还写了本书「Python3网络爬虫开发实战 」,算是现在市面上比较系统的爬虫书籍了。我也写点东西总结一下做爬虫过程中遇到的主要问题,希望对没有接触过的同学有参考意义,也希望老鸟们帮忙看看路子是否正确。本文主要是为了厘清爬虫运行的思路,不会涉及太多的具体代码。