一个比较完整的Scrapy爬虫

PYTHON

1.目标：爬取新浪财经新闻——国际财经——亚洲动态栏目下的全部新闻内容

2.技术：选用Scrapy框架完成工作

3.具体实现：

1).创建项目，创建爬虫。（不会的自行百度）

2).修改settings.py文件，修改设置，主要包括：启用并修改USER_AGENT，设置LOG日志级别为WARNING，启用DOWNLOAD_DELAY，启用pipelines

001

3).编写items

002

4).开始编写爬虫内容，具体来说包括三个部分：第一爬取列表页面内容，第二爬取内容页面内容（本例未做精细化处理），第三处理翻页，分别如以下三图所示：

爬取列表页面内容——
003
爬取内容页面内容（本例未做精细化处理）——
004
处理翻页——
005

5).在pipelines中处理爬取数据后的工作，本例仅仅只做打印输出

006

4.运行爬虫：通过scrapy crawl sinafinace 命令运行本例爬虫，应该可以看到如下的输出界面

007