未分类

一个比较完整的Scrapy爬虫

1.目标:爬取新浪财经新闻——国际财经——亚洲动态栏目下的全部新闻内容

2.技术:选用Scrapy框架完成工作

3.具体实现:

1).创建项目,创建爬虫。(不会的自行百度)

2).修改settings.py文件,修改设置,主要包括:启用并修改USER_AGENT,设置LOG日志级别为WARNING,启用DOWNLOAD_DELAY,启用pipelines

001

3).编写items

002

4).开始编写爬虫内容,具体来说包括三个部分:第一爬取列表页面内容,第二爬取内容页面内容(本例未做精细化处理),第三处理翻页,分别如以下三图所示:

爬取列表页面内容——
003
爬取内容页面内容(本例未做精细化处理)——
004
处理翻页——
005

5).在pipelines中处理爬取数据后的工作,本例仅仅只做打印输出

006

4.运行爬虫:通过scrapy crawl sinafinace 命令运行本例爬虫,应该可以看到如下的输出界面

007

分享到