七天爬虫速成版的目录
1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
5.文件操作(文件存储与读取)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
【python教程】七天爬虫速成版教程(第五天)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html
6.爬虫准备工作(各类库的安装、讲解)
7.豆瓣电影资源爬取、保存
教程开始:
1.
豆瓣电影T250的链接:https://movice.douban.com/top250
爬虫的基本流程:
---准备工作---
通过浏览器查看分析目标网页,学习编程基础规范(浏览器推荐谷歌浏览器,按F12可以分析网页)
---获取数据---
用urllib2库获取页面通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常相应,会得到一个response,便是所要获取的页面内容
---解析内容---
得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析
---保存数据---
用xlwt库抽取数据保存形式多样,可以存为文本,也可以保存数据库,或者保存特定格式的文件
2.
引入的库及引入方法
评论