七天爬虫速成版的目录
1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
5.文件操作(文件存储与读取)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html
6.爬虫准备工作(各类库的安装、讲解)
7.豆瓣电影资源爬取、保存
教程开始
这是项目的开始与结果
代码稍后会发链接,有兴趣可以下载看看
xls就是爬取的数据,我就爬了一页25部,我就演示一下就不爬那么多了,这个可以自己控制爬多少页,下面会讲
1.好,我们来看看这个爬虫项目的整体框架
导入的四个资源库
编写的四个函数
还有一个主程序
准备篇的时候有讲库的导入,那时候讲的是resqusts
urllib.resqust也是可以的,这两个库都可以用,选其中一个就行
urllib那个的返回结构比较清晰,这里就用urllib了
2.个体函数分析
getdata()的作用主要是拼接完整的链接、控制爬取的页数、将多部电影归纳为一个列表来储存
3.数据获取、清洗、分类、储存
dataextract()函数,目的就是从一团数据里洗出我们需要的数据
这里就需要用到re正则表达式
其实不难,就
制定规则compile()
根据规则查看字符串findall()
完事儿,数据就拿到了
sub()呢就是替换字符串方法,详细看我图片解析吧
4.获取网页响应返回的数据
header请求头绝大部分爬虫要伪装的东西,目的就是伪装自己,让服务器以为你是电脑浏览器访问的,而不是爬虫访问的
"User-Agent"可以自己去查询自己的,谷歌浏览器F12查,我的就不放出来了,查询方法看图二
5.保存数据至xls
具体操作详细也可以看看我前几期的帖子
具体代码意思我也解释上了,看图哦各位
6.调用各函数
这里可以等同于其它语言的main函数,main函数调用其它子函数
也就几行赋值调用代码,也有解释了,可以看一下?
好啦,速成版教学就到这里圆满结束了
评论