【python教程】七天爬虫速成版教程(第七天)

零 Python教程评论111字数 810阅读2分42秒阅读模式

七天爬虫速成版的目录

1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

5.文件操作(文件存储与读取)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

6.爬虫准备工作(各类库的安装、讲解)

【python教程】七天爬虫速成版教程(第六天)

7.豆瓣电影资源爬取、保存

 

教程开始

这是项目的开始与结果

代码稍后会发链接,有兴趣可以下载看看

xls就是爬取的数据,我就爬了一页25部,我就演示一下就不爬那么多了,这个可以自己控制爬多少页,下面会讲

 

 

1.好,我们来看看这个爬虫项目的整体框架

导入的四个资源库

编写的四个函数

还有一个主程序

准备篇的时候有讲库的导入,那时候讲的是resqusts
urllib.resqust也是可以的,这两个库都可以用,选其中一个就行
urllib那个的返回结构比较清晰,这里就用urllib了

 

 

2.个体函数分析

getdata()的作用主要是拼接完整的链接、控制爬取的页数、将多部电影归纳为一个列表来储存

 

 

3.数据获取、清洗、分类、储存

dataextract()函数,目的就是从一团数据里洗出我们需要的数据

这里就需要用到re正则表达式
其实不难,就
制定规则compile()
根据规则查看字符串findall()
完事儿,数据就拿到了

sub()呢就是替换字符串方法,详细看我图片解析吧

 

 

4.获取网页响应返回的数据

header请求头绝大部分爬虫要伪装的东西,目的就是伪装自己,让服务器以为你是电脑浏览器访问的,而不是爬虫访问的

"User-Agent"可以自己去查询自己的,谷歌浏览器F12查,我的就不放出来了,查询方法看图二

 

 

5.保存数据至xls

具体操作详细也可以看看我前几期的帖子

具体代码意思我也解释上了,看图哦各位

 

 

6.调用各函数

这里可以等同于其它语言的main函数,main函数调用其它子函数

也就几行赋值调用代码,也有解释了,可以看一下?

 

 

好啦,速成版教学就到这里圆满结束了

零
  • 转载请务必保留本文链接:https://www.0s52.com/bcjc/pythonjc/1371.html
    本社区资源仅供用于学习和交流,请勿用于商业用途
    未经允许不得进行转载/复制/分享

发表评论