【python教程】七天爬虫速成版教程（第七天）

零

5444
文章

46
评论

2021 年 3 月 19 日10:44:59Python教程评论168字数 810阅读2分42秒阅读模式2021 年 3 月 19 日

七天爬虫速成版的目录

1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

5.文件操作（文件存储与读取）文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1371.html

6.爬虫准备工作（各类库的安装、讲解）

【python教程】七天爬虫速成版教程（第六天）

7.豆瓣电影资源爬取、保存

教程开始

这是项目的开始与结果

代码稍后会发链接，有兴趣可以下载看看

xls就是爬取的数据，我就爬了一页25部，我就演示一下就不爬那么多了，这个可以自己控制爬多少页，下面会讲

1.好，我们来看看这个爬虫项目的整体框架

导入的四个资源库

编写的四个函数

还有一个主程序

准备篇的时候有讲库的导入，那时候讲的是resqusts
urllib.resqust也是可以的，这两个库都可以用，选其中一个就行
urllib那个的返回结构比较清晰，这里就用urllib了

2.个体函数分析

getdata()的作用主要是拼接完整的链接、控制爬取的页数、将多部电影归纳为一个列表来储存

3.数据获取、清洗、分类、储存

dataextract()函数，目的就是从一团数据里洗出我们需要的数据

这里就需要用到re正则表达式
其实不难，就
制定规则compile()
根据规则查看字符串findall()
完事儿，数据就拿到了

sub()呢就是替换字符串方法，详细看我图片解析吧

4.获取网页响应返回的数据

header请求头绝大部分爬虫要伪装的东西，目的就是伪装自己，让服务器以为你是电脑浏览器访问的，而不是爬虫访问的

"User-Agent"可以自己去查询自己的，谷歌浏览器F12查，我的就不放出来了，查询方法看图二

5.保存数据至xls

具体操作详细也可以看看我前几期的帖子

具体代码意思我也解释上了，看图哦各位

6.调用各函数

这里可以等同于其它语言的main函数，main函数调用其它子函数

也就几行赋值调用代码，也有解释了，可以看一下?

好啦，速成版教学就到这里圆满结束了

历史上的今天

3 月

【python教程】七天爬虫速成版教程（第七天）

历史上的今天

Python进阶技巧二三事（七）：字符串、python版本控制

python中的包管理器:pip使用小结

Python进阶技巧二三事（六）：字典解包与外键

python实现椭圆检测

计算机视觉的基础概念与入门

Python 性能分析的几个方法，找到你代码中的那个她

40个IPython的使用技巧整理

12种增强Python代码的函数式编程技术

Node、Python、Go中的websocket

探索LlamaIndex：如何用Django打造高效知识库检索

加载中...

发表评论

热门搜索

历史上的今天

发表评论