Error in user YAML: (<unknown>): found a tab character that violate indentation while scanning a plain scalar at line 3 column 3

---
- oeasy Python 0521
- 这是 oeasy 系统化 Python 教程，从基础一步步讲，扎实、完整、不跳步。愿意花时间学，就能真正学会。
- 本教程同步发布在： 
	- 个人网站： `https://oeasy.org` 
	- 蓝桥云课： `https://www.lanqiao.cn/courses/3584` 
	- GitHub： `https://github.com/overmind1980/oeasy-python-tutorial` 
	- Gitee： `https://gitee.com/overmind1980/oeasypython` 
---

导入 request 包

新的开始

我们安装并启动了
- nginx 服务器
- 了解了状态码

状态码	状态
200	Ok
304	Not modified
404	Not found

使用浏览器访问服务器上的网页

中文	英文	发送方	接收方
请求	request	浏览器	服务器
响应	response	服务器	浏览器

爬虫到底怎么用 呢？🤣

过程

浏览的过程是
- 在客户机上浏览器
  - 发请求 request
- 服务器接收请求
  - 返回响应 response
- 浏览器收到 response 并渲染成页面

爬虫就假装自己是一个浏览器
- 用代码发请求
- 反正都是 0101 的字节流
那我应该如何假装自己是个浏览器呢？

询问

问问ai

ai 说先要导入 requests

导入包

import requests
requests
help(requests)

导入模块

查看帮助

就照这个帮助来！

尝试重现

我们来试试
- 照猫画虎

照猫画虎

import requests
requests.get("http://localhost/")

出现错误

怎么办？

分析原因

就像之前浏览器无法访问一样

因为web服务没开
- 爬虫就像浏览器一样无法访问

开启服务

ctrl+d 退出游乐场

sudo service nginx start
sudo service nginx status

开启 web服务

再进游乐场

import requests
requests.get("http://localhost/")

可以得到响应(response)了

响应(response)里面到底有什么呢？

查看响应

import requests
r = requests.get("http://localhost/")

将返回结果赋给 r

r 是什么 类型 呢？

Response 响应

r
type(r)

Response 对象
- 包括了一个 http 请求的返回结果
- requests.models.Response

具体怎么用呢？

只读对象

对着r喊救命

help(r)

r 里面有很多属性
- content 就是可以读出来的内容
- 形式是字节序列 bytes

content

r.content
type(r.content)

得到响应内容
- 形式是字节序列

如果我们
- 只想要纯文本
- 怎么办呢？

文本

help(r)

继续查找帮助

找到 text属性

text

r.text
type(r.text)

来看看 r.text

r.content 和 r.text
- 有啥区别？

对比

属性	类型
content	字节序列
text	字符串序列

那这 bytes 和str之间
- 可以相互转化么？

解码decode

s = r.content.decode()
print(s)

字节序列
- 解码 decode 之后
  - 得到字符串

编码

b = r.text.encode()
print(b)

字符串
- 编码 encode 之后
  - 得到字节序列

进一步明确

print(b_html.decode()==s_html)
print(s_html.encode()==b_html)

字节序列和字符串的转化
- 就是字符串的编码和解码

编码和解码
- 互为逆方法
可以查到requests这个包的帮助吗？

提问

请求 requests

http://cn.python-requests.org/zh_CN/latest/

为什么requests没有安装就能使用呢？

下载包

如果本地没有的话
- 要先下载

安装方法

pip3 install requests

总结

我们导入了 requests 模块
- requests 帮我们发请求
  - 状态码 200

这样我们就可以
- 假装自己是一个浏览器
- 完成了 http get 的过程
  - 发出了 request
  - 得到了 response

属性	类型
content	字节序列
text	字符串序列

如何找到网页中具体的内容呢？🤔
下次再说

本文来自 oeasy Python 系统教程。
想完整、扎实学 Python，
搜索 oeasy 即可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

导入 request 包

新的开始

过程

询问

导入包

尝试重现

照猫画虎

分析原因

开启服务

再进游乐场

查看响应

Response 响应

只读对象

content

文本

text

对比

解码decode

编码

进一步明确

提问

请求 requests

下载包

安装方法

总结

FilesExpand file tree

0521.md

Latest commit

History

0521.md

File metadata and controls

导入 request 包

新的开始

过程

询问

导入包

尝试重现

照猫画虎

分析原因

开启服务

再进 游乐场

查看响应

Response 响应

只读对象

content

文本

text

对比

解码decode

编码

进一步明确

提问

请求 requests

下载包

安装方法

总结

再进游乐场