当前位置:网站首页>网络爬虫错误
网络爬虫错误
2022-08-10 01:34:00 【bamboogz99】
在使用urllib中的request方法时,系统返回HTTPerror,但是没有给出错误代码
重新写了一段代码,用来显示具体错误:
# 异常处理
from urllib import request,error
try:
response = urllib.request.urlopen('https://movie.douban.com/top250')
except error.HTTPError as e:
print(e.reason,e.code,e.headers,sep='\n') # 使用httperror判断这里访问的是豆瓣,结果返回错误418,查了下是反爬虫的。
处理办法:不是一次请求整个网页,而是加入header选项,只读取头部,如下:

第二个问题是,如何读取多页的信息,此时通过观察,得知douban的页面链接中包含了页码信息,用for循环配合页码即可:

边栏推荐
- 基于FTP协议实现文件上传与下载
- sql实战积累
- 基于C51的中断控制
- hint: Updates were rejected because the tip of your current branch is behind hint: its remote counte
- 力扣每日一题-第51天-744. 寻找比目标字母大的最小字母
- openpose脚部标注问题梳理
- HCIP——综合交换实验
- Problems and solutions related to Chinese character set in file operations in ABAP
- SQLserver加个判断
- 中英文互译在线翻译-在线翻译软件
猜你喜欢
随机推荐
sql实战积累
【引用计数器及学习MRC的理由 Objective-C语言】
UXDB现在支持函数索引吗?
openpose脚部标注问题梳理
web开发概述
高并发+海量数据下如何实现系统解耦?【下】
FILE结构体在stdio.h头文件源码里的详细代码
实操|风控模型中常用的这三种预测方法与多分类场景的实现
51单片机驱动HMI串口屏,串口屏的下载方式
不是吧,连公司里的卷王写代码都复制粘贴,这合理?
odoo公用变量或数组的使用
one of the variables needed for gradient computation has been modified by an inplace
彩色袜子题
罗彻斯特大学 | 现在是什么序列?蛋白质序列的贝叶斯优化的预训练集成
浏览器中location详解
C# 单例模式
Shader Graph学习各种特效案例
高压之下,必有懦夫
hopscotch game
首次在我们的centos登录我们的Mysql









![[转] Typora_Markdown_图片标题(题注)](/img/67/589eed8de86bff9fc017ae7c409410.png)