当前位置:网站首页>初学爬虫笔记(收集数据)
初学爬虫笔记(收集数据)
2022-08-04 15:25:00 【总是汗水大过天赋】
import urllib.request
def main():
#1.抓取网页(在这里面逐一解析数据)
baseurl = 'https://movie.douban.com/top250?start='
datalist = getData(baseurl)
#2.保存数据
print()
#抓取网页
def getData(baseurl):
#首先需要获取一页的数据,然后利用循环来获取每一页的信息
datalist = []
for i in range(0,10):
url = baseurl + str(i*25)
html = askURL(url)
return datalist
#请求网页
def askURL(url):
header = {
"User-Agent":"Mozilla/5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 103.0.5060.134MobileSafari / 537.36Edg / 103.0.1264.77"
}
request = urllib.request.Request(url,headers = header)
html = ""
try :
responce = urllib.request.urlopen(request)
html = responce.read().decode()
print(html)
except urllib.error.URLerror as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
if __name__ == '__main__':
main()代码只完成了收集数据的任务,还没有完善,后续会持续更新的!!!(教程来源与B站,如果有冒犯,请私信联络我删除)
‘
边栏推荐
猜你喜欢

2022年7月国产数据库大事记-墨天轮

Leetcode: 215 disorderly to find the first big k element in the array

Compound Refractive Lenses for X-ray Focusing
MySQL当前读、快照读、MVCC

技术分享| 小程序实现音视频通话

普法教育结合VR全景,直观感受和学习法治精神

Why, when you added a unique index or create duplicate data?

RTC 场景下的屏幕共享优化实践

CloudCompare&PCL 点云按网格划分(点云分幅)

Zheng Qing freshmen school competition and middle-aged engineering selection competition
随机推荐
华为云 & 达达,帮有情人“一键送达”
保证通信的机制有哪些
直播系统开发——直播间架构的设计及难点分析
7 天能找到 Go 工作吗?学学 Go 数组和指针试试
Hangzhou electric the competition team arrangement (ACM)
手搓一个“七夕限定”,用3D Engine 5分钟实现烟花绽放效果
明明加了唯一索引,为什么还是产生重复数据?
我说MySQL联合索引遵循最左前缀匹配原则,面试官让我回去等通知
AIX7.1安装Oracle11g补丁33829709(PSU+OJVM)
Cisco - Small Network Topology (DNS, DHCP, Web Server, Wireless Router)
qt 复杂界面信号槽设计
Go 言 Go 语,一文看懂 Go 语言文件操作
leetcode: 253. How many meeting rooms are required at least
16. Learn MySQL Regular Expressions
Resharper 如何把类里的类移动到其他文件
重构指标之如何监控代码圈复杂度
性能提升400倍丨外汇掉期估值计算优化案例
7 天找个 Go 工作,Gopher 要学的条件语句,循环语句 ,第3篇
Flutter 运动鞋商铺小demo
C# SolidWorks二次开发---工程图简单版标注孔信息