当前位置:网站首页>爬虫学习整理
爬虫学习整理
2022-08-09 00:00:00 【darren2015zdc】
1 参考学习资料
(1) python
官网:https://www.python.org/
Windows可去官网下载安装包:2.7.12或3.5.2
Mac 系统自带
通过homebrew和pyenv安装并维护多个Python版本,参考链接。
Linux系统自带,或参考上面链接使用pyenv安装并维护多个Python版本
(2) HTML(Hypertext Markup Language)
教程 http://www.runoob.com/html/html-tutorial.html
(3) XML(eXtensible Markup Language)
教程 http://www.runoob.com/xml/xml-tutorial.html
pip install lxml
(4)JSON(JavaScript Object Notation)
教程 http://www.runoob.com/json/json-tutorial.html
(5)MySQL
Windows: 下载免费社区版mysql server。
https://dev.mysql.com/downloads/mysql/
客户端操作可以使用MySQLWorkbench。
https://www.mysql.com/products/workbench/
Linux(以debian为例):
apt-get install mysql-server mysql-client
登陆mysql: mysql -p hostname -u username -p,然后使用use dbname指定需要操作的数据库
安装phpmyadmin方便在浏览器操作数据库
https://www.phpmyadmin.net/
MySQL常用命令
show databases: 显示当前服务器上的数据库
create database dbname: 创建一个新数据库
use dbname: 使用指定的数据库
show tables: 显示当前数据库的所有表
desc tbname: 显示表结构
SQLite
Windows直接去下载可执行文件即可使用,http://www.sqlite.org/download.html
Linux下apt-get install sqlite3即可完成安装。
相比mysql更加轻便好用。
大数据情况下效率变差,适合单机小程序
(5)爬虫工作流程
将种子URL放入队列
从队列中获取URL,抓取内容。
解析抓取内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容
(6)抓取策略
深度优先
广度优先
PageRank
大站优先策略
(7)如何去重
Hash表
bloom过滤器
(8)Robots规范
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
详情:http://baike.so.com/doc/4854891-5072162.html
边栏推荐
猜你喜欢
C# 如何关联键盘按钮 (KeyChar/KeyCode值 KeyPress/KeyDown事件 区别)
【深度学习】TensorFlow学习之路三:梯度消失\爆炸及解决办法
gptp协议
OSPF综合实验
HCIP2--RIP实验
第四章 网络层
03 Spark on 读取内部数据分区策略(源码角度分析)
TensorFlow learning path deep learning 】 【 5: several methods to prevent a fitting and within DNN TensorFlow implementation
Ubuntu下Docker安装Redis (快速简便)
第五章 数据链路层与局域网
随机推荐
Formatting of time objects
[QNX Hypervisor 2.2用户手册]10.13 shmem - 更新中
linux环境安装mysql和使用中的常见问题
风控建模四:逻辑回归评分卡开发
第三章 数据库设计
Risk Control Modeling 1: Definition of Good and Bad Labels
穿越派·派盘 + 静读天下 = 顶级电子书阅读器
监听浏览器刷新事件
[深度学习] - 网络模型训练过程的 loss 变化分析 (loss / val_loss / test_loss)
Get the current time before/after one day's date
TensorFlow learning path deep learning 】 【 5: several methods to prevent a fitting and within DNN TensorFlow implementation
词云简单生成
并发编程第10篇,CountDownLatch(计数器)和Semaphore(信号量)
RHCSA--第二天
并发专题第一篇,多线程快速入门和简单介绍
C#WPF简述
OSPF总结作业
HCIP2--RIP实验
轮流取石头游戏
laravel框架之验证码控制器