当前位置:网站首页>【爬虫】Web Scraper正则表达式
【爬虫】Web Scraper正则表达式
2022-08-08 06:27:00 【Jouzzy】
Web Scraper正则表达式
正则可视化网址:
https://jex.im/regulex/
正则测试网址:
https://jex.im/regulex/
unicode编码:
https://tools.fun/unicode.html
截取特定字符串后的内容:
例如,原文是下载:5000万+
,想截取为5000万+
使用的regex是:[^\u4E0B\u8F7D\:]+
体现在导出的json中是:[^\\u4E0B\\u8F7D\\:]+
原理是:

截取字符串中间-案例1
例如,原文是Download XAPK(2.0 GB)
,想截取为XAPK
使用的regex是:[^Download (]+
截取字符串中间-案例2
例如,原文是Download XAPK(2.0 GB)
,想截取为2.0 GB
使用的regex是:[0-9][\S\s]*[^\)]
正则表达式基础
\s空白符,\S非空白符
边栏推荐
- 背包问题小结
- 计算机网络 | 03.[HTTP篇] HTTP缓存技术
- How to get all child objects under an object in Unity
- [Unity] 状态机事件流程框架 (一)(C#事件系统,Trigger与Action)
- 【图形学】09 UnityShader入门(一)
- Next主题美化
- 三元表达式,各种生成式,匿名函数相关知识点
- ExecutionEngineException: String conversion error: Illegal byte sequence encounted in the input.
- Unity3D物体上下左右旋转(不受物体自身坐标轴影响)
- Unity_对象池
猜你喜欢
[Unity] C#使用委托事件与字典实现unity消息中心(观察者模式)
模块知识点补充
在ENSP中配置DHCP服务器
acwing 63rd weekly match【2022.08.06】
Unity object color gradient effect (judgment logic implementation)
在字符串中查找子字符串
Unity_扇形图(饼状图)+ UI动画
golang 服务大量 CLOSE_WAIT 故障排查
状态机控制移位寄存器multisim仿真过程中出现的状态变量和状态转移条件不匹配的问题
File IO realizes the encryption operation of pictures
随机推荐
Problems when signed and unsigned numbers are involved in operations
The state machine control shift register multisim simulation in the process of state variables and state transition conditions don't match
网络安全笔记第二天day2(等级保护)
二分查找一个数首次与最后出现的位置
TCP和UDP协议,socket套接字,半连接池,粘包问题的处理措施
golang 服务大量 CLOSE_WAIT 故障排查
[Unity] GPU动画实现(四)——生成动画数据
Makefile文件的编写(实例详解)
正则表达式入门要点知识总结
NVIDIA CUDA 高度并行处理器编程(八):并行模式:直方图计算
golang 服务诡异499、504网络故障排查
Unity中获取一个物体下所有的子物体的方法
类与对象之动静态方法,继承,名字的查找顺序,经典类和新式类,派生方法
C语言实现冒泡排序及对冒泡排序的优化处理
诡异的druid链接池链接断开故障经验总结
霍夫曼树(赫夫曼树、哈夫曼树)
tcpdump进行ARP抓包
Unity 本地 IIS 服务搭建之文件夹权限配置
Unity HDRP中代码动态修改天空盒以及其他环境参数
状态机控制移位寄存器multisim仿真过程中出现的状态变量和状态转移条件不匹配的问题