当前位置：网站首页>magical_spider远程采集方案

magical_spider远程采集方案

2022-08-11 07:47:00 【考古学家lx(李玺)】

magical_spider

一个神奇的蜘蛛项目，源码架构很简单，适用于数据采集任务。

在这里插入图片描述

index页面示例：

在这里插入图片描述

项目地址

https://github.com/lixi5338619/magical_spider

使用说明

1、配置settings.py，启动 flask 服务

2、测试代码参考demo文件内容,运行过程主要借助runflow.py。

import requests

host = 'http://127.0.0.1:5000'

def magical_start(project_name,base_url = 'http://www.lxspider.com'):
    # 1、create browser and select session_id
    result = requests.post(f'{
      host}/create',data={
    'name':project_name,'url':base_url}).json()
    session_id,process_url = result['session_id'],result['process_url']
    return session_id,process_url


def magical_request(session_id,process_url,request_url):
    # 2、request browser_xhr
    data = {
    'session_id':session_id,'process_url':process_url,
            'request_url':request_url,'request_type':'get'}
    result = requests.post(f'{
      host}/xhr',data=data).json()
    return result['result']


def magical_close(session_id,process_url,process_name):
    # 4、close browser
    close_data = {
    'session_id':session_id,'process_url':process_url,'process_name':process_name}
    requests.post(f'{
      host}/close',data=close_data).json()

3、测试代码

GET请求

from demo.runflow import magical_start,magical_request,magical_close

project_name = 'cnipa'
base_url = 'https://www.cnipa.gov.cn'

session_id,process_url = magical_start(project_name,base_url)

print(len(magical_request(session_id, process_url,'https://www.cnipa.gov.cn/col/col57/index.html')))

magical_close(session_id,process_url,project_name)

POST请求

from demo.runflow import magical_start,magical_request,magical_close
import json

project_name = 'chinadrugtrials'
base_url = 'http://www.chinadrugtrials.org.cn'

session_id,process_url = magical_start(project_name,base_url)

data = {
    "id": "","ckm_index": "","sort": "desc","sort2": "","rule": "CTR","secondLevel": "0","currentpage": "2","keywords": "","reg_no": "","indication": "","case_no": "","drugs_name": "","drugs_type": "","appliers": "","communities": "","researchers": "","agencies": "","state": ""}
formdata = json.dumps(data)

print(magical_request(session_id=session_id, process_url=process_url,
                      request_url='http://www.chinadrugtrials.org.cn/clinicaltrials.searchlist.dhtml',
                      request_type='post',formdata=formdata
                      ))

magical_close(session_id,process_url,project_name)