Python Web Scrapper Project

Last update: Jan 04, 2022

Overview

Web Scrapper

Projeto desenvolvido em python, sobre tudo com Selenium, BeautifulSoup e Pandas é um web scrapper que puxa uma tabela com as principais empresas listadas na bolsa, no site fundamentus e após isso aplica uma série de filtros que são úteis no mundo dos investimentos.

Plataforma disponível:

Linux

Componentes

Esse projeto é dividido em 4 partes básicas, sendo elas:

main_scrapper.py
filter_data.py
advanced_scrapper.py
utils.py

main_scrapper

Esse código é responsável por pegar os principais dados das empresas listadas na bolsa disponíveis no site fundamentus. Esse dados são transformados em um Data Frame pandas e depois disso ele salva em um arquivo Excel, chamado output.xlsx na pasta excel tables

filter_data

Essa parte do código é responsável por aplicar alguns filtros no output gerado. Removendo empresas com baixa liquides, empresas com Mrg. Ebit negativa e empresas do ramo financeiro, como seguradoras, bancos, etc. Após isso ele ordena por Ev/Ebit. Uma vez que os dados saíram desse filtro, eles já podem ser consultados para saber quais empresas podem ser investidas , levando em consideração as 30 primeiras

(Lembrando que isso foi por meio de algumas pesquisas e eu não posso dizer que você terá lucro nisso, reforçando que a intenção aqui é mostrar o código em python e não uma maneira de ganhar dinheiro)

advanced_scrapper

Essa parte aqui é avançada não por ser código complexos, mas a meu ver foi mais chata de fazer, além de que é a parte do código que mais demora. Nele, eu pego todos os papeis das ações e faço consultas individualizadas para buscar o valor atual ação, lpa e vpa. Após isso, eu uso a fórmula de Ben Graham para calcular o valor intrínseco da empresa (Eu zero as que estiverem com LPA ou VPA negativo, pois preciso calcular uma raíz quadrada). Uma vez que o loop foi finalizado, eu vou gerar um novo data frame apenas com as informações de LPA, VPA, VAlUE e VALUATION (valor intriseco) e gero uma saída em um novo arquivo excel

Para rodar

É necessários os seguintes elementos:

Python
Pandas
Selenium
bs4
chrome driver (o ques tá presente no pacote é para versão especifica do navegador que uso, mas pode baixar a vesão compatível com seu navegador no seguinte link: Chrome Driver)

cd webscrapper
chmod +x *
./main_scrapper.py

Considerações Finais

para testar o programa por completo, pode ser que demore bastante pois o advanced scrapper consome muito tempo para buscar todas informações, caso queira ver ele rodando por completo. Sugiro que após executar o primeiro arquivo, você abra o output.xlsx e deixe apenas umas 10-20 linhas que ele executará o programa por completo mais rápido, além disso, após finalizado cada programa, ele vai automaticamente chamar o próximo do fluxo, então tem que ter um pouquinho de atenção.

Toda susgestão é bem vinda, pois é meu primeiro projeto nessa área então não entendo muito das boas práticas ou algo que possa melhorar, etc

Python Web Scrapper Project

Related tags

Overview

Web Scrapper

Componentes

main_scrapper

filter_data

advanced_scrapper

Para rodar

Considerações Finais

Owner

Jordan Ítalo Amaral

🐞 Douban Movie / Douban Book Scarpy

Proxy scraper. Format: IP | PORT | COUNTRY | TYPE

Simple python tool for the purpose of swapping latinic letters with cirilic ones and vice versa in txt, docx and pdf files in Serbian language

Parse feeds in Python

Bulk download tool for the MyMedia platform

Screenhook is a script that captures an image of a web page and send it to a discord webhook.

Scrapes Every Email Address of Every Society in Every University

A Spider for BiliBili comments with a simple API server.

Quick Project made to help scrape Lexile and Atos(AR) levels from ISBN

Github scraper app is used to scrape data for a specific user profile created using streamlit and BeautifulSoup python packages

A simple reddit scraper to get memes (only images) from r/ProgrammerHumor.

A simple python web scraper.

Haphazard scripts for scraping bitcoin/bitcoin data from GitHub

An introduction to free, automated web scraping with GitHub’s powerful new Actions framework.

Crawler job that scrapes comments from social media posts and saves them in a S3 bucket.

Scrape all the media from an OnlyFans account - Updated regularly

TikTok Username Swapper/Claimer/etc

Web scraper for Zillow

Introduction to WebScraping Workshop - Semcomp 24 Beta

Web-Scraping using Selenium Master