Arquivo de etiquetas: tabela

Como copiar tabelas de Websites para o Pandas

Olá,

num projecto recente de previsão de séries temporais fui dirigido para um determinado tema que, de uma forma muito simples, pode “copiar” tabelas de Websites para o Python (Pandas).

Já havia trabalhado com Pandas e SQL, ou CSV, mas conseguir dados de html só mesmo com algo mais profundo na área de Web Scraping…

Para o caso aqui é muito mais simples, basta utilizar a função read_html() .

Esta função consegue ler tudo que seja <table> em html e importar para o Pandas.

Para teste poderemos utilizar a página “https://en.wikipedia.org/wiki/Python_(programming_language)“.

Script Python:

import pandas as pd
url = ‘_https://en.wikipedia.org/wiki/Python_(programming_language)’

pd.read_html(url)

Com isto, o Pandas importa todas as tabelas que encontrar na página html, separando-as por vírgula. De seguida, deveremos concentrar o pedido na tabela desejada, invocando a sua posição no vector, neste caso quero a segunda tabela (os índices começam em zero).

python_types = pd.read_html(url)[1]
python_types

Por fim, se der jeito, poderemos exportar esta tabela para Excel:

python_types.to_excel(r’python_types.xlsx’, sheet_name=’python_types’, index=False)

Este foi apenas um caso simples para utilização desta função do Pandas. Claro que pode ser muito mais útil e complexo se pretendermos agora juntar duas ou mais tabelas antes de exportar para Excel.

Espero que vos seja útil,

JG