quinta-feira, 19 de agosto de 2021

Análise de dados na prática com o Pandas

 Lembra daquele trabalho que a gente fazia para promover a transformação e a higienização de dados no Excel?  Não tínhamos problema em trabalhar dessa forma enquanto o volume de dados era pequeno. Porém na era do Big Data planilhar e analisar os dados no excel virou um problema. O pacote Pandas surgiu para resolver esse problema. 

A biblioteca Pandas nos permite fazer análises exploratórias em conjunto de dados. Ela dá ao Python, a capacidade de trabalhar com dados tipo planilha, permitindo carregar, manipular e combinar dados.

A ideia aqui é apresentar um trabalho prático, de modo a assimilar conhecimento sobre o Pandas, sendo necessário apenas conhecimento básico das estruturas de dados do Python.

1 - Vamos criar um arquivo pandas.csv

2- importar o pacote pandas

#importando a biblioteca pandas
import pandas as pd

3- Carregar o Dataset sob o qual faremos a análise exploratória. No pandas, um dataset é conhecido como Dataframe.

#Carregando o dataset retirando linhas com problema e 
#utilizando como separador ponto e vírgula
df = pd.read_csv("Gapminder.csv",error_bad_lines=False, sep=';')

3- Visualizando os dados
#visualizando as 5 primeiras linhas
df.head(10) # ao passar um valor inteiro, você determina a quantidade
de linhas retornadas


















5- Renomeando colunas

#Renomeando colunas
df.rename(columns=
{"country":"País","continent":"Continente","year":"Ano",
"lifeExp":"Expectativa de vida","pop":"População","gdpPercap":"PIB"})

6- Retornando o número de linhas e colunas
#retornando o número de linhas e colunas
df.shape
(3312, 6)

7- Retornando o nome das colunas

#Retornando o nome das colunas 
df.columns
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

8- Retornando o nome das colunas
#retornando os tipos de dados das colunas
df.dtypes

country object continent object year int64 lifeExp float64 pop int64 gdpPercap float64 dtype: object

9- Retornando as últimas linhas
#retornando as últimas linhas
df.tail()












10- Retornando dados estatísticos

#Retornando dados estatísticos
df.describe()

















11 - Pegando valores únicos na Coluna (Distinct)
# pegando valores únicos na coluna Continent
df['continent'].unique()

array(['Asia', 'Europe', 'Africa', 'Americas', nan, 'FSU', 'Oceania'], dtype=object)

12 - Filtrando dados (where)
#filtrando dados
Oceania = df.loc[df["continent"] == "Oceania"]
Oceania.head()












13 - Pegando a média de um campo
#média da expectativa de vida
df.groupby("year")["lifeExp"].mean()

14 - Agrupando dados (paises por continente count())
#agrupando dados por continente
df.groupby("continent")["country"].nunique()

15 - Soma e Média dos valores de um campo.

#Soma dos valores de um campo
df["gdpPercap"].sum()

#Média de valores de um campo
df["gdpPercap"].mean()

Neste exemplo, trabalhamos com arquivos .csv, mas é possível também trabalhar com planilhas Excel, dados provenientes de bancos de dados, entre outros.

Até a próxima!

Nenhum comentário: