Lembra daquele trabalho que a gente fazia para promover a transformação e a higienização de dados no Excel? Não tínhamos problema em trabalhar dessa forma enquanto o volume de dados era pequeno. Porém na era do Big Data planilhar e analisar os dados no excel virou um problema. O pacote Pandas surgiu para resolver esse problema.
A biblioteca Pandas nos permite fazer análises exploratórias em conjunto de dados. Ela dá ao Python, a capacidade de trabalhar com dados tipo planilha, permitindo carregar, manipular e combinar dados.
A ideia aqui é apresentar um trabalho prático, de modo a assimilar conhecimento sobre o Pandas, sendo necessário apenas conhecimento básico das estruturas de dados do Python.
1 - Vamos criar um arquivo pandas.csv
2- importar o pacote pandas
#importando a biblioteca pandas
import pandas as pd
3- Carregar o Dataset sob o qual faremos a análise exploratória. No pandas, um dataset é conhecido como Dataframe.
#Carregando o dataset retirando linhas com problema e
#utilizando como separador ponto e vírgula
df = pd.read_csv("Gapminder.csv",error_bad_lines=False, sep=';')
3- Visualizando os dados
#visualizando as 5 primeiras linhas
df.head(10) # ao passar um valor inteiro, você determina a quantidade
de linhas retornadas
5- Renomeando colunas
#Renomeando colunas
df.rename(columns=
{"country":"País","continent":"Continente","year":"Ano",
"lifeExp":"Expectativa de vida","pop":"População","gdpPercap":"PIB"})
6- Retornando o número de linhas e colunas
#retornando o número de linhas e colunas
df.shape
(3312, 6)
7- Retornando o nome das colunas
#Retornando o nome das colunas
df.columns
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')
8- Retornando o nome das colunas
#retornando os tipos de dados das colunas
df.dtypes
country object
continent object
year int64
lifeExp float64
pop int64
gdpPercap float64
dtype: object
9- Retornando as últimas linhas
#retornando as últimas linhas
df.tail()
10- Retornando dados estatísticos
#Retornando dados estatísticos
df.describe()
11 - Pegando valores únicos na Coluna (Distinct)
# pegando valores únicos na coluna Continent
df['continent'].unique()
array(['Asia', 'Europe', 'Africa', 'Americas', nan, 'FSU', 'Oceania'],
dtype=object)
12 - Filtrando dados (where)
#filtrando dados
Oceania = df.loc[df["continent"] == "Oceania"]
Oceania.head()
13 - Pegando a média de um campo
#média da expectativa de vida
df.groupby("year")["lifeExp"].mean()
14 - Agrupando dados (paises por continente count())
#agrupando dados por continente
df.groupby("continent")["country"].nunique()
15 - Soma e Média dos valores de um campo.
#Soma dos valores de um campo
df["gdpPercap"].sum()
#Média de valores de um campo
df["gdpPercap"].mean()
Neste exemplo, trabalhamos com arquivos .csv, mas é possível também trabalhar com planilhas Excel, dados provenientes de bancos de dados, entre outros.
Até a próxima!
Nenhum comentário:
Postar um comentário