-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathdataframes_samples_2.py
More file actions
85 lines (57 loc) · 1.87 KB
/
dataframes_samples_2.py
File metadata and controls
85 lines (57 loc) · 1.87 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
import pandas as pd
dados = {
'alunos': ['Artur', 'Catia', 'Manu', 'Liria', 'Diego', 'Vitoria', 'Bianca'],
'notas': [10, 9.5, 10, 9, 8, 8, 8]
}
# df1 = pd.DataFrame(dados, columns=['alunos', 'notas'])
df1 = pd.DataFrame(dados, columns=dados.keys())
print(df1)
# selecao por indice
print(df1[2:]) # mostra os dados do indice 2 em diante
# selecao por indice
print(df1[0:3]) # mostra os dados do indice 0 até 2
# por posicao linha coluna
print(df1.iloc[[1]]) # mostra toda a linha 1
# por posicao linha coluna
print(df1.iloc[[1], [0]]) # mostra toda a linha 1 coluna 0 pegano o nome da catia
print(df1.iloc[[0], [0]]) # mostra o meu nome que esta na linha 0 coluna 0 pegano o nome da catia
# por nome da coluna ou indice
print(df1.loc[[2]], ['alunos']) # vai petar a Manu
# filtro
print(df1[df1['notas'] > 8])
# obter informacoes sobre o dataset
print(df1.shape) # numero de linhas e colunas
# obter as colunas
print(df1.columns)
# nos da informacoes do dataframe
print(df1.info)
# nos idica se temos valores nulos
print(df1.count())
# soma de todos os valores
print(df1.sum())
# obtem o menor valor
print(df1.min())
# obtem o maior valor
print(df1.max(skipna=True))
# dessa forma posso pega max min avg etc de uma coluna especifica
print(df1['notas'].max())
# obtem a media
# print(df1.mean(skipna=True))
# obtem a media
# print(df1.median())
# resume com estatisticas basicas
print(df1.describe())
# aplicando funcoes
multiplica_por_dois = lambda x: x * 2
print(df1['notas'].apply(multiplica_por_dois))
print(df1['notas'] + 8)
dados = {'mes': ['janeiro', 'fevereiro', 'Março', 'Abril'],
'ingressos': [21500, 17500, 25000, 34800],
'gastos': [1700, 14800, 19200, 21500]}
df2 = pd.DataFrame(dados)
print(df2)
# exercicios com funcao
def add_beneficios(df):
df['beneficios'] = df['ingressos'] - df['gastos']
return df
print(add_beneficios(df2))