4 Mon

TIL

[인프런] 단 두 장의 문서로 데이터 분석과 시각화 뽀개기

df.sort_values, rename, sort_index, reset_index로 데이터 프레임 Reshaping 하기 - Reshaping Data

import pandas as pd
import numpy as np
import seaborn as sns # 시각화 툴

df = sns.load_dataset("mpg")
df.shape

(398, 9)

df.head()

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

origin

name

18.0

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

15.0

350.0

165.0

3693

11.5

usa

buick skylark 320

18.0

318.0

150.0

3436

11.0

usa

plymouth satellite

16.0

304.0

150.0

3433

12.0

usa

amc rebel sst

17.0

302.0

140.0

3449

10.5

usa

ford torino

df.sort_values('mpg')
Order rows by values of a column (low to high).
df.sort_values('mpg',ascending=False)
Order rows by values of a column (high to low).

df.sort_values('mpg').head()

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

origin

name

9.0

304.0

193.0

4732

18.5

usa

hi 1200d

10.0

360.0

215.0

4615

14.0

usa

ford f250

10.0

307.0

200.0

4376

15.0

usa

chevy c20

103

11.0

400.0

150.0

4997

14.0

usa

chevrolet impala

124

11.0

350.0

180.0

3664

11.0

usa

oldsmobile omega

df.sort_values('mpg', ascending=False).head()
# default는 True이다

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

origin

name

322

46.6

86.0

65.0

2110

17.9

japan

mazda glc

329

44.6

91.0

67.0

1850

13.8

japan

honda civic 1500 gl

325

44.3

90.0

48.0

2085

21.7

europe

vw rabbit c (diesel)

394

44.0

97.0

52.0

2130

24.6

europe

vw pickup

326

43.4

90.0

48.0

2335

23.7

europe

vw dasher (diesel)

df.sort_values?

df.rename(columns = {'y':'year'})
Rename the columns of a DataFrame

df = df.rename(columns = {'model_year' : 'year'})
df.head()

mpg

cylinders

displacement

horsepower

weight

acceleration

year

origin

name

18.0

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

15.0

350.0

165.0

3693

11.5

usa

buick skylark 320

18.0

318.0

150.0

3436

11.0

usa

plymouth satellite

16.0

304.0

150.0

3433

12.0

usa

amc rebel sst

17.0

302.0

140.0

3449

10.5

usa

ford torino

df.sort_index()
Sort the index of a DataFrame
df.reset_index()
Reset index of DataFrame to row numbers, moving
index to columns

df.sort_index().head(10)

mpg

cylinders

displacement

horsepower

weight

acceleration

year

origin

name

18.0

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

15.0

350.0

165.0

3693

11.5

usa

buick skylark 320

18.0

318.0

150.0

3436

11.0

usa

plymouth satellite

16.0

304.0

150.0

3433

12.0

usa

amc rebel sst

17.0

302.0

140.0

3449

10.5

usa

ford torino

15.0

429.0

198.0

4341

10.0

usa

ford galaxie 500

14.0

454.0

220.0

4354

9.0

usa

chevrolet impala

14.0

440.0

215.0

4312

8.5

usa

plymouth fury iii

14.0

455.0

225.0

4425

10.0

usa

pontiac catalina

15.0

390.0

190.0

3850

8.5

usa

amc ambassador dpl

df.reset_index().head(10)
# index가 없을 때 index를 새로 생성

index

mpg

cylinders

displacement

horsepower

weight

acceleration

year

origin

name

18.0

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

15.0

350.0

165.0

3693

11.5

usa

buick skylark 320

18.0

318.0

150.0

3436

11.0

usa

plymouth satellite

16.0

304.0

150.0

3433

12.0

usa

amc rebel sst

17.0

302.0

140.0

3449

10.5

usa

ford torino

15.0

429.0

198.0

4341

10.0

usa

ford galaxie 500

14.0

454.0

220.0

4354

9.0

usa

chevrolet impala

14.0

440.0

215.0

4312

8.5

usa

plymouth fury iii

14.0

455.0

225.0

4425

10.0

usa

pontiac catalina

15.0

390.0

190.0

3850

8.5

usa

amc ambassador dpl

df.drop(columns=['Length','Height'])
Drop columns from DataFrame

df.drop(columns=['mpg','year']).head(10)

cylinders

displacement

horsepower

weight

acceleration

origin

name

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

350.0

165.0

3693

11.5

usa

buick skylark 320

318.0

150.0

3436

11.0

usa

plymouth satellite

304.0

150.0

3433

12.0

usa

amc rebel sst

302.0

140.0

3449

10.5

usa

ford torino

429.0

198.0

4341

10.0

usa

ford galaxie 500

454.0

220.0

4354

9.0

usa

chevrolet impala

440.0

215.0

4312

8.5

usa

plymouth fury iii

455.0

225.0

4425

10.0

usa

pontiac catalina

390.0

190.0

3850

8.5

usa

amc ambassador dpl

df.drop(columns=['mpg','year', 'name']).head(10)

cylinders

displacement

horsepower

weight

acceleration

origin

307.0

130.0

3504

12.0

usa

350.0

165.0

3693

11.5

usa

318.0

150.0

3436

11.0

usa

304.0

150.0

3433

12.0

usa

302.0

140.0

3449

10.5

usa

429.0

198.0

4341

10.0

usa

454.0

220.0

4354

9.0

usa

440.0

215.0

4312

8.5

usa

455.0

225.0

4425

10.0

usa

390.0

190.0

3850

8.5

usa

melt, pivot 으로 Tidy Data 만들기 - Reshaping Data, Method Chaining

pd.melt(df)
Gather columns into rows.

pd.melt?

df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
...                    'B': {0: 1, 1: 3, 2: 5},
...                    'C': {0: 2, 1: 4, 2: 6}})
df

pd.melt(df, id_vars=['A'], value_vars=['B'])

variable

value

pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

variable

value

pd.melt(df, value_vars=['A','B','C'])

variable

value

pd.melt(df, value_vars=['A','B','C']).rename(columns={
'variable' : 'var',
'value' : 'val'})

var

val

df.pivot(columns='var', values='val')
Spread rows into columns.

df.pivot?

df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
...                            'two'],
...                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
...                    'baz': [1, 2, 3, 4, 5, 6],
...                    'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df

foo

bar

baz

zoo

one

two

df2 = df.pivot(index='foo', columns='bar', values='baz')
# row에 있던 값들이 column으로 이동
df2

bar

foo

one

two

df3 = df.pivot(index='foo', columns='bar', values='baz').reset_index()
df3

bar

foo

one

two

df3.melt(id_vars=['foo'], value_vars=['A','B','C'])

foo

bar

value

one

two

one

two

one

two

df3.melt(id_vars=['foo'], value_vars=['A','B','C']).sort_values('bar')

foo

bar

value

one

two

one

two

one

two

df3.melt(id_vars=['foo'], value_vars=['A','B','C']).sort_values(['foo', 'bar'])

foo

bar

value

one

two

df3.melt(id_vars=['foo'], value_vars=['A','B','C']).sort_values(['foo', 'bar']).rename(columns = {'value': 'baz'})

foo

bar

baz

one

two

pd.concat([df1,df2]) 시리즈, 데이터프레임 합치기 - Reshaping Data

pd.concat([df1,df2])
Append rows of DataFrames
pd.concat([df1,df2], axis=1)
Append columns of DataFrames

pd.concat?

s1 = pd.Series(['a', 'b'])
s1

0    a
1    b
dtype: object

s2 = pd.Series(['c', 'd'])
s2

0    c
1    d
dtype: object

pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

pd.concat([s1, s2], keys=['s1', 's2'])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

pd.concat([s1, s2], keys=['s1', 's2'],
...           names=['Series name', 'Row ID'])

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

df1 = pd.DataFrame([['a', 1], ['b', 2]],
...                    columns=['letter', 'number'])
df1

letter

number

df2 = pd.DataFrame([['c', 3], ['d', 4]],
...                    columns=['letter', 'number'])
df2

letter

number

pd.concat([df1, df2])

letter

number

df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']],
...                    columns=['letter', 'number', 'animal'])
df3

letter

number

animal

cat

dog

# 형태가 다른 두개의 데이터 프레임 합치기
pd.concat([df1, df3])

letter

number

animal

NaN

cat

dog

pd.concat([df1, df3], join="inner")

letter

number

df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']],
...                    columns=['animal', 'name'])
df4

animal

name

bird

polly

monkey

george

df5 = pd.DataFrame([1], index=['a'])
df5

df6 = pd.DataFrame([2], index=['a'])
df6

pd.concat([df5, df6])

pd.concat([df5, df6], verify_integrity=True)
# 오류 발생 : ValueError

merge로 데이터프레임 합치기 left, right, inner, outer 옵션 사용하기 - Combine Data Sets

import pandas as pd

adf = pd.DataFrame({"x1" : ["A", "B", "C"], "x2" : [1, 2, 3]})
adf

bdf = pd.DataFrame({"x1" : ["A", "B", "D"], "x3" : ["T", "F", "T"]})
bdf

pd.merge(adf, bdf,
how='left', on='x1')
Join matching rows from bdf to adf.
pd.merge(adf, bdf,
how='right', on='x1')
Join matching rows from adf to bdf.
pd.merge(adf, bdf,
how='inner', on='x1')
Join data. Retain only rows in both sets.
pd.merge(adf, bdf,
how='outer', on='x1')
Join data. Retain all values, all rows.

pd.merge(adf, bdf, how='left', on='x1')

NaN

pd.merge(adf, bdf, how='right', on='x1')

1.0

2.0

NaN

pd.merge(adf, bdf, how='inner', on='x1')

pd.merge(adf, bdf, how='outer', on='x1')

1.0

2.0

3.0

NaN

adf[adf.x1.isin(bdf.x1)]
All rows in adf that have a match in bdf.

adf[~adf.x1.isin(bdf.x1)]
All rows in adf that do not have a match in bdf.

adf.x1.isin(bdf.x1)

0     True
1     True
2    False
Name: x1, dtype: bool

adf[adf.x1.isin(bdf.x1)]

adf[~adf.x1.isin(bdf.x1)]

pd.merge(ydf, zdf)
Rows that appear in both ydf and zdf
(Intersection).

pd.merge(ydf, zdf, how='outer')
Rows that appear in either or both ydf and zdf
(Union).

pd.merge(ydf, zdf, how='outer',
indicator=True)
.query('_merge == "left_only"')
.drop(columns=['_merge'])
Rows that appear in ydf but not zdf (Setdiff).

ydf = pd.DataFrame({"x1" : ["A", "B", "C"], "x2" : [1, 2, 3]})
ydf

zdf = pd.DataFrame({"x1" : ["B", "C", "D"], "x2" : [2, 3, 4]})
zdf

pd.merge(ydf, zdf)
# default : inner join

pd.merge(ydf, zdf, how='outer')

pd.merge(ydf, zdf, how='outer', indicator=True)

_merge

left_only

both

right_only

pd.merge(ydf, zdf, how='outer', indicator=True).query('_merge == "left_only"')

_merge

left_only

pd.merge(ydf, zdf, how='outer',indicator=True).query('_merge == "left_only"').drop(columns=['_merge'])

concat은 위아래로 합칠 때, mergs는 좌우로 합칠 때 사용하면 좋다

파이썬 판다스로 groupby 활용하여 다양한 데이터 집계를 활용하기 - Group Data

import pandas as pd
import seaborn as sns

df.groupby(by="col")
Return a GroupBy object,
grouped by values in column
named "col".

df.groupby(level="ind")
Return a GroupBy object,
grouped by values in index
level named "ind".

size()
Size of each group.

agg(function)
Aggregate group using function.

df = sns.load_dataset("mpg")
df.head()

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

origin

name

18.0

307.0

130.0

3504

12.0

usa

chevrolet chevelle malibu

15.0

350.0

165.0

3693

11.5

usa

buick skylark 320

18.0

318.0

150.0

3436

11.0

usa

plymouth satellite

16.0

304.0

150.0

3433

12.0

usa

amc rebel sst

17.0

302.0

140.0

3449

10.5

usa

ford torino

df.groupby(by="origin")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017AD720BE88>

df.groupby(by="origin").size()

origin
europe     70
japan      79
usa       249
dtype: int64

df['origin'].value_counts()

usa       249
japan      79
europe     70
Name: origin, dtype: int64

df.groupby(by="origin").max()

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

name

origin

europe

44.3

183.0

133.0

3820

24.8

vw rabbit custom

japan

46.6

168.0

132.0

2930

21.0

toyouta corona mark ii (sw)

usa

39.0

455.0

230.0

5140

22.2

pontiac ventura sj

df.groupby(by="origin").min()

mpg

cylinders

displacement

horsepower

weight

acceleration

model_year

name

origin

europe

16.2

68.0

46.0

1825

12.2

audi 100 ls

japan

18.0

70.0

52.0

1613

11.4

datsun 1200

usa

9.0

85.0

52.0

1800

8.0

amc ambassador brougham

df.groupby(by="origin")['weight'].mean()

origin
europe    2423.300000
japan     2221.227848
usa       3361.931727
Name: weight, dtype: float64

df.groupby(by="origin")['weight'].median()

origin
europe    2240
japan     2155
usa       3365
Name: weight, dtype: int64

df.groupby?

df.groupby(['origin', 'model_year'])['cylinders'].mean()

origin  model_year
europe  70            4.000000
        71            4.000000
        72            4.000000
        73            4.000000
        74            4.000000
        75            4.000000
        76            4.250000
        77            4.000000
        78            4.833333
        79            4.250000
        80            4.111111
        81            4.500000
        82            4.000000
japan   70            4.000000
        71            4.000000
        72            3.800000
        73            4.250000
        74            4.000000
        75            4.000000
        76            4.500000
        77            4.166667
        78            4.000000
        79            4.000000
        80            4.076923
        81            4.333333
        82            4.000000
usa     70            7.636364
        71            6.200000
        72            6.888889
        73            7.241379
        74            6.266667
        75            6.400000
        76            6.363636
        77            6.222222
        78            6.000000
        79            6.260870
        80            4.285714
        81            4.923077
        82            4.300000
Name: cylinders, dtype: float64

pd.DataFrame(df.groupby(['origin', 'model_year'])['cylinders'].mean())

cylinders

origin

model_year

europe

4.000000

4.250000

4.000000

4.833333

4.250000

4.111111

4.500000

4.000000

japan

4.000000

3.800000

4.250000

4.000000

4.500000

4.166667

4.000000

4.076923

4.333333

4.000000

usa

7.636364

6.200000

6.888889

7.241379

6.266667

6.400000

6.363636

6.222222

6.000000

6.260870

4.285714

4.923077

4.300000

df.pivot_table?

Signature:
df.pivot_table(
    values=None,
    index=None,
    columns=None,
    aggfunc='mean',
    fill_value=None,
    margins=False,
    dropna=True,
    margins_name='All',
    observed=False,
) -> 'DataFrame'

df2 = pd.DataFrame(
[[4, 7, 10],
[5, 8, 11],
[6, 9, 12]],
index=[1, 2, 3],
columns=['a', 'b', 'c'])
df2

df2.shift(1)

NaN

4.0

7.0

10.0

5.0

8.0

11.0

df2.shift(-1)

5.0

8.0

11.0

6.0

9.0

12.0

NaN

df2['a'].shift(2)

1    NaN
2    NaN
3    4.0
Name: a, dtype: float64

df2['b'].shift(-1)

1    8.0
2    9.0
3    NaN
Name: b, dtype: float64

df2['b'] = df2['b'].shift(-1)
df2

9.0

NaN

df['model_year']

0      70
1      70
2      70
3      70
4      70
       ..
393    82
394    82
395    82
396    82
397    82
Name: model_year, Length: 398, dtype: int64

df['model_year'].rank(method='max')
# 해당 값이 큰 순으로 몇번째 순서인지

0       29.0
1       29.0
2       29.0
3       29.0
4       29.0
       ...  
393    398.0
394    398.0
395    398.0
396    398.0
397    398.0
Name: model_year, Length: 398, dtype: float64

df['model_year'].rank(method='min')
# 해당 값이 작은 순으로 몇번째 순서인지

0        1.0
1        1.0
2        1.0
3        1.0
4        1.0
       ...  
393    368.0
394    368.0
395    368.0
396    368.0
397    368.0
Name: model_year, Length: 398, dtype: float64

df['model_year'].rank(method='min').value_counts()

86.0     40
245.0    36
183.0    34
368.0    31
153.0    30
339.0    29
281.0    29
310.0    29
1.0      29
217.0    28
58.0     28
30.0     28
126.0    27
Name: model_year, dtype: int64

df['model_year'].rank(pct=True).head()
# pct는 percentage를 의미

0    0.037688
1    0.037688
2    0.037688
3    0.037688
4    0.037688
Name: model_year, dtype: float64

df['model_year'].rank(method='first').head()
# 먼저 등장하는 순위

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
Name: model_year, dtype: float64

df.rank?

df2

9.0

NaN

df2.cumsum()
# 누적 값 구하기

9.0

NaN

df2['b'] = [9.0, 13.0, 11.5]
df2.cummax()
# df[b,3]의 값이 13보다 작은 11.5이므로 그대로 유지되는 모습

9.0

13.0

df2.cummin()

9.0

df2.cumprod()
# 누적곱

9.0

117.0

110

120

1345.5

1320

마크다운 수식입력

이번주차 강의가 수식을 입력할 일이 많아 아래 사이트를 소개한다. (물론 나에게)

[프로그래머스 AI 스쿨 1기] 5주차 DAY 1

Machine Learning 기초 - 소개

머신러닝이란?

기계학습. 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구.
학습데이터 : 입력벡터들과 목표값들
머신러닝 알고리즘의 결과는 목표값을 예측하는 함수
숫자 인식에서 입력벡터는 손글씨 이미지, 목표값은 0부터 9까지 숫자중 예측값. 정확히는 10개의 클래스 중 한 클래스(이 때 클래스 넘버는 1부터 시작함)

핵심개념s

학습단계: 함수 y(x)를 학습데이터에 기반해 결정하는 단계
시험셋 : 모델을 평가하기 위해 사용하는 새로운 데이터
일반화 : 모델에서 학습에 사용된 데이터가 아닌 이전에 접하지 못한 로운 데이터에 대해 올바른 예측을 수행하는 역량
지도학습 : 분류와 회귀
비지도학습 : 군집

다항식 곡선 근사

Polynomial Curve Fitting
회귀 문제에 해당한다.
점들을 지나는(지나지 못하더라도 최대한 가깝게) 함수 구하기
학습데이터 : 입력벡터와 목표값
목표 : 새로운 입력벡터가 주어질 때 목표값을 예측하는 것
확률이론 : 예측값의 불확실성을 정량화시켜 표현할 수 있는 수학적 프레임워크 제공
결정이론 : 확률적 표현을 바탕으로 최적의 예측을 수행할 수 있는 방법론 제공

과소적합과 과대적합

실제 학습 데이터에 크기에 비해 너무 고차원 함수 또는 너무 저차원 함수를 사용하면 실제 성능에서 에러가 많이 발생한다.

$E_{RMS} = \sqrt {2E(w^*)/N}$ : Root Mean Square

또한, 고차원 함수더라도 많은 양에 데이터가 존재한다면 과대적합이 발생할 가능성이 적어진다. 그리고 실제로 머신러닝의 데이터 수는 굉장히 많다는 점.

규제화(Regularization)

파라미터값이 너무 커지지 않도록 하는 방법.

이 때 너무 심하게 하면 과대/과소 적합이 예기치 않게 발생할 수 있음.

Machine Learning 기초 - 확률이론1

확률 변수

확률 변수 X는 표본의 집합 S의 원소 e를 실수값 X(e) = x에 대응시키는 함수이다.

대문자 X, Y, ... : 확률 변수
소문자 x, y, ... : 확률 변수가 가질 수 있는 값
확률 P는 집합 S의 부분집합을 실수값에 대응시키는 함
ex) S = {HH, HT, TH, TT}; throwing coin
X(HH) = 2, X(HT) = 1, X(TH) = 1, X(TT) = 0; head of coin appear
P[X = 1] = P[{HT, TH}] = $\frac {2} {4} = \frac {1} {2}$

연속 확률 변수(Continuous Random Variables)

누적분포함수 F(x) = P[X $\in$ (- $\infty$ , x)] 일 때, F(x)를 가진 확률 변수 X에 대해서 다음을 만족하는 함수 f(x)가 존재한다면 X를 연속 확률 변수라고 부르고 f(x)를 X의 확률 밀도 함수(probability density function)라고 부른다.

확률 변수를 명확히 하기 위해 F(x), f(x)로 쓰기로 하며 밀도 함수의 경우에는 p(x)를 사용하기도 한다.

확률 변수의 성질

덧셈 법칙
곱셈 법칙

베이즈 확률 (posterior 사후확률, likelihood 가능성, prior 사전확률, marginal normalization 경계확률)

확률변수의 함수

확률변수 X의 함수 Y = f(X)도 확률변수이다. 예를 들어 확률 변수 X가 주(week)의 수로 표현되었다고 하면 일(day)의 수로 표현된 새로운 확률변수를 정의할 수 있다.

Y = 7X
P[14 <= Y <= 21] = P[2 <= X <= 3]
$p_y(y) = p_x(x)|\frac {dx} {dy} |$

k차원의 확률변수 벡터 x = (x1, ... , xk)가 주어질 때, k개의 x에 관한 함수들은 새로운 확률변수벡터 y = (y1, ... yk)를 정의한다. 간략하게 y = (x)로 나타낼 수 있다. 만약 y = g(x)가 일대일 변환인 경우(x = w(y)로 유일한 해를 가질 때), y의 결합확률밀도함수는 다음과 같다.

$p_y (y_1, ... , y_k) = p_x(x_1, ... , x_k)|J|$
where J = $\begin{matrix} \frac {dx_1} {dy_1} & \frac {dx_1} {dy_2} & ... & \frac {dx_1} {dy_k} \\ \frac {dx_2} {dy_1} & ... & ... & ... \\ ... \\ \frac {dx_k} {dy_1} & ... & ... & \frac {dx_k} {dy_k} \end{matrix}$