1 Fri

TIL

[인프런] 단 두 장의 문서로 데이터 분석과 시각화 뽀개기

AI 스쿨 첫 프로젝트를 위해 Pandas를 더 공부해보고 싶어졌다. 또, 추후에도 Pandas를 이용한 시각화를 사용할 것이라고 생각해서 이참에 배워두면 좋겠다 생각했다. 화이팅!

판다스 데이터프레임과 시리즈 이해하기 - Syntax

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

import pandas as pd

df = pd.DataFrame(
        {"a" : [4, 5, 6],
        "b" : [7, 8, 9],
        "c" : [10, 11, 12]},
            index = [1, 2, 3])

이 때 한 행을 Series라고 한다. index의 default는 [0, 1, ,,,]

기본적인 데이터 프레임 조작

df

특정 컬럼을 가지고 와보자!

df["a"]

1    4
2    5
3    6
Name: a, dtype: int64

여러 개의 컬럼을 보기!

df[["a", "b"]]

n번 인덱스의 행 보기

df.loc[3]

a     6
b     9
c    12
Name: 3, dtype: int64

여러 인덱스의 행 보기

df.loc[[1,2]]

특정 인덱스의 행과 열 보기 행-열 순으로 작성

df.loc[1, "b"]

df.loc[[1, 2], ["a","b"]]

판다스 데이터프레임 생성하고 데이터 가져오기 - Syntax

kernel - Restart & ClearOutput 을 누르면 실행결과가 모두 지워진다! 복습할 수 있음!

df = pd.DataFrame(
        [[4, 7, 10],
        [5, 8, 11],
        [6, 9, 12]],
        index=[1, 2, 3],
        columns=['a', 'b', 'c'])
df

두 개의 데이터프레임

pd.DataFrame(  
        {"a" : [4, 5, 6],  
        "b" : [7, 8, 9],  
        "c" : [10, 11, 12]},  
            index = [1, 2, 3])    
df = pd.DataFrame(  
        [[4, 7, 10],  
        [5, 8, 11],  
        [6, 9, 12]],  
        index=[1, 2, 3],  
        columns=['a', 'b', 'c'])

는 동일하다.

Index 지정 - 튜플 자료형 사용 여러개의 인덱스를 가질 수 있다.

df = pd.DataFrame(
        {"a" : [4 ,5, 6],
        "b" : [7, 8, 9],
        "c" : [10, 11, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2)],
        names=['n','v']))
df

판다스 데이터프레임 비교연산자로 색인하기 - Subset Observations(Rows)

특정 열에서 색인(필터링)

df[df.a > 7]

df[df.a < 7]

df.b > 7

n  v
d  1    False
   2     True
e  2     True
Name: b, dtype: bool

다음 2개의 코드는 동일하다.

df[df.b > 7]

df[df['b'] > 7]

df.OO 와 df['OO']는 같다 이 때, 대소문자에 유의 차이점은 dot을 사용하면 특수문자나 한글이 포함되있는 이름에서 오류가 날 수 있다.

df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
        "b" : [7, 8, 9, 9],
        "c" : [10, 11, 12, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2), ('e', 3)],
        names=['n','v']))
df

df.drop_duplicates() : 중복을 없애주는 메서드

df.drop_duplicates()

그러나 이 때 다시 df를 출력해도 동일하다.

df

이 때는 다음과 같이 옵션 inplace를 True로 변경해주면 된다. 그러나 pandas에서는 inplace 사용을 권장하지는 않는다.

df.drop_duplicates(inplace=True)

df

따라서 다음과 같이 사용하는 것을 추천한다.

df2 = df.drop_duplicates()
df2

다음과 같이 입력하면 해당 함수에 대한 설명을 볼 수 있다.

df.drop_duplicates?

'''
Signature:
df.drop_duplicates(
    subset: Union[Hashable, Sequence[Hashable], NoneType] = None,
    keep: Union[str, bool] = 'first',
    inplace: bool = False,
    ignore_index: bool = False,
) -> Union[ForwardRef('DataFrame'), NoneType]
'''

df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
        "b" : [7, 8, 9, 9],
        "c" : [10, 11, 12, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2), ('e', 3)],
        names=['n','v']))

중복된 행을 제거할 때 마지막 부분이 유지되도록 할 수 있다

df.drop_duplicates(keep = 'last')
df

정리 : drop_duplicates는 중복된 행을 제거할 때 사용한다.

Logic in Python - Subset Observations(Rows)

df

df[df.b != 7]

isin() : 행에 대한 인자의 존재 유무

df.column.isin?

Object `df.column.isin` not found.

column => 특정 컬럼의 이름으로 정의해줘야 함 또 isin의 인자는 리스트 형태여야 한다.

df.a.isin([5])

n  v
d  1    False
   2     True
e  2    False
   3    False
Name: a, dtype: bool

isnull() : null값의 존재 유무 확인

import numpy as np
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6, np.nan],
        "b" : [7, 8, np.nan, 9, 9],
        "c" : [10, 11, 12, np.nan, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2), ('e', 3), ('e', 4)],
        names=['n','v']))
df

4.0

7.0

10.0

5.0

8.0

11.0

6.0

NaN

12.0

6.0

9.0

NaN

9.0

12.0

pd.isnull(df)

False

True

False

True

False

df['a'].isnull()

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

df['b'].isnull().sum()

notnull : null이 아닌 값의 존재 유무

pd.notnull(df)

True

False

True

False

True

df.notnull()

True

False

True

False

True

위에 있는 두 코드는 동일한 결과를 출력한다

df.a.notnull()

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool

and, or, not, xor, any, all

각각 &, |, ~, ^, df.any(), df.all()에 해당한다

df.a.isnull()

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

~df.a.isnull()

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool

df

4.0

7.0

10.0

5.0

8.0

11.0

6.0

NaN

12.0

6.0

9.0

NaN

9.0

12.0

df[(df.b == 7) & (df.a == 5)]

df[(df.b == 7) & (df.a == 4)]

4.0

7.0

10.0

head, tail, sample로 데이터 미리보기 - Subset Observations(Rows)

df.head() : 위에서 n개 출력

default는 5개이다

df.head(3)

4.0

7.0

10.0

5.0

8.0

11.0

6.0

NaN

12.0

df.tail() : 아래에서 n개 출력

df.tail(4)

5.0

8.0

11.0

6.0

NaN

12.0

6.0

9.0

NaN

9.0

12.0

df.sample(frac=0.5)

df.sample(frac = m)

이 때 0 <= m <= 1 이다. 해당 비율만큼 랜덤하게 가져온다. 따라서 인덱스가 뒤섞임

df.sample(frac=0.5)

6.0

9.0

NaN

5.0

8.0

11.0

df.sample(frac=0.5)

NaN

9.0

12.0

4.0

7.0

10.0

df.sample(frac=1)

6.0

NaN

12.0

5.0

8.0

11.0

NaN

9.0

12.0

6.0

9.0

NaN

4.0

7.0

10.0

df.sample(n=10)

df.sample(n = m)

이 때 m은 자연수이다. (단 전체 개수보다 클 수 없다.)

df.sample(n = 5)

NaN

9.0

12.0

5.0

8.0

11.0

6.0

9.0

NaN

6.0

NaN

12.0

4.0

7.0

10.0

df.sample(n = 3)

5.0

8.0

11.0

6.0

9.0

NaN

9.0

12.0

비율로 구할 때에는 frac, 개수로 구할 때에는 n

iloc, nlargest, nsmallest로 데이터 색인하기 - Subset Observations(Rows)

df.iloc[:]

해당 인덱스만큼의 범위를 행을 기준으로 색인한다.

df.iloc[:]

4.0

7.0

10.0

5.0

8.0

11.0

6.0

NaN

12.0

6.0

9.0

NaN

9.0

12.0

df.iloc[1:]

5.0

8.0

11.0

6.0

NaN

12.0

6.0

9.0

NaN

9.0

12.0

df.iloc[3:4]

6.0

9.0

NaN

df.nlargest(n, 'value')

크기 순으로 value 열에 대해서 n개 만큼의 행을 출력한다

df = pd.DataFrame(
        {"a" : [1, 10, 8, 11, -1],
         "b" : list('abcde'),
         "c" : [1.0, 2.0, np.nan, 3.0, 4.0]})
df

1.0

2.0

NaN

3.0

-1

4.0

df.nlargest(3, 'a')

3.0

2.0

NaN

# df.nlargest(1, 'b')
# b는 숫자가 아니기 때문에 타입에러 발생

df.nlargest(5, 'c')
# NaN은 숫자가 아니기 때문에 출력되지 않는다

-1

4.0

3.0

2.0

1.0

df.nsmallest(n, 'value')

크기 순으로 value 열에 대해서 n개 만큼의 행을 출력한다

df.nsmallest(1, 'a')

-1

4.0

df.nsmallest(4, 'a')

-1

4.0

1.0

NaN

2.0

Previous2 Sat NextDEC

Last updated 5 years ago

hashtag[인프런] 단 두 장의 문서로 데이터 분석과 시각화 뽀개기

hashtag판다스 데이터프레임과 시리즈 이해하기 - Syntax

hashtag기본적인 데이터 프레임 조작

hashtag판다스 데이터프레임 생성하고 데이터 가져오기 - Syntax

hashtag판다스 데이터프레임 비교연산자로 색인하기 - Subset Observations(Rows)

hashtag특정 열에서 색인(필터링)

hashtagdf.drop_duplicates() : 중복을 없애주는 메서드

hashtag정리 : drop_duplicates는 중복된 행을 제거할 때 사용한다.

hashtagLogic in Python - Subset Observations(Rows)

hashtagisin() : 행에 대한 인자의 존재 유무

hashtagisnull() : null값의 존재 유무 확인

hashtagnotnull : null이 아닌 값의 존재 유무

hashtagand, or, not, xor, any, all

hashtaghead, tail, sample로 데이터 미리보기 - Subset Observations(Rows)

hashtagdf.head() : 위에서 n개 출력

hashtagdf.tail() : 아래에서 n개 출력

hashtagdf.sample(frac=0.5)

hashtagdf.sample(n=10)

hashtag비율로 구할 때에는 frac, 개수로 구할 때에는 n

hashtagiloc, nlargest, nsmallest로 데이터 색인하기 - Subset Observations(Rows)

hashtagdf.iloc[:]

hashtagdf.nlargest(n, 'value')

hashtagdf.nsmallest(n, 'value')

[인프런] 단 두 장의 문서로 데이터 분석과 시각화 뽀개기

판다스 데이터프레임과 시리즈 이해하기 - Syntax

기본적인 데이터 프레임 조작

판다스 데이터프레임 생성하고 데이터 가져오기 - Syntax

판다스 데이터프레임 비교연산자로 색인하기 - Subset Observations(Rows)

특정 열에서 색인(필터링)

df.drop_duplicates() : 중복을 없애주는 메서드

정리 : drop_duplicates는 중복된 행을 제거할 때 사용한다.

Logic in Python - Subset Observations(Rows)

isin() : 행에 대한 인자의 존재 유무

isnull() : null값의 존재 유무 확인

notnull : null이 아닌 값의 존재 유무

and, or, not, xor, any, all

head, tail, sample로 데이터 미리보기 - Subset Observations(Rows)

df.head() : 위에서 n개 출력

df.tail() : 아래에서 n개 출력

df.sample(frac=0.5)

df.sample(n=10)

비율로 구할 때에는 frac, 개수로 구할 때에는 n

iloc, nlargest, nsmallest로 데이터 색인하기 - Subset Observations(Rows)

df.iloc[:]

df.nlargest(n, 'value')

df.nsmallest(n, 'value')