3 Thu

현업 실무자에게 배우는 Kaggle 머신러닝 입문

머신러닝과 데이터 분석을 위한 도구 소개

numpy

배열을 다루는 도구
Numerical Python의 약어
다차원 데이터를 쉽게 처리할 수 있다

pandas

데이터 표를 다루는 도구
Python Data Analysis Library의 약어
2차원 테이블 형태를 매우 잘 다룬다

Matplotlib

그래프를 그리거나 분포를 보여주는 시각화 패키지
연구용으로 많이 쓰인 MATLAB의 코드 스타일을 모방
- Matlab-style Plotting Library
기능을 많으나 약간 불편함

Seaborn

matplotlib을 감싸서 만든 쉬운 파이썬 시각화 패키지
- Seaborn의 함수를 호출하면 matplotlib의 함수가 호출된다는 의미
다양하고 화려한 그래프를, matplotlib보다 쉬운 코드로 그릴 수 있음
또한 matplotlib의 명령어를 그대로 사용 가능

numpy, 배열과 행렬을 다루는 도구

numpy 임포트

import numpy as np

리스트로 배열 생성

np.array(리스트)

np_arr1 = np.array([1, 2, 3, 4])

np_arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

np_arr3 = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]]

모양 확인

np_arr.shape

초기화 함수

0으로 채우기 : np.zeros(shape)
1로 채우기 : np.ones(shape)
랜덤한 숫자 배열 : np.random.randn(rows, columns)

인덱싱과 슬라이싱

인덱싱 : np.arr[n][m]
- 인덱스의 시작은 0
슬라이싱 : np.arr[start:end:interval]
- 마지막 원소를 포함하지 않는다.

Broadcasting, Aggregation

브로드캐스팅
- 다차원 넘파이 배열과 하나의 숫자를 사칙연산 할 경우 넘파이 배열의 모든 원소에 대해 하나의 숫자와의 사칙 연산이 적용된다
집계
- sum, mean, prod, max, min, argmax, argmin

numpy 실습

pandas, 행과 열을 가진 테이블을 다루는 데이터 분석 도구

판다스의 등장 이유

데이터에 row와 column에 라벨링을 하고싶었기 때문

1차원 데이터

Series를 사용한다

Series 접근, 연산, 생성

열이나 행 이름으로 인덱싱 : pd.series.loc[인덱스]
리스트 번호로 인덱싱 : pd.series.iloc[번호]
- 이 때 loc는 끝을 포함하며 iloc는 끝을 포함하지 않는다
Series 생성 : new_sr = pd.Series([1, 2, 3, 4], name = 'apple', index=['a', 'b', 'xs', 'e11'])
- name은 기본값은 None
- index의 기본값은 0, 1, 2, 3, ...

2차원 데이터

DataFrame을 사용한다.
여러 개의 Series를 묶어서 만든 형태

DataFrame 연산 총 정리

단일 연산
- abs() : 절댓값
- isna() : na여부
- notna() : 유효여부
- pow() : 거듭제곱
축 방향 연산 (axis = 0 or 1)
- mean() : 평균
- median() : 중앙값
- max(), min() : 최댓값, 최솟값
- sum(), prod() : 더하기, 곱하기
- idxmax(), idxmin() : 최대원소의 인덱스, 최소원소의 인덱스
누적 축 방향 연산 (axis = 0 or 1)
- cummax(), cummin() : 누적최댓값, 누적최솟값
- cumprod(), cumsum() : 누적곱셈, 누적덧셈
정렬
- df.sort_values(정렬기준, axis= 축, ascending=True)
- df.rank(axis = 축, ascending=True)
생성
- pd.DataFrame([[0,1 ,2], [3, 4, 5]], index=[0, 1], columns=['a', 'b', 'c']

csv파일 불러오기, 저장하기

저장하기 : df.to_csv('filename')
- 이 때 한글자료의 경우 encoding='cp949' 로 지정해줘야함
불러오기 : pd.read_csv('filename')
- 마찬가지로 한글자료의 경우 인코딩 명시

pandas 실습

<연습문제>

my_df에서 A005950 종목의 2020-09-16의 주가를 뽑아보세요

[7 ]my_df.loc['2020-09-16', 'A005950']

9080.0

<연습문제>

my_df에서 A005950 종목의 2020-09-10 ~ 2020-09-15 의 주가를 뽑아보세요

[8] my_df.loc['2020-09-10':'2020-09-15', 'A005950']

2020-09-10    9280.0
2020-09-11    9360.0
2020-09-14    9400.0
2020-09-15    9390.0
Name: A005950, dtype: float64

<연습문제>

my_df에서 A005930과 A005950 종목의 2020-09-10 ~ 2020-09-17 의 주가를 이틀 간격으로 뽑아보세요

[9] my_df.loc['2020-09-10':'2020-09-17':2, 'A005950']

2020-09-10    9280.0
2020-09-14    9400.0
2020-09-16    9080.0
Name: A005950, dtype: float64

<연습문제>

my_df에서 A005950종목의 전체 기간의 주가의 평균을 구해보시오

[10] my_df.A005950.mean()

9664.09090909091

<연습문제>

my_df에서 A005980종목 2020-09-14 이후 주가의 일별 상한가를 구해보세요 (상한가: 30% 상승)

[19] my_df.loc['2020-09-14':, 'A005980'] * 1.3

2020-09-14    872.3
2020-09-15    872.3
2020-09-16    872.3
2020-09-17    872.3
2020-09-18    872.3
2020-09-21    872.3
2020-09-22    872.3
2020-09-23    872.3
2020-09-24    872.3
2020-09-25    872.3
2020-09-28    872.3
2020-09-29    872.3
2020-10-05    872.3
2020-10-06    872.3
2020-10-07    872.3
2020-10-08    872.3
2020-10-12    872.3
2020-10-13    872.3
2020-10-14    872.3
Name: A005980, dtype: float64

<연습문제>

my_df에서 모든 종목의 2020-09-17 ~ 2020-09-24 기간의 수익률을 구해보세요 (% 단위)

[23](my_df.loc['2020-09-24'] / my_df.loc['2020-09-17'] - 1) * 100

Symbol
A005930   -2.857143
A005940   -4.077253
A005950   -6.756757
A005960   -4.545455
A005980    0.000000
A005990   -3.625000
dtype: float64

<연습문제>

my_df에서 2020-09-16일자의 주가 들을 내림차순 순서로 정렬해보세요

[24] my_df.sort_values('2020-09-16', axis='columns', ascending=False)

<연습문제>

my_df에서 2020-09-09 ~ 2020-09-18 의 전 종목 수익률을 계산하여 순위를 출력해보세요 (수익률 높은 순) 9/9 종가 매수 ~ 9/18 종가 매도

[26] ((my_df.loc['2020-09-18'] / my_df.loc['2020-09-09'] - 1) * 100).rank(ascending=False)

Symbol
A005930    1.0
A005940    2.0
A005950    5.0
A005960    6.0
A005980    4.0
A005990    3.0
dtype: float64

Previous4 Fri Next2 Wed

Last updated 4 years ago

hashtag현업 실무자에게 배우는 Kaggle 머신러닝 입문

hashtag머신러닝과 데이터 분석을 위한 도구 소개

hashtagnumpy, 배열과 행렬을 다루는 도구

hashtagnumpy 실습

hashtagpandas, 행과 열을 가진 테이블을 다루는 데이터 분석 도구

hashtagpandas 실습

hashtag<연습문제>

hashtag<연습문제>

hashtag<연습문제>

hashtag<연습문제>

hashtag<연습문제>

hashtag

hashtag<연습문제>

hashtag<연습문제>

hashtag<연습문제>

현업 실무자에게 배우는 Kaggle 머신러닝 입문

머신러닝과 데이터 분석을 위한 도구 소개

numpy, 배열과 행렬을 다루는 도구

numpy 실습

pandas, 행과 열을 가진 테이블을 다루는 데이터 분석 도구

pandas 실습

<연습문제>

<연습문제>

<연습문제>

<연습문제>

<연습문제>

<연습문제>

<연습문제>

<연습문제>