1. 기본 Line plot
Line Plot
연속적으로 변화하는 값을 순서대로 점으로 나타내고, 이를 선으로 연결한 그래프
시간이나 순서에 대한 변화를 볼 수 있고 추세를 살피기 위해 사용한다
.line
이 아니라 .plot()
을 사용한다.
선을 구별하는 요소는 다음과 같다
마커 : 점을 동그라미, 세모 등으로 표현하기
시시각각 변동하는 데이터는 노이즈가 커 패턴이나 추세를 파악하기 어렵기 때문에 노이즈를 줄이기 위해 스무딩을 사용한다
2. 정확한 Line Plot
2.1 추세에 집중
Bar plot과 다르게 꼭 축을 0에 초점을 둘 필요가 없다. 또 구체적인 line plot 보다는 생략된것이 나을 수 있다.
깔끔한 그래프를 원한다면 항상 후자가 좋아보이지만 정확한 데이터 수치가 중요하다면 왼쪽도 좋은 그래프이다
2.2 간격
사람은 그래프의 기울기에서 데이터의 변화를 느낀다. 그래서 데이터 간격이 일정하지 않으면 오해를 줄 수 잇기 때문에 규칙적인 간격을 사용해야 한다. 또한, 선으로 데이터를 이으면 없는 데이터도 있다고 생각할 수 있기 때문에 점으로 마킹을 해주는 것이 중요하다.
2.3 보간
점과 점을 잇는 것을 보간이라고 한다. 없는 데이터가 있는 것처럼 보이는 효과가있다. 데이터의 에러나 노이즈가 포함되어있을 때 데이터의 이해를 돕는다.
특히 곡선 보간은 좀 더 사실적으로 나타낸 것 같고 데이터의 추세에 어울리기 때문에 많이 사용하지만 많은 오해의 여지가 있기 때문에 일반적으로는 보간의 사용을 최소화하는 것이 좋다.
트렌트나 틀을 크게 보여주고 싶을 때는 종종 사용한다
2.4 이중 축 사용
한 개의 plot에 대해서 2개의 x축 또는 2개의 y축을 쓰는 것을 이중축이라고 한다. 단위가 다른 두 지표를 y축으로 자주 쓰곤 한다.
이중축을 사용하면 그래프간에 상관관계가 있어 보일 수 있기 때문에 두 개의 plot을 사용하는 것을 추천한다.
2.5 ETC
범례대신 그래프의 끝에 레이블을 추가하는 것이 좋다
Min, Max등의 원하는 정보는 추가해주면 좋다
Uncertainty를 표현할 때는 연한 색을 사용하는 것이 좋다. (신뢰구간, 분산 등)
2-2. Line Plot 사용하기
1. 기본 Line Plot
1-1. plot() 기본
Copy import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
plot은 x1,x2,⋯x1,x2,⋯, y1,y2,⋯y1,y2,⋯ 데이터를 사용해서 그립니다.
line plot은 왼쪽에서 오른쪽으로 그리는 게 일반적이지만 문법 자체는 이전 점 (x1,y1)(x1,y1)에서 (x2,y2)(x2,y2)로 잇고, (x2,y2)(x2,y2)에서 (x3,y3)(x3,y3)로 잇는 순차적인 선으로 구성된 그래프입니다.
Copy fig, axes = plt.subplots(1, 2, figsize=(12, 7))
x1 = [1, 2, 3, 4, 5]
x2 = [1, 3, 2, 4, 5]
y = [1, 3, 2, 1, 5]
axes[0].plot(x1, y)
axes[1].plot(x2, y)
plt.show()
1-3-2-4-5 와 같이 구성하면 오른쪽 그래프처럼 뒤죽박죽인 그래프가 된다.
좀 더 테크닉을 사용하면 다음과 같이 정N각형이나 원을 그릴 수도 있습니다.
Copy fig = plt.figure(figsize=(5, 5))
# aspect= 1은 가로와 세로의 비율을 동일하게 한다.
ax = fig.add_subplot(111, aspect=1)
# 숫자를 4로 하면 정삼각형이 되며 크게 할수록 원이된다
n = 1000
x = np.sin(np.linspace(0, 2*np.pi, n))
y = np.cos(np.linspace(0, 2*np.pi, n))
ax.plot(x, y)
plt.show()
이 처럼 Line plot을 왼쪽에서 오른쪽으로 쓸 수도 있지만 점과 점을 이으는 그래프로 생가한다면 위처럼 그릴 수 있다. 또 다른 예로 무작위의 움직임을 표현할 때도 가능하다.
1-2. plot 변형하기
가볍게 랜덤한 데이터를 사용해서 그래프의 요소를 변경해보겠습니다.
Copy fig, ax = plt.subplots(1, 1, figsize=(5, 5))
np.random.seed(97)
x = np.arange(7)
y = np.random.rand(7)
ax.plot(x, y)
plt.show()
3가지 요소를 변경하며 감을 잡아봅시다.
선의 종류(linestyle) : solid
, dashed
, dashdot
, dotted
, None
,
Copy fig, ax = plt.subplots(1, 1, figsize=(5, 5))
# np.random을 사용할 때 고정된 수를 반환하도록 한다
np.random.seed(97)
x = np.arange(7)
y = np.random.rand(7)
ax.plot(x, y,
color='black',
# . : 점 / ^ : 삼각형 / * : 별 / o : 원
marker='*',
# solid : 실선 / dashed : 부분실선 / dashdot : 점선실선혼합 / dotted : 점선
# default는 실선이다. 기호로도 표현이 가능하다
# dashed : -- / dashdot : -. / dotted : :
linestyle='solid',
)
plt.show()
1-3. Line plot을 위한 전처리
우선 시계열 데이터를 받아보겠습니다.
미국 주식 데이터셋입니다.
Copy stock = pd.read_csv('./prices.csv')
# 기존데이터는 연월일과 연월일시분초가 섞여있다. 이를 통일하는 작업
stock['date'] = pd.to_datetime(stock['date'], format='%Y-%m-%d', errors='raise')
stock.set_index("date", inplace = True)
stock
851264 rows × 6 columns
Copy # FAANG
apple = stock[stock['symbol']=='AAPL']
google = stock[stock['symbol']=='GOOGL']
google.head()
Copy fig, ax = plt.subplots(1, 1, figsize=(15, 7), dpi=300)
ax.plot(google.index, google['close'])
ax.plot(apple.index, apple['close'])
plt.show()
이동평균을 사용해보겠습니다.
원래 데이터는 시계열데이터기 때문에 굉장히 노이즈가 많은 데이터이다. 이동평균을 사용해서 데이터를 구하면 이 데이터들은 노이즈가 줄어들게 된다. 이 때, pandas의 rolling함수를 이용하면 쉽게 구할 수 있다.
Copy google_rolling = google.rolling(window=20).mean()
Copy fig, axes = plt.subplots(2, 1, figsize=(12, 7), dpi=300, sharex=True)
# 여기서 dpi는 해상도이다
axes[0].plot(google.index,google['close'])
axes[1].plot(google_rolling.index,google_rolling['close'])
plt.show()
2. 정확한 Line Plot
2.1 추세에 집중
Copy from matplotlib.ticker import MultipleLocator
fig = plt.figure(figsize=(12, 5))
np.random.seed(970725)
x = np.arange(20)
y = np.random.rand(20)
# Ax1
ax1 = fig.add_subplot(121)
ax1.plot(x, y,
marker='o',
linewidth=2)
# x축은 1단위로, y축은 0.5 단위로 grid를 그리는 작업이다
ax1.xaxis.set_major_locator(MultipleLocator(1))
ax1.yaxis.set_major_locator(MultipleLocator(0.05))
# 그리드의 두께 조정
ax1.grid(linewidth=0.3)
# Ax2
ax2 = fig.add_subplot(122)
ax2.plot(x, y,
linewidth=2,)
ax2.spines['top'].set_visible(False)
ax2.spines['right'].set_visible(False)
ax1.set_title(f"Line Plot (information)", loc='left', fontsize=12, va= 'bottom', fontweight='semibold')
ax2.set_title(f"Line Plot (clean)", loc='left', fontsize=12, va= 'bottom', fontweight='semibold')
plt.show()
정확한 데이터를 통해 기록으로 남기고 싶으면 왼쪽, 추세를 보여주고 싶다 하면은 오른쪽 그래프를 선택하면 된다
2-2. 간격
Copy x = [2, 3, 5, 7, 9]
y = [2, 3, 4, 7, 10]
fig, ax = plt.subplots(1, 3, figsize=(13, 4))
ax[0].plot([str(i) for i in x], y)
ax[1].plot(x, y)
ax[2].plot(x, y, marker='o')
plt.show()
기본적으로 plot은 y값만 있어도 그래프를 그릴 수 있지만 x값을 명시해주는 것이 좋다. 또, 마킹은 그래프를 보는데 방해가 없도록 해야한다.
2-3. 보간
Copy from scipy.interpolate import make_interp_spline, interp1d
import matplotlib.dates as dates
fig, ax = plt.subplots(1, 2, figsize=(20, 7), dpi=300)
date_np = google.index
value_np = google['close']
date_num = dates.date2num(date_np)
# smooth
date_num_smooth = np.linspace(date_num.min(), date_num.max(), 50)
spl = make_interp_spline(date_num, value_np, k=3)
value_np_smooth = spl(date_num_smooth)
# print
ax[0].plot(date_np, value_np)
ax[1].plot(dates.num2date(date_num_smooth), value_np_smooth)
plt.show()
2-1 에서 적용한 이동평균 역시 보간법중 하나이다. 여러 보간법이 있다.
2-4. 이중 축 사용
Copy fig, ax1 = plt.subplots(figsize=(12, 7), dpi=150)
# First Plot
color = 'royalblue'
ax1.plot(google.index, google['close'], color=color)
ax1.set_xlabel('date')
ax1.set_ylabel('close price', color=color)
ax1.tick_params(axis='y', labelcolor=color)
# # Second Plot
ax2 = ax1.twinx()
color = 'tomato'
ax2.plot(google.index, google['volume'], color=color)
ax2.set_ylabel('volume', color=color)
ax2.tick_params(axis='y', labelcolor=color)
ax1.set_title('Google Close Price & Volume', loc='left', fontsize=15)
plt.show()
2-5. ETC
Copy fig = plt.figure(figsize=(12, 5))
x = np.linspace(0, 2*np.pi, 1000)
y1 = np.sin(x)
y2 = np.cos(x)
ax = fig.add_subplot(111, aspect=1)
ax.plot(x, y1,
color='#1ABDE9',
linewidth=2, label='sin')
ax.plot(x, y2,
color='#F36E8E',
linewidth=2, label='cos')
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.legend(loc='upper center')
plt.show()
Copy fig = plt.figure(figsize=(12, 5))
x = np.linspace(0, 2*np.pi, 1000)
y1 = np.sin(x)
y2 = np.cos(x)
# Ax2
ax = fig.add_subplot(111, aspect=1)
ax.plot(x, y1,
color='#1ABDE9',
linewidth=2,)
ax.plot(x, y2,
color='#F36E8E',
linewidth=2,)
ax.text(x[-1]+0.1, y1[-1], s='sin', fontweight='bold',
va='center', ha='left',
bbox=dict(boxstyle='round,pad=0.3', fc='#1ABDE9', ec='black', alpha=0.3))
ax.text(x[-1]+0.1, y2[-1], s='cos', fontweight='bold',
va='center', ha='left',
bbox=dict(boxstyle='round,pad=0.3', fc='#F36E8E', ec='black', alpha=0.3))
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.show()
Copy fig = plt.figure(figsize=(7, 7))
np.random.seed(97)
x = np.arange(20)
y = np.random.rand(20)
ax = fig.add_subplot(111)
ax.plot(x, y,
color='lightgray',
linewidth=2,)
ax.set_xlim(-1, 21)
# x축의 범위는 -1에서 argmax또는 argmin 값이다
# y축의 범위는 np.max에서 np.max이다
# 이를 plot으로 선을 그어주고 scatter를 이용해 점을 찍어준다
# s는 점의 크기를, zorder는 plot보다 위에 있도록 설정했다
# max
ax.plot([-1, x[np.argmax(y)]], [np.max(y)]*2,
linestyle='--', color='tomato'
)
ax.scatter(x[np.argmax(y)], np.max(y),
c='tomato',s=50, zorder=20)
# min
ax.plot([-1, x[np.argmin(y)]], [np.min(y)]*2,
linestyle='--', color='royalblue'
)
ax.scatter(x[np.argmin(y)], np.min(y),
c='royalblue',s=50, zorder=20)
plt.show()