(2-2) Line Plot 사용하기

210814

1. 기본 Line plot

Line Plot

  • 연속적으로 변화하는 값을 순서대로 점으로 나타내고, 이를 선으로 연결한 그래프

  • 시간이나 순서에 대한 변화를 볼 수 있고 추세를 살피기 위해 사용한다

    • 시계열 분석에 특화

  • .line 이 아니라 .plot() 을 사용한다.

  • 5개 이하의 선을 사용하는 것을 추천한다

    • 선이 많으면 가독성이 하락한다

  • 선을 구별하는 요소는 다음과 같다

    • 색상

    • 마커 : 점을 동그라미, 세모 등으로 표현하기

    • 선의 종류

  • 시시각각 변동하는 데이터는 노이즈가 커 패턴이나 추세를 파악하기 어렵기 때문에 노이즈를 줄이기 위해 스무딩을 사용한다

2. 정확한 Line Plot

2.1 추세에 집중

Bar plot과 다르게 꼭 축을 0에 초점을 둘 필요가 없다. 또 구체적인 line plot 보다는 생략된것이 나을 수 있다.

깔끔한 그래프를 원한다면 항상 후자가 좋아보이지만 정확한 데이터 수치가 중요하다면 왼쪽도 좋은 그래프이다

2.2 간격

사람은 그래프의 기울기에서 데이터의 변화를 느낀다. 그래서 데이터 간격이 일정하지 않으면 오해를 줄 수 잇기 때문에 규칙적인 간격을 사용해야 한다. 또한, 선으로 데이터를 이으면 없는 데이터도 있다고 생각할 수 있기 때문에 점으로 마킹을 해주는 것이 중요하다.

  • 가장 오른쪽 그래프가 제일 좋다

2.3 보간

점과 점을 잇는 것을 보간이라고 한다. 없는 데이터가 있는 것처럼 보이는 효과가있다. 데이터의 에러나 노이즈가 포함되어있을 때 데이터의 이해를 돕는다.

특히 곡선 보간은 좀 더 사실적으로 나타낸 것 같고 데이터의 추세에 어울리기 때문에 많이 사용하지만 많은 오해의 여지가 있기 때문에 일반적으로는 보간의 사용을 최소화하는 것이 좋다.

트렌트나 틀을 크게 보여주고 싶을 때는 종종 사용한다

2.4 이중 축 사용

한 개의 plot에 대해서 2개의 x축 또는 2개의 y축을 쓰는 것을 이중축이라고 한다. 단위가 다른 두 지표를 y축으로 자주 쓰곤 한다.

이중축을 사용하면 그래프간에 상관관계가 있어 보일 수 있기 때문에 두 개의 plot을 사용하는 것을 추천한다.

2.5 ETC

범례대신 그래프의 끝에 레이블을 추가하는 것이 좋다

Min, Max등의 원하는 정보는 추가해주면 좋다

Uncertainty를 표현할 때는 연한 색을 사용하는 것이 좋다. (신뢰구간, 분산 등)

2-2. Line Plot 사용하기

1. 기본 Line Plot

1-1. plot() 기본

  • plot() : line()이 아니라는 점!

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

plot은 x1,x2,⋯x1,x2,⋯, y1,y2,⋯y1,y2,⋯ 데이터를 사용해서 그립니다.

line plot은 왼쪽에서 오른쪽으로 그리는 게 일반적이지만 문법 자체는 이전 점 (x1,y1)(x1,y1)에서 (x2,y2)(x2,y2)로 잇고, (x2,y2)(x2,y2)에서 (x3,y3)(x3,y3)로 잇는 순차적인 선으로 구성된 그래프입니다.

fig, axes = plt.subplots(1, 2, figsize=(12, 7))

x1 = [1, 2, 3, 4, 5]
x2 = [1, 3, 2, 4, 5]
y = [1, 3, 2, 1, 5]

axes[0].plot(x1, y)
axes[1].plot(x2, y)

plt.show()

1-3-2-4-5 와 같이 구성하면 오른쪽 그래프처럼 뒤죽박죽인 그래프가 된다.

좀 더 테크닉을 사용하면 다음과 같이 정N각형이나 원을 그릴 수도 있습니다.

fig = plt.figure(figsize=(5, 5))

# aspect= 1은 가로와 세로의 비율을 동일하게 한다.
ax = fig.add_subplot(111, aspect=1)

# 숫자를 4로 하면 정삼각형이 되며 크게 할수록 원이된다
n = 1000
x = np.sin(np.linspace(0, 2*np.pi, n))
y = np.cos(np.linspace(0, 2*np.pi, n))

ax.plot(x, y)

plt.show()

이 처럼 Line plot을 왼쪽에서 오른쪽으로 쓸 수도 있지만 점과 점을 이으는 그래프로 생가한다면 위처럼 그릴 수 있다. 또 다른 예로 무작위의 움직임을 표현할 때도 가능하다.

1-2. plot 변형하기

가볍게 랜덤한 데이터를 사용해서 그래프의 요소를 변경해보겠습니다.

fig, ax = plt.subplots(1, 1, figsize=(5, 5))

np.random.seed(97)
x = np.arange(7)
y = np.random.rand(7)

ax.plot(x, y)

plt.show()

3가지 요소를 변경하며 감을 잡아봅시다.

  • 색(color)

  • 마커(marker) : 마커의 종류

  • 선의 종류(linestyle) : solid, dashed, dashdot, dotted, None,

fig, ax = plt.subplots(1, 1, figsize=(5, 5))

# np.random을 사용할 때 고정된 수를 반환하도록 한다
np.random.seed(97)
x = np.arange(7)
y = np.random.rand(7)

ax.plot(x, y,
        color='black',
        # . : 점 / ^ : 삼각형 / * : 별 / o : 원
        marker='*',       
        # solid : 실선 / dashed : 부분실선 / dashdot : 점선실선혼합 / dotted : 점선
        # default는 실선이다. 기호로도 표현이 가능하다
        # dashed : -- / dashdot : -. / dotted : :
        linestyle='solid', 
       )

plt.show()

1-3. Line plot을 위한 전처리

우선 시계열 데이터를 받아보겠습니다.

미국 주식 데이터셋입니다.

stock = pd.read_csv('./prices.csv')

# 기존데이터는 연월일과 연월일시분초가 섞여있다. 이를 통일하는 작업
stock['date'] = pd.to_datetime(stock['date'], format='%Y-%m-%d', errors='raise')
stock.set_index("date", inplace = True)
stock

symbol

open

close

low

high

volume

date

2016-01-05

WLTW

123.430000

125.839996

122.309998

126.250000

2163600.0

2016-01-06

WLTW

125.239998

119.980003

119.940002

125.540001

2386400.0

2016-01-07

WLTW

116.379997

114.949997

114.930000

119.739998

2489500.0

2016-01-08

WLTW

115.480003

116.620003

113.500000

117.440002

2006300.0

2016-01-11

WLTW

117.010002

114.970001

114.089996

117.330002

1408600.0

...

...

...

...

...

...

...

2016-12-30

ZBH

103.309998

103.199997

102.849998

103.930000

973800.0

2016-12-30

ZION

43.070000

43.040001

42.689999

43.310001

1938100.0

2016-12-30

ZTS

53.639999

53.529999

53.270000

53.740002

1701200.0

2016-12-30

AIV

44.730000

45.450001

44.410000

45.590000

1380900.0

2016-12-30

FTV

54.200001

53.630001

53.389999

54.480000

705100.0

851264 rows × 6 columns

# FAANG
apple = stock[stock['symbol']=='AAPL']
google = stock[stock['symbol']=='GOOGL']
google.head()

symbol

open

close

low

high

volume

date

2010-01-04

GOOGL

626.950006

626.750011

624.240011

629.510005

3908400.0

2010-01-05

GOOGL

627.180001

623.990017

621.540016

627.839984

6003300.0

2010-01-06

GOOGL

625.860033

608.260035

606.360021

625.860033

7949400.0

2010-01-07

GOOGL

609.400008

594.100015

592.649990

609.999993

12815700.0

2010-01-08

GOOGL

592.000005

602.020005

589.110015

603.250036

9439100.0

fig, ax = plt.subplots(1, 1, figsize=(15, 7), dpi=300)

ax.plot(google.index, google['close'])
ax.plot(apple.index, apple['close'])

plt.show()

이동평균을 사용해보겠습니다.

원래 데이터는 시계열데이터기 때문에 굉장히 노이즈가 많은 데이터이다. 이동평균을 사용해서 데이터를 구하면 이 데이터들은 노이즈가 줄어들게 된다. 이 때, pandas의 rolling함수를 이용하면 쉽게 구할 수 있다.

google_rolling = google.rolling(window=20).mean()
fig, axes = plt.subplots(2, 1, figsize=(12, 7), dpi=300, sharex=True)
# 여기서 dpi는 해상도이다

axes[0].plot(google.index,google['close'])
axes[1].plot(google_rolling.index,google_rolling['close'])

plt.show()

2. 정확한 Line Plot

2.1 추세에 집중

from matplotlib.ticker import MultipleLocator

fig = plt.figure(figsize=(12, 5))


np.random.seed(970725)

x = np.arange(20)
y = np.random.rand(20)


# Ax1
ax1 = fig.add_subplot(121)
ax1.plot(x, y,
         marker='o',
         linewidth=2)

# x축은 1단위로, y축은 0.5 단위로 grid를 그리는 작업이다
ax1.xaxis.set_major_locator(MultipleLocator(1))
ax1.yaxis.set_major_locator(MultipleLocator(0.05))   
# 그리드의 두께 조정 
ax1.grid(linewidth=0.3)    


# Ax2
ax2 = fig.add_subplot(122)
ax2.plot(x, y,
       linewidth=2,)

ax2.spines['top'].set_visible(False)
ax2.spines['right'].set_visible(False)




ax1.set_title(f"Line Plot (information)", loc='left', fontsize=12, va= 'bottom', fontweight='semibold')
ax2.set_title(f"Line Plot (clean)", loc='left', fontsize=12, va= 'bottom', fontweight='semibold')


plt.show()

정확한 데이터를 통해 기록으로 남기고 싶으면 왼쪽, 추세를 보여주고 싶다 하면은 오른쪽 그래프를 선택하면 된다

2-2. 간격

x = [2, 3, 5, 7, 9]
y = [2, 3, 4, 7, 10]

fig, ax = plt.subplots(1, 3, figsize=(13, 4))
ax[0].plot([str(i) for i in x], y)
ax[1].plot(x, y)
ax[2].plot(x, y, marker='o')

plt.show()

기본적으로 plot은 y값만 있어도 그래프를 그릴 수 있지만 x값을 명시해주는 것이 좋다. 또, 마킹은 그래프를 보는데 방해가 없도록 해야한다.

2-3. 보간

from scipy.interpolate import make_interp_spline, interp1d
import matplotlib.dates as dates

fig, ax = plt.subplots(1, 2, figsize=(20, 7), dpi=300)

date_np = google.index
value_np = google['close']

date_num = dates.date2num(date_np)

# smooth
date_num_smooth = np.linspace(date_num.min(), date_num.max(), 50) 
spl = make_interp_spline(date_num, value_np, k=3)
value_np_smooth = spl(date_num_smooth)

# print
ax[0].plot(date_np, value_np)
ax[1].plot(dates.num2date(date_num_smooth), value_np_smooth)

plt.show()

2-1 에서 적용한 이동평균 역시 보간법중 하나이다. 여러 보간법이 있다.

2-4. 이중 축 사용

  • twinx() 사용하기

fig, ax1 = plt.subplots(figsize=(12, 7), dpi=150)

# First Plot
color = 'royalblue'

ax1.plot(google.index, google['close'], color=color)
ax1.set_xlabel('date')
ax1.set_ylabel('close price', color=color)  
ax1.tick_params(axis='y', labelcolor=color)

# # Second Plot
ax2 = ax1.twinx()  
color = 'tomato'

ax2.plot(google.index, google['volume'], color=color)
ax2.set_ylabel('volume', color=color)  
ax2.tick_params(axis='y', labelcolor=color)

ax1.set_title('Google Close Price & Volume', loc='left', fontsize=15)
plt.show()

2-5. ETC

fig = plt.figure(figsize=(12, 5))

x = np.linspace(0, 2*np.pi, 1000)
y1 = np.sin(x)
y2 = np.cos(x)


ax = fig.add_subplot(111, aspect=1)
ax.plot(x, y1,
       color='#1ABDE9',
       linewidth=2, label='sin')

ax.plot(x, y2,
       color='#F36E8E',
       linewidth=2, label='cos')

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

ax.legend(loc='upper center')

plt.show()
fig = plt.figure(figsize=(12, 5))

x = np.linspace(0, 2*np.pi, 1000)
y1 = np.sin(x)
y2 = np.cos(x)

# Ax2
ax = fig.add_subplot(111, aspect=1)
ax.plot(x, y1,
       color='#1ABDE9',
       linewidth=2,)

ax.plot(x, y2,
       color='#F36E8E',
       linewidth=2,)

ax.text(x[-1]+0.1, y1[-1], s='sin', fontweight='bold',
         va='center', ha='left', 
         bbox=dict(boxstyle='round,pad=0.3', fc='#1ABDE9', ec='black', alpha=0.3))

ax.text(x[-1]+0.1, y2[-1], s='cos', fontweight='bold',
         va='center', ha='left', 
         bbox=dict(boxstyle='round,pad=0.3', fc='#F36E8E', ec='black', alpha=0.3))


ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

plt.show()
fig = plt.figure(figsize=(7, 7))

np.random.seed(97)

x = np.arange(20)
y = np.random.rand(20)

ax = fig.add_subplot(111)
ax.plot(x, y,
       color='lightgray',
       linewidth=2,)

ax.set_xlim(-1, 21)

# x축의 범위는 -1에서 argmax또는 argmin 값이다
# y축의 범위는 np.max에서 np.max이다
# 이를 plot으로 선을 그어주고 scatter를 이용해 점을 찍어준다
# s는 점의 크기를, zorder는 plot보다 위에 있도록 설정했다
# max
ax.plot([-1, x[np.argmax(y)]], [np.max(y)]*2,
        linestyle='--', color='tomato'
       )

ax.scatter(x[np.argmax(y)], np.max(y), 
            c='tomato',s=50, zorder=20)

# min
ax.plot([-1, x[np.argmin(y)]], [np.min(y)]*2,
        linestyle='--', color='royalblue'
       )
ax.scatter(x[np.argmin(y)], np.min(y), 
            c='royalblue',s=50, zorder=20)

plt.show()

Last updated

Was this helpful?