(2-2) Line Plot 사용하기

210814

1. 기본 Line plot

Line Plot

  • 연속적으로 변화하는 값을 순서대로 점으로 나타내고, 이를 선으로 연결한 그래프

  • 시간이나 순서에 대한 변화를 볼 수 있고 추세를 살피기 위해 사용한다

    • 시계열 분석에 특화

  • .line 이 아니라 .plot() 을 사용한다.

  • 5개 이하의 선을 사용하는 것을 추천한다

    • 선이 많으면 가독성이 하락한다

  • 선을 구별하는 요소는 다음과 같다

    • 색상

    • 마커 : 점을 동그라미, 세모 등으로 표현하기

    • 선의 종류

  • 시시각각 변동하는 데이터는 노이즈가 커 패턴이나 추세를 파악하기 어렵기 때문에 노이즈를 줄이기 위해 스무딩을 사용한다

2. 정확한 Line Plot

2.1 추세에 집중

Bar plot과 다르게 꼭 축을 0에 초점을 둘 필요가 없다. 또 구체적인 line plot 보다는 생략된것이 나을 수 있다.

깔끔한 그래프를 원한다면 항상 후자가 좋아보이지만 정확한 데이터 수치가 중요하다면 왼쪽도 좋은 그래프이다

2.2 간격

사람은 그래프의 기울기에서 데이터의 변화를 느낀다. 그래서 데이터 간격이 일정하지 않으면 오해를 줄 수 잇기 때문에 규칙적인 간격을 사용해야 한다. 또한, 선으로 데이터를 이으면 없는 데이터도 있다고 생각할 수 있기 때문에 점으로 마킹을 해주는 것이 중요하다.

  • 가장 오른쪽 그래프가 제일 좋다

2.3 보간

점과 점을 잇는 것을 보간이라고 한다. 없는 데이터가 있는 것처럼 보이는 효과가있다. 데이터의 에러나 노이즈가 포함되어있을 때 데이터의 이해를 돕는다.

특히 곡선 보간은 좀 더 사실적으로 나타낸 것 같고 데이터의 추세에 어울리기 때문에 많이 사용하지만 많은 오해의 여지가 있기 때문에 일반적으로는 보간의 사용을 최소화하는 것이 좋다.

트렌트나 틀을 크게 보여주고 싶을 때는 종종 사용한다

2.4 이중 축 사용

한 개의 plot에 대해서 2개의 x축 또는 2개의 y축을 쓰는 것을 이중축이라고 한다. 단위가 다른 두 지표를 y축으로 자주 쓰곤 한다.

이중축을 사용하면 그래프간에 상관관계가 있어 보일 수 있기 때문에 두 개의 plot을 사용하는 것을 추천한다.

2.5 ETC

범례대신 그래프의 끝에 레이블을 추가하는 것이 좋다

Min, Max등의 원하는 정보는 추가해주면 좋다

Uncertainty를 표현할 때는 연한 색을 사용하는 것이 좋다. (신뢰구간, 분산 등)

2-2. Line Plot 사용하기

1. 기본 Line Plot

1-1. plot() 기본

  • plot() : line()이 아니라는 점!

plot은 x1,x2,⋯x1,x2,⋯, y1,y2,⋯y1,y2,⋯ 데이터를 사용해서 그립니다.

line plot은 왼쪽에서 오른쪽으로 그리는 게 일반적이지만 문법 자체는 이전 점 (x1,y1)(x1,y1)에서 (x2,y2)(x2,y2)로 잇고, (x2,y2)(x2,y2)에서 (x3,y3)(x3,y3)로 잇는 순차적인 선으로 구성된 그래프입니다.

1-3-2-4-5 와 같이 구성하면 오른쪽 그래프처럼 뒤죽박죽인 그래프가 된다.

좀 더 테크닉을 사용하면 다음과 같이 정N각형이나 원을 그릴 수도 있습니다.

이 처럼 Line plot을 왼쪽에서 오른쪽으로 쓸 수도 있지만 점과 점을 이으는 그래프로 생가한다면 위처럼 그릴 수 있다. 또 다른 예로 무작위의 움직임을 표현할 때도 가능하다.

1-2. plot 변형하기

가볍게 랜덤한 데이터를 사용해서 그래프의 요소를 변경해보겠습니다.

3가지 요소를 변경하며 감을 잡아봅시다.

  • 색(color)

  • 마커(marker) : 마커의 종류

  • 선의 종류(linestyle) : solid, dashed, dashdot, dotted, None,

1-3. Line plot을 위한 전처리

우선 시계열 데이터를 받아보겠습니다.

미국 주식 데이터셋입니다.

symbol

open

close

low

high

volume

date

2016-01-05

WLTW

123.430000

125.839996

122.309998

126.250000

2163600.0

2016-01-06

WLTW

125.239998

119.980003

119.940002

125.540001

2386400.0

2016-01-07

WLTW

116.379997

114.949997

114.930000

119.739998

2489500.0

2016-01-08

WLTW

115.480003

116.620003

113.500000

117.440002

2006300.0

2016-01-11

WLTW

117.010002

114.970001

114.089996

117.330002

1408600.0

...

...

...

...

...

...

...

2016-12-30

ZBH

103.309998

103.199997

102.849998

103.930000

973800.0

2016-12-30

ZION

43.070000

43.040001

42.689999

43.310001

1938100.0

2016-12-30

ZTS

53.639999

53.529999

53.270000

53.740002

1701200.0

2016-12-30

AIV

44.730000

45.450001

44.410000

45.590000

1380900.0

2016-12-30

FTV

54.200001

53.630001

53.389999

54.480000

705100.0

851264 rows × 6 columns

symbol

open

close

low

high

volume

date

2010-01-04

GOOGL

626.950006

626.750011

624.240011

629.510005

3908400.0

2010-01-05

GOOGL

627.180001

623.990017

621.540016

627.839984

6003300.0

2010-01-06

GOOGL

625.860033

608.260035

606.360021

625.860033

7949400.0

2010-01-07

GOOGL

609.400008

594.100015

592.649990

609.999993

12815700.0

2010-01-08

GOOGL

592.000005

602.020005

589.110015

603.250036

9439100.0

이동평균을 사용해보겠습니다.

원래 데이터는 시계열데이터기 때문에 굉장히 노이즈가 많은 데이터이다. 이동평균을 사용해서 데이터를 구하면 이 데이터들은 노이즈가 줄어들게 된다. 이 때, pandas의 rolling함수를 이용하면 쉽게 구할 수 있다.

2. 정확한 Line Plot

2.1 추세에 집중

정확한 데이터를 통해 기록으로 남기고 싶으면 왼쪽, 추세를 보여주고 싶다 하면은 오른쪽 그래프를 선택하면 된다

2-2. 간격

기본적으로 plot은 y값만 있어도 그래프를 그릴 수 있지만 x값을 명시해주는 것이 좋다. 또, 마킹은 그래프를 보는데 방해가 없도록 해야한다.

2-3. 보간

2-1 에서 적용한 이동평균 역시 보간법중 하나이다. 여러 보간법이 있다.

2-4. 이중 축 사용

  • twinx() 사용하기

2-5. ETC

Last updated

Was this helpful?