(2-2) Line Plot 사용하기
210814
1. 기본 Line plot
Line Plot
연속적으로 변화하는 값을 순서대로 점으로 나타내고, 이를 선으로 연결한 그래프
시간이나 순서에 대한 변화를 볼 수 있고 추세를 살피기 위해 사용한다
시계열 분석에 특화
.line이 아니라.plot()을 사용한다.5개 이하의 선을 사용하는 것을 추천한다
선이 많으면 가독성이 하락한다
선을 구별하는 요소는 다음과 같다
색상
마커 : 점을 동그라미, 세모 등으로 표현하기
선의 종류
시시각각 변동하는 데이터는 노이즈가 커 패턴이나 추세를 파악하기 어렵기 때문에 노이즈를 줄이기 위해 스무딩을 사용한다
2. 정확한 Line Plot
2.1 추세에 집중
Bar plot과 다르게 꼭 축을 0에 초점을 둘 필요가 없다. 또 구체적인 line plot 보다는 생략된것이 나을 수 있다.

깔끔한 그래프를 원한다면 항상 후자가 좋아보이지만 정확한 데이터 수치가 중요하다면 왼쪽도 좋은 그래프이다
2.2 간격
사람은 그래프의 기울기에서 데이터의 변화를 느낀다. 그래서 데이터 간격이 일정하지 않으면 오해를 줄 수 잇기 때문에 규칙적인 간격을 사용해야 한다. 또한, 선으로 데이터를 이으면 없는 데이터도 있다고 생각할 수 있기 때문에 점으로 마킹을 해주는 것이 중요하다.

가장 오른쪽 그래프가 제일 좋다
2.3 보간
점과 점을 잇는 것을 보간이라고 한다. 없는 데이터가 있는 것처럼 보이는 효과가있다. 데이터의 에러나 노이즈가 포함되어있을 때 데이터의 이해를 돕는다.
특히 곡선 보간은 좀 더 사실적으로 나타낸 것 같고 데이터의 추세에 어울리기 때문에 많이 사용하지만 많은 오해의 여지가 있기 때문에 일반적으로는 보간의 사용을 최소화하는 것이 좋다.
트렌트나 틀을 크게 보여주고 싶을 때는 종종 사용한다
2.4 이중 축 사용
한 개의 plot에 대해서 2개의 x축 또는 2개의 y축을 쓰는 것을 이중축이라고 한다. 단위가 다른 두 지표를 y축으로 자주 쓰곤 한다.
이중축을 사용하면 그래프간에 상관관계가 있어 보일 수 있기 때문에 두 개의 plot을 사용하는 것을 추천한다.

2.5 ETC
범례대신 그래프의 끝에 레이블을 추가하는 것이 좋다

Min, Max등의 원하는 정보는 추가해주면 좋다

Uncertainty를 표현할 때는 연한 색을 사용하는 것이 좋다. (신뢰구간, 분산 등)

2-2. Line Plot 사용하기
1. 기본 Line Plot
1-1. plot() 기본
plot(): line()이 아니라는 점!
plot은 x1,x2,⋯x1,x2,⋯, y1,y2,⋯y1,y2,⋯ 데이터를 사용해서 그립니다.
line plot은 왼쪽에서 오른쪽으로 그리는 게 일반적이지만 문법 자체는 이전 점 (x1,y1)(x1,y1)에서 (x2,y2)(x2,y2)로 잇고, (x2,y2)(x2,y2)에서 (x3,y3)(x3,y3)로 잇는 순차적인 선으로 구성된 그래프입니다.

1-3-2-4-5 와 같이 구성하면 오른쪽 그래프처럼 뒤죽박죽인 그래프가 된다.
좀 더 테크닉을 사용하면 다음과 같이 정N각형이나 원을 그릴 수도 있습니다.

이 처럼 Line plot을 왼쪽에서 오른쪽으로 쓸 수도 있지만 점과 점을 이으는 그래프로 생가한다면 위처럼 그릴 수 있다. 또 다른 예로 무작위의 움직임을 표현할 때도 가능하다.
1-2. plot 변형하기
가볍게 랜덤한 데이터를 사용해서 그래프의 요소를 변경해보겠습니다.

3가지 요소를 변경하며 감을 잡아봅시다.
색(color)
마커(marker) : 마커의 종류
선의 종류(linestyle) :
solid,dashed,dashdot,dotted,None,

1-3. Line plot을 위한 전처리
우선 시계열 데이터를 받아보겠습니다.
미국 주식 데이터셋입니다.
symbol
open
close
low
high
volume
date
2016-01-05
WLTW
123.430000
125.839996
122.309998
126.250000
2163600.0
2016-01-06
WLTW
125.239998
119.980003
119.940002
125.540001
2386400.0
2016-01-07
WLTW
116.379997
114.949997
114.930000
119.739998
2489500.0
2016-01-08
WLTW
115.480003
116.620003
113.500000
117.440002
2006300.0
2016-01-11
WLTW
117.010002
114.970001
114.089996
117.330002
1408600.0
...
...
...
...
...
...
...
2016-12-30
ZBH
103.309998
103.199997
102.849998
103.930000
973800.0
2016-12-30
ZION
43.070000
43.040001
42.689999
43.310001
1938100.0
2016-12-30
ZTS
53.639999
53.529999
53.270000
53.740002
1701200.0
2016-12-30
AIV
44.730000
45.450001
44.410000
45.590000
1380900.0
2016-12-30
FTV
54.200001
53.630001
53.389999
54.480000
705100.0
851264 rows × 6 columns
symbol
open
close
low
high
volume
date
2010-01-04
GOOGL
626.950006
626.750011
624.240011
629.510005
3908400.0
2010-01-05
GOOGL
627.180001
623.990017
621.540016
627.839984
6003300.0
2010-01-06
GOOGL
625.860033
608.260035
606.360021
625.860033
7949400.0
2010-01-07
GOOGL
609.400008
594.100015
592.649990
609.999993
12815700.0
2010-01-08
GOOGL
592.000005
602.020005
589.110015
603.250036
9439100.0

이동평균을 사용해보겠습니다.
원래 데이터는 시계열데이터기 때문에 굉장히 노이즈가 많은 데이터이다. 이동평균을 사용해서 데이터를 구하면 이 데이터들은 노이즈가 줄어들게 된다. 이 때, pandas의 rolling함수를 이용하면 쉽게 구할 수 있다.

2. 정확한 Line Plot
2.1 추세에 집중

정확한 데이터를 통해 기록으로 남기고 싶으면 왼쪽, 추세를 보여주고 싶다 하면은 오른쪽 그래프를 선택하면 된다
2-2. 간격
기본적으로 plot은 y값만 있어도 그래프를 그릴 수 있지만 x값을 명시해주는 것이 좋다. 또, 마킹은 그래프를 보는데 방해가 없도록 해야한다.

2-3. 보간

2-1 에서 적용한 이동평균 역시 보간법중 하나이다. 여러 보간법이 있다.
2-4. 이중 축 사용
twinx()사용하기

2-5. ETC



Last updated
Was this helpful?