(Python 7-1๊ฐ) pandas I
210806
Pandas
๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ๋ฅผ ์ง์ํ๋ ๋ํ์ ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
panel data : pandas
๊ณ ์ฑ๋ฅarray ๊ณ์ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ numpy์ ํตํฉํ์ฌ, ๊ฐ๋ ฅํโ์คํ๋ ๋์ํธโ ์ฒ๋ฆฌ๊ธฐ๋ฅ์ ์ ๊ณต
์ธ๋ฑ์ฑ, ์ฐ์ฐ์ฉํจ์, ์ ์ฒ๋ฆฌํจ์๋ฑ์์ ๊ณตํจ
๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ํต๊ณ๋ถ์์์ํด์ฌ์ฉ
๋ฐ์ดํฐ ์ฉ์ด
์ ์ฒด ๋ฐ์ดํฐ : Data table, Sample
์ธ๋ก์ค : attribute, field, feature, column
๊ฐ๋ก์ค : instance, tuple, row
ํ๋์ ์ธ๋ก ์ค : Featrue vector
ํ๋์ ์์ : data
๋ฐ์ดํฐ ๋ก๋ฉ
import pandas as pd
data url = "์ฃผ์"
df_data = pd.read_csv(data_url, sep="\s+', header=None)
pd.read_csv
url์ ์๋ csv ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์จ๋ค
sep
: ๊ตฌ๋ถ์๋ฅผ ์๋ฏธ. ์ฌ๊ธฐ์๋ ๊ณต๋ฐฑ๋ฌธ์๋ฅผ ๊ตฌ๋ถ์๋ก ์ ํheader
: ๋ช ์์ ์ผ๋ก None์ ์ฐ๋ฉฐ ์ด ๋๋ ์ฒซ ํ์ ๋ฐ์ดํฐ๊ฐ ์ด ์ด๋ฆ์ด ๋๋ค.
Pandas์ ๊ตฌ์ฑ
Dataframe
Data Table ์ ์ฒด๋ฅผ ํฌํจํ๋ Object์ด๋ค.
Series
๋ฐ์ดํฐํ๋ ์ ์ค ํ๋์ ์ปฌ๋ผ์ ํด๋นํ๋ ๋ฐ์ดํฐ์ ๋ชจ์ Object ์ด๋ค.

Series
import pandas as pd
# Series ์์ฑํ๊ธฐ
>>> example_obj = pd.Series(dict_data, dtype=np.float32, name="example_data")
>>> example_obj
a 1.0
b 2.0
c 3.0
d 4.0
e 5.0
Name: example_data, dtype: float32
# data index์ ์ ๊ทผํ๊ธฐ, ๊ฐ ํ ๋นํ๊ธฐ
>>> example_obj["a"]
1.0
>>> example_obj["a"] = 3.2
>>> example_obj["a"]
# ๊ฐ, ์ธ๋ฑ์ค ์ป๊ธฐ
>>> example_obj.values
array([3.2, 2. , 3. , 4. , 5. ], dtype=float32)
>>> example_obj.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
# ๊ฐ, ์ธ๋ฑ์ค naming
>>> example_obj.name = "number"
>>> example_obj.index.name = "alphabet"
>>> example_obj
alphabet
a 3.2
b 2.0
c 3.0
d 4.0
e 5.0
Name: number, dtype: float32
Dataframe
# ๋ฐ์ดํฐํ๋ ์ ์์ฑ
>>> raw_data =
{'first_name':['Jason', 'Molly', 'Tina'],
'last_name':['Miller', 'Jacobson', 'Ali'],
'age':[42, 52, 36],
'city':['San Francisco', 'Baltimore', 'Miami']
}
>>> df = pd.DataFrame(raw_data)
>>> df
first_name last_name age city
0 Jason Miller 42 San Francisco
1 Molly Jacobson 52 Baltimore
2 Tina Ali 36 Miami
์ดํ์ pandas ๋ด์ฉ์ ์ด์ ์ ์์ฑํ ์๊ฐํ ํํธ์ ๋์ผํ ๋ด์ฉ์ด ๋ง์ ์ด๋ก ๋์ฒดํฉ๋๋ค.
Last updated
Was this helpful?