5 Sat
ํ์
์ค๋ฌด์์๊ฒ ๋ฐฐ์ฐ๋ Kaggle ๋จธ์ ๋ฌ๋ ์
๋ฌธ
์ ํํ๊ท(Linear Regression) ์๊ฐ
์ ํ ํจ์๋ฅผ ์ด์ฉํด์ ํ๊ท๋ฅผ ์ํํ๋ ๋ชจ๋ธ
Regression ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅํ๊ฐ ์งํ - MSE, RMSE, MAE
ํ์ต๋ ์์ธก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์์ด์ผ ํ๋ค.
์ฑ๋ฅ์ ํ๊ฐํ๋ ์ฒ๋๋ ๋ง์ผ๋ฉฐ ๊ทธ ์ค ํ๊ท ์ ๊ณฑ ์ค์ฐจ, MSE๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค.
MSE๊ฐ ์์ ๋ชจ๋ธ์ ์ข์ ๋ชจ๋ธ๋ก ๋ณผ ์ ์๋ค.
MSE๋ ์ฐจ์ด๋ฅผ ์ ๊ณฑํด์ ๋ํ๋ฏ๋ก ์ฐจ์ด๊ฐ ์ฆํญ๋๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด MSE์ ๋ฃจํธ๋ฅผ ์์ด ํํ์ RMSE๋ ๋ง์ด ์ฌ์ฉํ๋ค
๋ํ, ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ์ ์ฐจ์ด์ ์ ๋๊ฐ์ ์ทจํ MAE, Mean Absolute Error๋ ํ์ฉ๋ ์ ์๋ค
scikit-learn ์๊ฐ
์ ํ ํ๊ท๋ฅผ ํฌํจํ ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฝ๊ณ ๊ฐํธํ๊ฒ ๊ตฌํํ ์ ์๋๋ก ๋์์ฃผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
๊ธฐ๋ณธ ์ฌ์ฉ๋ฒ
Estimator ์ ์ธ
ex) LinearRegression
.fit()
ํจ์ ํธ์ถ์ ํตํ ํธ๋ ์ด๋.predict()
ํจ์ ํธ์ถ์ ํตํ ์์ธก
๋ฐ์ดํฐ ๋๋๊ธฐ
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test =\
train_test_split(X, y, test_size=0.2)
Estimator ์ ์ธํ๊ธฐ
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
MSE, RMSE ์ ์ํ๊ธฐ
from sklearn.metrics import mean_squared_error
MSE = mean_squared_error(y_test, y_preds)
RMSE = np.sqrt(MSE)
Linear Regression์ผ๋ก ํค์ ๋ํ ๋ชธ๋ฌด๊ฒ ์์ธกํด๋ณด๊ธฐ
์์ธก ๋ชจ๋ธ
Input : ํค
Output : ๋ชธ๋ฌด๊ฒ
Estimator : Linear Regression
df.apply(lambda x: x * 2.54)
df๋ด์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋๋ค ํจ์๋ฅผ ๊ฑฐ์ณ ๋ณํํ๋ค.
Kaggle ๋ฐ Kaggle Competition ์๊ฐ
์บ๊ธ
์ธ๊ณ ์ต๋์ ๋ฐ์ดํฐ ๊ณผํ์ ์ปค๋ฎค๋ํฐ
Data Scientist๋ฅผ ์ํ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์์ธก ๊ฒฝ์ง๋ํ ํ๋ซํผ
๊ธฐ์ ๋ฐ ๋จ์ฒด์์ ๋ฐ์ดํฐ์ ํด๊ฒฐ ๊ณผ์ ๋ฅผ ๋ฑ๋กํ๋ฉด, Kaggle์ Data Scientist๋ค์ด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ๊ฒฝ์ํ๋ค.
Last updated
Was this helpful?