๊ณต๋ชจ์
1. ์ฃผ์ : ์ฌ๋ฆฌํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ "์ฌ๋ฆฌ ์ฑํฅ์ ์์ธก"ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐ (๊ณต๋ชจ์ ๊ด๋ จ ์๊ฐ ๋งํฌ)
- ์ฌ๋ฆฌํ ํ ์คํธ์ ๋ฒ์ฃผ๊ฐ ๋์ด์ง์ ๋ฐ๋ผ ํด๋น ์์ญ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๊ธฐ ์ํด ๊ตญ๊ฐ ์ ๊ฑฐ ํฌํ์/๋ฏธํฌํ์์ ์ฌ๋ฆฌํ์ ์ฑํฅ์ ๋ถ์
2. ์ฐธ๊ฐ ๋์ : SW์ค์ฌ๋ํ ์์ํ์ (์์ ํตํด ๊ฐ ๋ํ ๋น ์ต๋ 5ํ ์ ์ ํ์ฌ ๋ณธ์ ์ง์ถ)
Summary
1. ์ฐธ์ฌ ์ธ์ : 5๋ช
2. ์ค๋น ๊ธฐ๊ฐ : 2022.08.01~2022.08.26
3. ์ต์ข ์ ์ถ ๋ฐ ์์ (ํ๊ฐ์งํ : AUC)
- ์ ์ถ ์ฝ๋
- Public : 5์ (0.90684)
- Private : 7์ (0.90276)
4. ๊ทธ ์ธ
๋ฐฉํ ๋ง๋ฐ์ง์ ์ฐธ๊ฐํ ๊ณต๋ชจ์ ์ผ๋ก
๋ฆฌ๋๋ณด๋ ๊ฒฐ๊ณผ๋ง ๋ดค์ ๋ ์์ ์ ํต๊ณผํ ์ ์๋ ์์๋ฅผ ๊ฐ์ง๊ณ ์์์ง๋ง,
์ต์ข ์ฝ๋ ์ ์ถ ๋ถ๋ถ์์ Data Leakage ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ๊ฒ ์ค๊ฒฉ ์ฒ๋ฆฌ๊ฐ ๋์๋ค.
๋ฌธ์ ๊ฐ ๋์๋ ๋ถ๋ถ์ ์ด ๋ถ๋ถ์ผ๋ก, train data๊ฐ ์๋ test data์ ์ต๋น๊ฐ์ ์ฌ์ฉํ์ฌ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋์๋ค.
for i in test.columns :
test.loc[test[i].isna(), i] = test[i].mode()[0]
์ฑ๋ฅ์ ๋์ด๋ ๊ฒ์ ์ง์คํ๋ค ๋ณด๋,
ํผ์ฒ๋ฅผ ๋ง๋๋ ๋ถ๋ถ์์ ๋ฐ์ํ ์ ์๋ ๋ฌธ์ ์ ๋ํด ๊ผผ๊ผผํ๊ฒ ํ์ธํ์ง ๋ชปํ๋ ๊ฒ ๊ฐ๋ค.
๊ธฐ๋ณธ์ ์ธ ๋ถ๋ถ์ ๋์ณ ์ค๊ฒฉ ๋นํด ์์ฌ์์ด ํฌ์ง๋ง,
๊ทธ๋งํผ Data Leakage์ ๋ํ ๊ฒฝ๊ฐ์ฌ์ ํค์ธ ์ ์๋ ๊ธฐํ์๋ ๊ฒ ๊ฐ๋ค.
๋๊ธ