๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Project

[๊ณต๋ชจ์ „] SW์ค‘์‹ฌ๋Œ€ํ•™ ๊ณต๋™ AI ๊ฒฝ์ง„๋Œ€ํšŒ <์˜ˆ์„ >

by 2soupsoup 2023. 1. 18.

๊ณต๋ชจ์ „

1. ์ฃผ์ œ : ์‹ฌ๋ฆฌํ•™ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ "์‹ฌ๋ฆฌ ์„ฑํ–ฅ์„ ์˜ˆ์ธก"ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœ (๊ณต๋ชจ์ „ ๊ด€๋ จ ์†Œ๊ฐœ ๋งํฌ)

  • ์‹ฌ๋ฆฌํ•™ ํ…Œ์ŠคํŠธ์˜ ๋ฒ”์ฃผ๊ฐ€ ๋„“์–ด์ง์— ๋”ฐ๋ผ ํ•ด๋‹น ์˜์—ญ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ตญ๊ฐ€ ์„ ๊ฑฐ ํˆฌํ‘œ์ž/๋ฏธํˆฌํ‘œ์ž์˜ ์‹ฌ๋ฆฌํ•™์  ์„ฑํ–ฅ์„ ๋ถ„์„

2. ์ฐธ๊ฐ€ ๋Œ€์ƒ : SW์ค‘์‹ฌ๋Œ€ํ•™ ์†Œ์†ํ•™์ƒ (์˜ˆ์„   ํ†ตํ•ด ๊ฐ ๋Œ€ํ•™ ๋‹น ์ตœ๋Œ€ 5ํŒ€ ์„ ์ •ํ•˜์—ฌ ๋ณธ์„  ์ง„์ถœ)


Summary

1. ์ฐธ์—ฌ ์ธ์› : 5๋ช…

2. ์ค€๋น„ ๊ธฐ๊ฐ„ : 2022.08.01~2022.08.26

3. ์ตœ์ข… ์ œ์ถœ ๋ฐ ์ˆœ์œ„ (ํ‰๊ฐ€์ง€ํ‘œ : AUC)

4. ๊ทธ ์™ธ


๋ฐฉํ•™ ๋ง‰๋ฐ”์ง€์— ์ฐธ๊ฐ€ํ•œ ๊ณต๋ชจ์ „์œผ๋กœ

๋ฆฌ๋”๋ณด๋“œ ๊ฒฐ๊ณผ๋งŒ ๋ดค์„ ๋• ์˜ˆ์„ ์„ ํ†ต๊ณผํ•  ์ˆ˜ ์žˆ๋Š” ์ˆœ์œ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์ง€๋งŒ,

์ตœ์ข… ์ฝ”๋“œ ์ œ์ถœ ๋ถ€๋ถ„์—์„œ Data Leakage ๋ฌธ์ œ๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ฒŒ ์‹ค๊ฒฉ ์ฒ˜๋ฆฌ๊ฐ€ ๋˜์—ˆ๋‹ค.

 

๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ๋˜ ๋ถ€๋ถ„์€ ์ด ๋ถ€๋ถ„์œผ๋กœ,  train data๊ฐ€ ์•„๋‹Œ test data์˜ ์ตœ๋นˆ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ๋‹ค.

for i in test.columns :
	test.loc[test[i].isna(), i] = test[i].mode()[0]

 

์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ฒƒ์— ์ง‘์ค‘ํ•˜๋‹ค ๋ณด๋‹ˆ,

ํ”ผ์ฒ˜๋ฅผ ๋งŒ๋“œ๋Š” ๋ถ€๋ถ„์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ผผ๊ผผํ•˜๊ฒŒ ํ™•์ธํ•˜์ง€ ๋ชปํ–ˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค.

๊ธฐ๋ณธ์ ์ธ ๋ถ€๋ถ„์„ ๋†“์ณ ์‹ค๊ฒฉ ๋‹นํ•ด ์•„์‰ฌ์›€์ด ํฌ์ง€๋งŒ,

๊ทธ๋งŒํผ Data Leakage์— ๋Œ€ํ•œ ๊ฒฝ๊ฐ์‹ฌ์„ ํ‚ค์šธ ์ˆ˜ ์žˆ๋˜ ๊ธฐํšŒ์˜€๋˜ ๊ฒƒ ๊ฐ™๋‹ค.

๋Œ“๊ธ€