728x90

K-Fold는 데이터의 낭비를 막고, 운 좋게 나온 점수를 걸러내어 모델의 일반화 성능을 확인하는 방법
K-Fold로 모델을 만드는 게 아니고, 모델의 구조와 하이퍼파라미터 설정이 믿을만한지 검증하는 것
하이퍼파라미터 조합값이 정말 좋은지 확인하기 위해 k번 반복해서 평균을 냄
하이퍼파라미터 조합이 n개라면
n*k번의 모델 학습을 반복해야 함
| 원래처럼 data split | K-Fold |
| 데이터가 운 좋게 잘 쪼개졌을 때 나온 점수를 보고 그 성능에 속을 수 있음 | 모든 데이터셋을 학습과 테스트에 사용 |
| 잘 쪼개진 특정 데이터에서만 성능이 잘 나올 수 있음 | 모든 데이터에 대한 성능을 확인할 수 있음 |
| 데이터가 적을 때 데이터의 20%는 학습에 참여 못함 | 모든 데이터가 학습과 테스트에 사용됨 (but 대용량 데이터에는 오랜 시간과 비용이 들기 때문에 적합하지 않을 수 있음) |