Model Evaluation in Regression Models(회귀 모델의 평가)
- 동일 데이터 셋에 대한 훈련 및 테스트
- Train/Test Split
- 상호배타적인 훈련/테스트 셋으로 분할
- 원본 데이터 셋에 의존적
- K-fold 교차 검증
- 여러 번의 훈련/테스트 분할을 수행
- 더 일관성 있는 표본 외 정확도
회귀 모델의 목표는 알려지지 않은 케이스를 정확히 예측하는 모델을 구축하는 것입니다.
이를 위해 모델 구축 후에 회귀 평가를 수행해야 합니다.
용어 정리
-
훈련 정확도(training accruacy)
- 테스트 데이터셋을 사용하여 모델이 얼마나 많은 예측을 올바르게 하는지를 나타내는 비율입니다.
- 하지만, 높은 훈련 정확도는 데이터에 과적합되어있음을 나타낼 수 있습니다.
-
표본 외 정확도(out of sample accuracy)
- 모델이 훈련되지 않은 데이터에 대해 얼마나 많은 예측을 올바르게 하는지를 나타내는 비율입니다.
- 모델의 목적이 알려지지 않은 데이터에 대한 올바른 예측을 하는 것이므로, 높은 표본 외 정확도를 가지는 것이 중요합니다.
1. 동일 데이터셋에 대한 훈련 및 테스트
모델 훈련에 전체 데이터셋을 사용한 후, 동일한 데이터셋의 일부를 사용하여 테스트합니다.
이 방법은 높은 훈련 정확도를 보일 수 있지만, 테스트 데이터 포인트를 모두 알고 있기 때문에 일반적으로 낮은 표본 외 정확도를 보입니다.
2. 훈련/테스트 분할(Train/Test Split)
이 방법은 데이터셋의 일부를 훈련에 사용하고, 나머지를 테스트에 사용합니다.
훈련/테스트 분할은 데이터셋을 상호 배타적인 훈련 및 테스트 세트로 분할합니다.
그 후 훈련 세트로 훈련하고, 테스트 세트로 테스트합니다.
이 방법은 테스트 데이터셋이 훈련 데이터셋의 일부가 아니기 때문에, 표본 외 정확도에 대해 더 정확한 평가를 제공합니다.
이는 실세계 문제에 더욱 현실적입니다.
훈련/테스트 분할의 문제는 데이터가 훈련과 테스트에 사용된 데이터셋에 매우 의존적이라는 것입니다.
이로 인해 훈련/테스트 분할은 동일 데이터셋에 대한 훈련 및 테스트보다는 나은 표본 외 예측을 가지지만, 의존성 문제를 가집니다
3. K-fold 교차 검증
K-겹 교차 검증은 위의 문제를 대부분 해결합니다.
K-겹 교차 검증은 동일한 데이터셋을 사용하여 여러 번의 훈련/테스트 분할을 수행하며, 각 분할은 다르게 수행됩니다.
그리고 그 결과를 평균 내어 더 일관성 있는 표본 외 정확도를 생성합니다.
부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>
728x90
'AI' 카테고리의 다른 글
Simple Linear Regression 실습 (0) | 2023.07.05 |
---|---|
회귀 모델에서의 손실 함수 (0) | 2023.07.05 |
Supervised vs Unsupervised (0) | 2023.07.05 |
비지도 학습(Unsupervised Learning) (0) | 2023.07.05 |
지도 학습(Supervised Learning) (0) | 2023.07.05 |