이전 실습 내용은 여기서 볼 수 있다.

 

딥러닝 허깅페이스 트랜스포머 with 파이토치 실습-2

이전 실습은 여기서 확인할 수 있다. 딥러닝 허깅페이스 트랜스포머 with 파이토치 실습-1구글 코랩구글의 코랩 (colaboratory)에서는 컴퓨터의 os와 상관없이 제공되는 GPU를 사용해서 무료로 인공지

musej.tistory.com

머신러닝

단일 신경망 모델을 포함한 다양한 통계 모형을 사용해서 특정 업무에서 인간의 판단을 대체 혹은 보조하기 위해 사용하는 것

딥러닝

머신러닝 모델 중에서 신경망 모델에 특화해서 다층 신경망 모델을 쌓아 올린 것

학습 및 검증 데이터 분리

머신러닝과 딥러닝 모두 원본 데이터 세트 8:2 혹은 7:3이나 5:5의 비율로 나눈다.

원본 데이터 세트 = 학습 데이터 세트 (학습용) + 테스트 데이터 세트 (테스트용)

 그 이유는 비교적 많은 학습용 데이터로 모델을 학습 시킨뒤, 사용하지 않은 소규모 테스트용 데이터로 성능을 측정하면

학습에 사용하지 않은 데이터이기때문에 객관적인 성능 평가가 가능해지기 때문이다.

BUT 학습용 데이터를 또 다시 나누는 경우가 있다.

학습 데이터 세트 (학습용) = 학습 데이터 세트 (진짜 학습용) + 테스트 데이터 세트 (검증 데이터 세트)

학습용 데이터를 교차 검증 등의 이유로 위와 같이 다시 한번 더 나누는 경우가 있다.

여기서 분리된 테스트용 데이터 세트를 "검증 데이터 세트" 라고 부른다.