OT에 이어 바로 3과목을 수강하게 되었는데 첫 번째 주제는 분석모형 설계였다.
강의를 통해서 위의 기계학습 중에서 지도학습과 비지도학습이 제일 중요하다는 것을 배울 수 있었다.
지도 학습과 비지도 학습은 Y값(종속변수)의 유무에 따라 분류되고 지도학습은 회귀와 분류 2가지로 나눠지고 비지도학습은 군집화, 차원축소, 연관규칙, 자기조직화지도로 나눠지는 것을 알 수 있었다.
* 시험팁 : 지도 학습 시험 문제에서는 회귀와 분류에 해당하는 것을 고르는 문제가 나오는데 의사결정나무, 랜덤포레스트, K-NN, SVM, 인공신경망, 앙상블처럼 회귀와 분류가 다 가능한 애들은 빼고 보면 된다고 하셨다!
말로만 배우고 넘어가면 나중에 기억이 안 나기 때문에 바로 문제도 같이 봐주셨다.
그다음 강의에서는 데이터분할에 대해서 설명해 주셨는데
먼저 데이터분할에 대해서 설명을 해주셨는데 데이터분할을 하는 이유는 분석 모델의 일반화 성능을 좋게 하기 위해서라고 한다.
위와 같이 Train 데이터와 Test 데이터로 나눠진 데이터는 세부적으로 Train / Validation / Test 이렇게 3가지로 나눠진다고 하는데 Validation 데이터는 중간에 모델 성능이 좀 떨어지거나 하면 검증 모형을 미세조정하는 용도로 사용된다고 한다.
그리고 데이터분할에도 여러 가지 방법이 있다고 한다.
1. 단순히 랜덤 하게 Train과 Test로 나누는 방법인 홀드아웃
2. 데이터셋을 K개의 그룹으로 나눈 다음 그중에 하나는 Test 데이터 나머지는 Train 데이터로 사용하는 K-Fold 교차 검증(위의 그림은 3 폴드 교차 검증이다.)
3. 전체 데이터를 N개라고 두고 N개중 P개의 데이터를 Test로 두고 나머지를 Train 데이터로 쓰는 방식인 LpOCV
4. LpOCV 모델에서 p가 1개인 거부터 n개까지 해서 평균을 내고 성능이 좋은 모델을 선택해서 쓰는 LOOCV
5. 전체 데이터에서 복원 추출, 랜덤 샘플링을 통하는 Bootstrap
위에 대한 자세한 특성을 또 자료로 보여주셨는데 아래와 같다.
'데이터 공부 정리' 카테고리의 다른 글
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 2. 데이터 전처리 3 (with 메타코드M) (0) | 2024.02.25 |
---|---|
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 2. 데이터 전처리 2 (with 메타코드M) (0) | 2024.02.19 |
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 2. 데이터 전처리 1 (with 메타코드M) (0) | 2024.02.13 |
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 1. 파이썬 기본 문법 (with 메타코드M) (0) | 2024.02.13 |
[빅데이터분석기사 필기] 메타코드M 빅데이터분석기사 필기 공부(Orientation) (0) | 2024.01.20 |