-
ML을 시작하는 사람들을 위해 (2)Machine Learning 2023. 12. 22. 14:50728x90
앞장에서 말했듯이 예측 내용에 따라 ML을 적용해야한다.
Supervised Machine Learning
supervised machine learning은 학습데이터에 기능값과 알려진 레이블 값이 모두 포함된 ML 알고리즘의 일반적인 용어이다.
과거 관찰에서 기능과 레이블 간의 관계를 결정하여 모델을 학습시키는데 사용하므로 기능에 대해 알 수 없는 레이블을 예측할 수 있다.
Regression
regression은모델에서 예측한 레이블이 숫자 값인 supervised machine learning의 한 형태이다.
예를 들면,
- 온도, 강우량 및 풍속에 따라 지정된 날에 판매되는 아이스크림의 수.
- 평방 피트의 크기에 따라 속성의 판매 가격, 포함 된 침실의 수, 그 위치에 대한 사회 경제적 메트릭.
- 엔진 크기, 무게, 너비, 높이 및 길이에 따라 자동차의 연료 효율(갤런당 마일 단위).
Classification
classification은 레이블이 클래스를 나타내는 supervised machine learning의 한 형태이다.
두가지 시나리오가 있다.
1. Binary classification
이진분류에서 레이블은 관찰된 항목이 특정 클래스의 인스턴스 인지 아닌지 여부를 결정한다.
또는 상호 배타적인 두가지 결과 중 하나를 예측한다.
예를 들면,
- 환자가 체중, 나이, 혈당 수준 등과 같은 임상 메트릭에 따라 당뇨병의 위험이 있는지 여부.
- 은행 고객이 소득, 신용 기록, 연령 및 기타 요인에 따라 대출을 기본값으로 설정할지 여부.
- 우편물 목록 고객이 인구 통계 특성 및 과거 구매에 따라 마케팅 제안에 긍정적으로 응답할지 여부.
이러한 모든 예제에서 모델은 가능한 단일 클래스에 대해 이진 (true/false) 또는 (양성/음성)을 예측한다.
2. multiclass classification
이진분류를 확장하여 여려 클래스 중 하나를 나타내는 레이블을 예측한다.
예를 들면,
- 펭귄의 종(Adelie, Gentoo 또는 Chinstrap)은 물리적 측정을 기반으로 한다.
- 영화의 장르(코미디, 공포, 로맨스, 모험, 또는 공상 과학)는 출연진, 감독 및 예산을 기준으로 한다.
대부분 상호배타적인 레이블을 예측하는 데 사용된다. (펭귄은 Gentoo이면서 Adelie일 수 없는 경우)
그러나 다중 레이블 분류 모델을 학습하는데 사용할 수 있는 알고리즘도 있다.
Unsupervised Machine Learning
알려진 레이블 없이 기능값 만으로 구성된 데이터를 사용하여 모델은 학습하는 것이다.
학습데이터에서 관찰한 기능 간의 관계를 정의한다.
Clustering
unsupervised machine learing의 가장 일반적인 형태이다. 클러스터링은 해당 기능에 따라 관찰값 간의 유사성을 식별하고 개별 클러스터로 그룹화한다.
예를 들면,
- 크기, 잎 수 및 꽃잎 수에 따라 비슷한 꽃을 그룹화
- 인구 통계 특성 및 구매 동작에 따라 유사한 고객 그룹을 식별
어떤 면에서 클러스터링은 다중 클래스 분류와 유사하다. 관찰을 개별 그룹으로 분류하니까.
예를 들어 클러스터링을 사용하여 고객을 그룹으로 분할한 후 분류를 사용하여 레이블을 지정하고 레이블이 지정된 데이터를 사용하여 새 고객이 속할 수 있는 고객 범주를 예측하는 분류모델을 학습 시킬 수 있다.
다음 장에선 각 방법의 더 자세한 설명을 하겠다.
728x90'Machine Learning' 카테고리의 다른 글
ML을 시작하는 사람들을 위해 (1) (0) 2023.12.22 Linear Regression (0) 2022.07.11 You Only Look Once: Unified, Real-Time Object Detection (0) 2022.07.01 [Python] 이미지 사이즈 변경 (0) 2021.04.11 window에서 darknet 디버깅/빌드 하는 방법 (0) 2021.04.11