컴퓨터공학/Machine Learning

머신러닝 분류 알고리즘 종류별 장단점 정리

jimmy_AI 2022. 11. 4. 00:39
반응형

머신러닝에서 대표적으로 사용되는 분류(Classification) 알고리즘들에 대하여

종류별로 장단점을 간략하게 정리해보도록 하겠습니다.

 

 

1. 의사결정나무(Decision Tree)

장점

1. 결과가 나온 과정을 쉽게 추적할 수 있어 설명 가능성이 높다.

2. 정규화 과정이 필요 없고, 데이터의 분포에 상관 없이 적용 가능하다.

3. 범주형, 연속형, 이산형 변수 모두를 다룰 수 있다.

 

단점

1. 과적합에 매우 취약하여 가지치기가 중요하다.

2. 시계열 데이터나 고차원 데이터에는 적용하기 어렵다.

3. 경계값 근처에서 오류가 발생하기 쉽다.

 

 

2. 랜덤포레스트(Random Forest)

장점

1. 의사결정나무의 2, 3번 장점을 그대로 가져갈 수 있다.

2. 의사결정나무의 과적합 문제를 보완할 수 있다.

 

단점

1. 의사결정나무와 마찬가지로 시계열 혹은 고차원 데이터에는 적용이 까다롭다.

2. 매우 많은 수의 의사결정나무를 만들어야 하므로 학습 시간이 오래 걸린다.

3. 설명 가능성이 의사결정나무에 비하여 현저하게 떨어진다.

 

 

3. 나이브 베이즈(Naive Bayes)

장점

1. 훈련 속도가 매우 빠른 알고리즘이다.

2. 데이터의 양에 큰 상관이 없는 편이다.

3. 노이즈 데이터에 비교적 강한 편이다.

4. 추정 확률을 쉽게 구할 수 있고, 설명이 비교적 용이하다.

 

단점

1. feature 간 독립 가정이 필수적이라서 많은 상황에서 제약이 크다.

2. feature 간 중요도가 동등하다는 가정도 필수적이다.

3. feature가 많으면 1보다 작은 값들을 여러 번 곱하면서 예측 확률 값이 매우 작아진다.

4. 1번도 등장하지 않은 값이 있으면, 예측 확률은 0이 되므로 보정이 필요하다.

 

 

4. SVM(Support Vector Machine)

장점

1. 과적합에 비교적 robust한 편이다.

2. kernel trick 등을 활용하여 비선형 모델링도 가능하다.

3. 노이즈 데이터에 비교적 강한 편이다.

4. feature가 적은 편이어도 적용할 수 있다.

 

단점

1. 적당한 kernel 함수를 찾기 어려울 수도 있다.

2. 학습이 오래걸리는 편이다.

3. 결과에 대한 해석이 어려워 설명 가능성이 낮다.

 

반응형

 

5. 선형 회귀를 통한 분류(Linear Regression)

장점

1. 학습 속도가 비교적 빠른 편이다.

2. 변수의 값이 바뀌었을 때 예측 결과에 대한 해석이 용이하다.

3. 데이터의 양에 큰 상관이 없는 편이다.

 

단점

1. feature와 class 간의 선형관계 가정이 필수적이다.

2. 이상치 등의 노이즈에 매우 민감하다.

3. feature 간 독립 가정이 필수적이라서 많은 상황에서 제약이 크다.

4. 모델의 복잡도를 제어하기 어렵다.

 

 

6. 로지스틱 회귀를 통한 분류(Logistic Regression)

장점

1. 학습 속도가 비교적 빠른 편이다.

2. 변수의 값이 바뀌었을 때 예측 결과에 대한 해석이 용이하다.

3. 예측 확률 값을 얻을 수 있다. 

 

단점

1. 선형 회귀와 마찬가지로 선형 관계가 아닌 경우 모델링이 어렵다.

2. 이상치 등의 노이즈에 매우 민감하다.

3. 회귀 알고리즘이지만 막상 회귀보다는 분류에 적합하다.

 

 

7. k-NN(k-Nearest Neighbors)

장점

1. 별도의 학습 과정이 필요하지 않다.

2. 노이즈 데이터에 robust한 편이다.

3. 데이터 분포의 가정이 필요하지 않다.

 

단점

1. 예측 과정에 시간이 비교적 많이 소요된다.

2. k값을 직접 정해줘야 하는데, 중요도가 크다.

3. feature와 class 간의 관계를 설명하지 못한다.