본문 바로가기
빅데이터

ADsP(데이터 분석 준전문가) - 앙상블 분석

by KMC_ 2020. 4. 27.

앙상블 분석

 앙상블이란 주어진 자료에서 여러 개의 예측모형들을 생성 후 이를 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합(combining multiple models), 분류기 조합(classifier combination)이 있습니다.

 학습자료의 작은 변화에 의해서 예측모형이 상당히 변하는 경우, 그 학습방법은 불안정한 것입니다. 가장 불안정한 방법으로는 의사결정나무가 있고, 가장 안정적인 방법으로는 1-nearest neighbor, 선형회귀모형이 있습니다.


앙상블 기법의 종류

 배깅

 - 배깅은 Breiman에 의해 제안된 방법으로, 주어진 자료에서 여러개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 혼합하여 최종 예측모형을 만드는 형식입니다. 붓스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미합니다.
 - 보팅(voting)은 여러개의 모형으로부터 산출한 결과를 다수결에 의해서 최종 결과를 택하는 과정입니다.
 - 최적의 의사결정나무를 구축할 때 가장 힘든 부분이 가지치기 이지만, 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용합니다.
 - 훈련자료의 모집단 분포를 모르는 상태이기 때문에 실제 문제에서의 평균예측 모형을 구할 수 없습니다. 따라서 배깅은 훈련자료를 모집단으로 특정하고 평균예측모형을 구하여 분산을 줄이고 예측력을 향상시키는 것입니다.

부스팅

 - 예측력이 약한 모형(weak learner)들을 결합하여 예측력이 강한 모형을 만드는 방법입니다.
 - 부스팅의 방법 중 Freund&Schapire가 제안한 Adaboost는 이진분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 부여하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법을 제안하였습니다.
 - 훈련오차를 빠르고 쉽게 해결할 수 있습니다.
 - 배깅에 비해 많은 경우 예측오차가 올라가 Adaboost의 성능이 배깅보다 뛰어난 경우가 많습니다.

랜덤 포레스트

 - 의사결정나무의 분산이 크다는 단점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법입니다.
 - 래덤 포레스트 패키지는 랜덤 인풋에 따른 forest of tree를 이용한 분류방법입니다.
 - 랜덤한 forest에는 많은 트리들이 생성됩니다.
 - 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도가 높다는 장점이 있습니다.
 - 이론적 설명이나 결과에 대한 해석이 어렵다는 단점이 있지만, 예측력이 매우 높다는 장점이 있습니다. 특히, 입력변수가 많은 경우 배깅과 부스팅과 비슷하거다 조금 더 좋은 예측력을 보입니다.


댓글