앞선 포스팅에서 결정 트리 기반의 앙상블 기법에 대해 배웠습니다.
이번 포스팅에서는 그 중 GBM(그레이디언트 부스팅 머신러닝)기반의 XGboost, LightGBM에 대해 간략히 알아보겠습니다.
1. XGboost
XGboost는 그레이디언트 부스팅 프레임 워크를 기반의 결정 트리를 학습하는 머신러닝 알고리즘 입니다.
비정형 데이터(ex. text, image 등)에 대해서는 딥러닝 기반의 인공 신경망이 큰 효과를 보이지만,
정형 데이터에 대해서는 결정 트리 기반의 알고리즘이 가장 강력합니다.
결정 트리 알고리즘의 발전은 다음과 같습니다.
일반적인 Gradient Boosting과 경사 하강법을 사용한다는 점은 공통점입니다.
하지만 XGboost는 시스템을 최적화하고 알고리즘을 향상시켜 기존의 Gradient boosting의 성능을 향상시켰습니다.
실제로 XG는 eXtreme Gradient에서 따온 것으로 그 의미를 직관적으로 알 수 있습니다.
위의 그래프를 통해 다른 머신러닝 알고리즘에 비해 XGboost가 성능이 좋음을 알 수 있습니다.
2. LightGBM
LightGBM 역시 그레이디언트 부스팅 프레임 워크를 사용하는 tree기반의 머신러닝 알고리즘 입니다.
기존의 tree기반 알고리즘과 차이점은 노드의 확장 방식에 있습니다.
기존의 tree기반 알고리즘은 level-wise인 반면에,
LightGBM은 leaf-wise의 방식을 추구합니다.
이를 통해 더 많은 손실 값을 줄일 수 있는 효과가 있다는 특징이 있습니다.
또한 LightGBM은 이름에서도 알 수 있듯이 매우 빠르다는 장점이 있습니다.
큰 사이즈의 데이터를 다룰 수 있으며, 적은 메모리를 사용하여 실행 속도가 빠릅니다.
LightGBM을 사용하는데 필요한 핵심 파라미터에 대한 설명은 다음과 같습니다.
(출처: https://nurilee.com/2020/04/03/lightgbm-definition-parameter-tuning/)
Reference
- https://arxiv.org/pdf/1603.02754.pdf
- tps://www.youtube.com/watch?v=VHky3d_qZ_E&list=PLetSlH8YjIfWMdw9AuLR5ybkVvGcoG2EW&index=27
'Book Review > [혼공머신] 리뷰' 카테고리의 다른 글
순환 신경망(RNN)의 개념 (1) | 2023.05.10 |
---|---|
K-Means clustering (2) | 2023.01.31 |
트리 앙상블 (1) | 2023.01.16 |
트리 알고리즘: 결정 트리 (0) | 2023.01.10 |
확률적 경사 하강법 (2) | 2023.01.04 |