감독 학습 정리

Underfitting: 훈련 데이터의 다양한 특징을 반영하지 못함

과적합: 새로운 데이터에 일반적이지 않은 모델

많은 알고리즘에서 우수한 성능을 달성하려면 매개변수를 적절하게 설정하는 것이 중요합니다.

일부 알고리즘은 입력 데이터를 기준으로 입력 기능의 크기를 조정하는 방식에 민감합니다.

따라서 모델의 가정과 매개변수의 의미를 이해하지 못한 상태에서 무조건 데이터셋에 알고리즘을 적용한다면 좋은 모델을 만들기 어렵다.

  • 가장 가까운 이웃
    • 작은 데이터 세트의 기본 모델로 적합하고 설명하기 쉽습니다.

  • 선형 모델
    • 먼저 시도하는 알고리즘, 대용량 데이터 가능, 고차원 데이터 가능
  • 나이브 베이즈
    • 분류만 가능, 선형 모델보다 훨씬 빠르고, 대규모 데이터 세트 및 고차원 데이터에 가능, 선형 모델보다 정확도가 떨어짐
  • 의사 결정 트리
    • 매우 빠르고 데이터를 확장할 필요가 없으며 시각화하기 좋고 설명하기 쉽습니다.

  • 랜덤 포레스트
    • 거의 항상 단일 결정 트리를 능가합니다.

      매우 안정적이고 강력하며 데이터 스케일링이 필요하지 않으며 고차원 희소 데이터에는 적합하지 않습니다.

  • 그래디언트 부스팅 결정 트리
    • 랜덤 포레스트보다 성능이 약간 더 좋습니다.

      학습은 랜덤 포레스트보다 느리지만 예측은 빠르고 메모리를 거의 사용하지 않습니다.

      랜덤 포레스트보다 더 많은 매개변수 조정이 필요합니다.

  • 지원 벡터 기계
    • 유사한 시맨틱 기능을 가진 중간 크기의 데이터 세트에 매우 적합합니다.

      데이터 스케일링이 필요하며 매개변수에 민감합니다.

  • 신경망
    • 특히 대규모 데이터 세트에서 매우 복잡한 모델을 생성할 수 있습니다.

      매개변수 선택 및 데이터 규모에 민감하며 대형 모델은 훈련하는 데 시간이 더 걸립니다.

새 데이터 세트로 작업할 때 선형 모델이나 순진한 베이즈 또는 최근접 이웃 분류기와 같은 간단한 모델로 시작하여 성능을 확인하는 것이 좋습니다.

데이터를 잘 이해하고 나면 랜덤 포레스트, 그래디언트 부스팅 의사 결정 트리, SVM 및 신경망과 같은 복잡한 모델을 구축할 수 있는 알고리즘을 고려할 수 있습니다.