Rohdy
Rohdy의 study
Rohdy
전체 방문자
오늘
어제
  • 분류 전체보기 (32)
    • 석사 이야기 (0)
    • DL Study (17)
    • Pr4AI Study (1)
    • RecSys (3)
    • GraphMining (9)
    • 논문 (2)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • GSDS
  • 컨택
  • sigmoid
  • 대학원
  • logistic
  • 정보대학원
  • 연세대
  • gnn
  • KAIST
  • IDGL
  • 대학원컨택
  • 대학원입시
  • 대학원준비
  • 데이터사이언스
  • 시그모이드
  • 대학원면접
  • 2020
  • gradientdescent
  • LinearRegression
  • ML
  • 로지스틱
  • 논문요약
  • NeurIPS

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Rohdy

Rohdy의 study

과적합 줄이기
DL Study

과적합 줄이기

2022. 9. 6. 10:43

1. 데이터의 양을 늘리기

데이터 양이 적으면 해당 데이터의 특정 패턴이나 노이즈까지 쉽게 학습함으로 데이터 양을 늘리면 도움이 된다.

따라서 데이터 양이 적을 때는 의도적으로 기존 데이터를 약간씩 변형하여 추가하는 방법을 사용하기도 하는데 이를 데이터 증식 또는 증강(Data Augmentation)이라고 한다.

2. 모델의 복잡도 줄이기

Occam’s Razor라는 철학 용어는 Simple is best라는 뜻이다.

딥러닝의 복잡도는 은닉층의 수나 매개변수의 수(Capacity라고도 함) 등으로 결정이 되는데, 모델이 너무 복잡하면 과적합을 야기할 수도 있다.

3. 가중치 규제(Regularization) 적용하기

복잡한 모델을 규제하는 방법 중 하나로 가중치 Regularization이 존재한다.

  • L1 Regularization: 가중치 w들의 절댓값 합계를 비용 함수에 추가 $\lambda|w|$
  • L2 Regularization: 모든 가중치 w들의 제곱합을 비용 함수에 추가 ${1\over 2}\lambda w^2$

$\lambda$는 규제의 정도를 정하는 하이퍼 파라미터로 두 규제 모두 가중치 값이 작아져야 한다는 특징이 있다.

L1 규제는 가중치들의 절댓값이 0에 가까워져야 하므로 어떤 변수들은 가중치가 0이 되어서 사용하지 않거나 거의 사용되지 않게 된다.

반면, L2 규제는 가중치들의 제곱을 최소화함으로 가중치 값이 0에 가까워지는 경향을 보인다.

따라서 어떤 변수들이 모델에 영향을 주는지 판단하기 위해서는 L1이 유용하고, 보통의 경우는 L2가 더 효율적으로 작동한다.

선형회귀에서 라쏘(Lasso)는 L1 규제를 따르고, 릿지(Ridge)는 L2 규제를 따른다.

엘라스틱넷은 L1, L2 규제를 일정 비율로 혼합하여 사용하는 방법이다.

4. 드롭아웃(Dropout)

드롭아웃은 일정 비율로 각 학습과정마다 랜덤 하게 뉴런을 사용하지 않는 것이다.

예를 들어 드롭아웃 0.5면 학습과정마다 절반의 뉴런을 사용하지 않는 것이다.

드롭아웃은 학습 시에만 사용하고 예측 시에는 사용하지 않는다.

 

참조: https://wikidocs.net/60751

'DL Study' 카테고리의 다른 글

Convolution Neural Network  (0) 2022.09.08
기울기 소실과 폭주  (0) 2022.09.07
Sigmoid Function(시그모이드함수)  (0) 2022.09.05
Backpropagation(역전파)  (0) 2022.09.02
다층 퍼셉트론(MultiLayer Perceptron, MLP)  (0) 2022.09.01
    'DL Study' 카테고리의 다른 글
    • Convolution Neural Network
    • 기울기 소실과 폭주
    • Sigmoid Function(시그모이드함수)
    • Backpropagation(역전파)
    Rohdy
    Rohdy

    티스토리툴바