21 Thu

TIL

[AI 스쿨 1기] 7주차 DAY 4

퍼셉트론의 한계

다층 퍼셉트론의 핵심 아이디어

퍼셉트론 2개를 병렬 결합

원래 공간 X = (x1, x2)를 새로운 특징 공간 Z = (z1, z2)로 변환
x1과 x2의 두 공간으로 나누고 x2의 공간을 z1과 z2로 나눈다
선형 분리가 불가능한 공간을 자세히 보니 선형 분리가 가능한 공간의 결합체
용량
- 3개의 퍼셉트론을 결합한 경우
  - 2차원 공간은 7개 영역으로 나누고 각 영역을 3차원 점으로 변환
- 일반화 하여 p개 퍼셉트론을 결합하면 p차원 공간으로 변환
- 다층 퍼셉트론의 용량

딱딱한 공간 분할과 부드러운 공간 분할
- 계단은 딱딱한 함수로 변환 => 영역을 점으로 변환
  - ex) 계단 함수
- 그 외 활성함수는 부드러운 함수로 변환 => 영역을 영역으로 변환
  - ex) 로지스틱 시그모이드, 하이퍼볼릭 탄젠트 시그모이드, softplus, rectifier
- 대표적으로 비선형 함수인 S자 모양의 sigmoid를 활성함수로 사용
- 그러나 sigmoid는 오류 역전파를 어렵게 함. => 깊은 신경망에서는 ReLU 사용
퍼셉트론의 은닉층 p
- p가 너무 크면 과잉적합
- p가 너무 작으면 과소적합
- 하이퍼 매개변수 최적화가 필요
특칭 벡터 x를 출력 벡터 o로 사상(mapping)하는 함수로 간주할 수 있음
은닉층은 특징 추출기
- 특징 벡터를 분류에 더 유리한 새로운 특징 공간으로 변환
  - 얼굴이 있는가 => 눈이 있는가 => 검은색인가
- 현대 기계학습에서는 특징학습이라 부름
범용적 근사 이론
- 하나의 은닉층은 함수의 근사를 표현
- 다층 퍼셉트론도 공간을 변환하는 근사 함수
얕은 은닉층의 구조
- 지수적으로 더 넓은 폭이 필요할 수 있음
- 더 과잉적합 되기 쉬움
- 일반적으로 깊은 은닉층의 구조가 좋은 성능을 가짐
성능 향상
- 순수한 최적화 알고리즘으로는 높은 성능 불가능
- 아키텍처 : 은닉층과 은닉 노드의 개수
- 초깃값
- 학습률
- 활섬함수

은닉층을 통한 특징공간의 변환

목적 함수

오류 역전파 알고리즘

가중치에 대한 결과값의 미분을 가지고 가중치를 얼마만큼 수정해야 결과값이 수정될 지 예측 가능
역전파 주요 예
- add gate
- mul gate
- copy gate
- max gate
미분의 연쇄 법칙을 이용
- 수인 경우, ${dz \over dx} = {dz \over dy}{dy \over dz}$
- 벡터인 경우, $\nabla {x^z} = ({\partial y \over \partial x})^T \nabla {y^z}$
  - 야코비안 행렬

미니 배치 방식

Last updated 4 years ago

Was this helpful?