(02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)

210809

Neural Networks

위키피디아

  • Neural networks are computing systems vaguely inspired by the biological neural networks that constitute animal brains.”

    • 그러나 인간의 뇌를 따라했다고 꼭 성능이 좋은 건 아니다. 인간의 뇌에서는 역전파가 발생하지는 않는다.

    • 마치 우리가 날고싶다고 새처럼 날 필요도, 빨리 달리고 싶다고 해서 치타처럼 달릴 필요도 없다. 이미 딥러닝은 인간의 뇌와는 많이 갈라졌다.

정의

  • Neural networks are function approximators that stack affine transformatiosn followed by nonlinear transformations.

    • 단순히, 반복적으로 곱셈하고 비선형함수를 적용하는 신경망을 의미

Linear Neural Networks

Loss function을 w와 b로 편미분을 구해서 업데이트 하는 과정에서 Loss를 최소화하는 w와 b를 찾게 된다. 미분한 값에 학습률을 곱해서 업데이트 하게되는데 이 때, 학습률이 너무 커도 너무 작아도 안된다.

차원이 클 때는 행렬을 사용하면 된다. 입력 벡터 X는 W와 b를 이용해 Y에 대한 차원 변환이 일어나게 된다.

Beyond Linear Neural Networks

선형 함수로 신경망을 깊게 쌓을 수 없는 이유는, 중첩된 선형함수는 하나의 선형함수로 표현이 가능하기 때문이다.

  • 10층 짜리 레이어도 1층 짜리 레이어로 표현이 가능하다는 뜻

  • f(x) = x+2, g(x) = 2x 라는 함수에 대해서, f(g(x)) 는 2층짜리 함수같지만 사실 h(x) = 2x+2 라는 1층 함수로 표현할 수 있다.

  • 표현력을 극대화하기 위해서는 선형결합이 등장하면, 비선형함수를 적용하도록 한다.

비선형 함수(활성화 함수)는 다음과 같은 것들이 있다.

신경망은, 표현력이 매우 좋기 때문에 성능이 잘 나온다.

Multi-Layer Perceptron

Regression Task

  • 기본적인 회귀 문제에서 MSE를 사용

Classfication Task

  • 분류문제는 각각의 클래스중에 값이 높게 나온 클래스를 선택한다.

    • 이 값은 100이든 10000이든 상관없이 다른 값 대비 높기만 하면 된다.

    • 이 부분을 수학적으로 표현하는 것이 어려워 CE를 사용하는 것

Probabilistic Task

  • "이 사람은 확실히 30대야" 또는 "저 사람은 20대 같긴한데 확실하지는 않아" 등의 uncertain 정보를 찾을 때 사용한다.

실습

Multilayer Perceptron (MLP)

  • 1-7 : torch구현에 필요한 라이브러리

  • 8 : 시각화에 있어서 화질이 좋게 함

Dataset

  • MNIST라는 데이터를 불러온다.

    • 이 데이터는 Modified National Institute of Standards and Technology database의 약어로 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이다.

    • 6만개의 훈련 데이터와 1만개의 테스트 데이터로 구분된다.

  • 인자에 대한 설명은 다음과 같다(참고링크)

    • root : 데이터의 경로를 넣는다.

    • train : 테스트용 데이터를 가져올지 학습용 데이터를 가져올지 표시한다. True면 테스트용 데이터이다.

    • transform : 어떤 형태로 데이터를 불러올 것인가. 일반 이미지는 0-255사이의 값을 갖고, (H, W, C)의 형태를 갖는 반면 pytorch는 0-1사이의 값을 가지고 (C, H, W)의 형태를 갖는다. transform에 transforms.ToTensor()를 넣어서 일반 이미지(PIL image)를 pytorch tensor로 변환한다.

    • download : True로 설정하면 MNIST 데이터가 없으면 다운을 받는다.

Data Iterator

  • 불러온 데이터셋 객체로 data_loader 객체를 만든다. 인자에 대한 설명은 다음과 같다(참고링크)

    • dataset : 어떤 데이터를 로드할 것인지

    • batch_size : 배치 사이즈를 뭘로 할지

    • shuffle : 순서를 무작위로 할 것인지, 있는 순서대로 할 것인지

    • drop_last : batch_size로 자를 때 맨 마지막에 남는 데이터를 사용할 것인가 버릴 것인가

Define the MLP model

  • 1 : neuralnetwork.Modeul을 상속받는다

  • 8-10 : 입력, 히든, 출력 차원을 입력받는다

  • 11 : 인풋에서 히든레이어 까지 가는 신경망을 구성한다

  • 14 : 히든에서 아웃풋레이어 까지 가는 신경망을 구성한다

  • 20 : 가중치 초기화에 있어서 He Initialization을 사용한다

  • 21 : bias는 다 0으로 초기화

  • 25-30 : 입력된 값은 Linear layer 1과 2를 거쳐서 반환된다. 이 때 이 사이에 Relu를 한번 거치게 된다.

  • 33 : 크로스 엔트로피 함수로 비용함수를 지정한다

  • 34 : 옵티마이저로 아담을 선택하고 학습률을 정의한다

Simple Forward Path of the MLP Model

  • 1 : 배치가 2개 있다고 가정하고 입력 차원인 784 만큼 수를 생성한다

  • 2 : ndarray를 torch tensor로 변경한다.

  • 4 : torch tensor를 다시 ndarray로 변경한다

Check Parameters

  • 784 - 256 - 10 으로 차원크기가 작아진다는 것을 알 수 있다.

  • He init. 을 통해 weight이 작게 형성되었다는 것을 알 수 있다.

  • 파라미터 개수는 약 20만개

Evaluation Function

  • 3 : 지금은 존재하지 않지만 drop-out이나 batch normalization과 같은 설정들이 train과 test에서 달라져야 할 때가 있다. 그럴 때 사용하는 mode change이다. test는model.eval() 이고 train은 model.train() 이다.

Initial Evaluation

Train

  • 9 : 784 * 784로 크기를 변경해주고 GPU 환경에서 돌아가도록 to(device)를 한다. 그리고 이를 forward 함수에 넣는다.

  • 12 : gradient 미분값을 모두 0으로 초기화 해준다

  • 13 : 256개의 배치 데이터에 대해서 backpropagation을 한다. 각각에 weight에 대해서 loss를 쌓는다

  • backpropagation의 결과들을 가지고 가중치를 모두 업데이트 해준다.

Test

Last updated

Was this helpful?