🚴‍♂️
TIL
  • MAIN
  • : TIL?
  • : WIL
  • : Plan
  • : Retrospective
    • 21Y
      • Wait a moment!
      • 9M 2W
      • 9M1W
      • 8M4W
      • 8M3W
      • 8M2W
      • 8M1W
      • 7M4W
      • 7M3W
      • 7M2W
      • 7M1W
      • 6M5W
      • 1H
    • 새사람 되기 프로젝트
      • 2회차
      • 1회차
  • TIL : ML
    • Paper Analysis
      • BERT
      • Transformer
    • Boostcamp 2st
      • [S]Data Viz
        • (4-3) Seaborn 심화
        • (4-2) Seaborn 기초
        • (4-1) Seaborn 소개
        • (3-4) More Tips
        • (3-3) Facet 사용하기
        • (3-2) Color 사용하기
        • (3-1) Text 사용하기
        • (2-3) Scatter Plot 사용하기
        • (2-2) Line Plot 사용하기
        • (2-1) Bar Plot 사용하기
        • (1-3) Python과 Matplotlib
        • (1-2) 시각화의 요소
        • (1-1) Welcome to Visualization (OT)
      • [P]MRC
        • (2강) Extraction-based MRC
        • (1강) MRC Intro & Python Basics
      • [P]KLUE
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (4강) 한국어 BERT 언어 모델 학습
        • [NLP] 문장 내 개체간 관계 추출
        • (3강) BERT 언어모델 소개
        • (2강) 자연어의 전처리
        • (1강) 인공지능과 자연어 처리
      • [U]Stage-CV
      • [U]Stage-NLP
        • 7W Retrospective
        • (10강) Advanced Self-supervised Pre-training Models
        • (09강) Self-supervised Pre-training Models
        • (08강) Transformer (2)
        • (07강) Transformer (1)
        • 6W Retrospective
        • (06강) Beam Search and BLEU score
        • (05강) Sequence to Sequence with Attention
        • (04강) LSTM and GRU
        • (03강) Recurrent Neural Network and Language Modeling
        • (02강) Word Embedding
        • (01강) Intro to NLP, Bag-of-Words
        • [필수 과제 4] Preprocessing for NMT Model
        • [필수 과제 3] Subword-level Language Model
        • [필수 과제2] RNN-based Language Model
        • [선택 과제] BERT Fine-tuning with transformers
        • [필수 과제] Data Preprocessing
      • Mask Wear Image Classification
        • 5W Retrospective
        • Report_Level1_6
        • Performance | Review
        • DAY 11 : HardVoting | MultiLabelClassification
        • DAY 10 : Cutmix
        • DAY 9 : Loss Function
        • DAY 8 : Baseline
        • DAY 7 : Class Imbalance | Stratification
        • DAY 6 : Error Fix
        • DAY 5 : Facenet | Save
        • DAY 4 : VIT | F1_Loss | LrScheduler
        • DAY 3 : DataSet/Lodaer | EfficientNet
        • DAY 2 : Labeling
        • DAY 1 : EDA
        • 2_EDA Analysis
      • [P]Stage-1
        • 4W Retrospective
        • (10강) Experiment Toolkits & Tips
        • (9강) Ensemble
        • (8강) Training & Inference 2
        • (7강) Training & Inference 1
        • (6강) Model 2
        • (5강) Model 1
        • (4강) Data Generation
        • (3강) Dataset
        • (2강) Image Classification & EDA
        • (1강) Competition with AI Stages!
      • [U]Stage-3
        • 3W Retrospective
        • PyTorch
          • (10강) PyTorch Troubleshooting
          • (09강) Hyperparameter Tuning
          • (08강) Multi-GPU 학습
          • (07강) Monitoring tools for PyTorch
          • (06강) 모델 불러오기
          • (05강) Dataset & Dataloader
          • (04강) AutoGrad & Optimizer
          • (03강) PyTorch 프로젝트 구조 이해하기
          • (02강) PyTorch Basics
          • (01강) Introduction to PyTorch
      • [U]Stage-2
        • 2W Retrospective
        • DL Basic
          • (10강) Generative Models 2
          • (09강) Generative Models 1
          • (08강) Sequential Models - Transformer
          • (07강) Sequential Models - RNN
          • (06강) Computer Vision Applications
          • (05강) Modern CNN - 1x1 convolution의 중요성
          • (04강) Convolution은 무엇인가?
          • (03강) Optimization
          • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
          • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • Assignment
          • [필수 과제] Multi-headed Attention Assignment
          • [필수 과제] LSTM Assignment
          • [필수 과제] CNN Assignment
          • [필수 과제] Optimization Assignment
          • [필수 과제] MLP Assignment
      • [U]Stage-1
        • 1W Retrospective
        • AI Math
          • (AI Math 10강) RNN 첫걸음
          • (AI Math 9강) CNN 첫걸음
          • (AI Math 8강) 베이즈 통계학 맛보기
          • (AI Math 7강) 통계학 맛보기
          • (AI Math 6강) 확률론 맛보기
          • (AI Math 5강) 딥러닝 학습방법 이해하기
          • (AI Math 4강) 경사하강법 - 매운맛
          • (AI Math 3강) 경사하강법 - 순한맛
          • (AI Math 2강) 행렬이 뭐예요?
          • (AI Math 1강) 벡터가 뭐예요?
        • Python
          • (Python 7-2강) pandas II
          • (Python 7-1강) pandas I
          • (Python 6강) numpy
          • (Python 5-2강) Python data handling
          • (Python 5-1강) File / Exception / Log Handling
          • (Python 4-2강) Module and Project
          • (Python 4-1강) Python Object Oriented Programming
          • (Python 3-2강) Pythonic code
          • (Python 3-1강) Python Data Structure
          • (Python 2-4강) String and advanced function concept
          • (Python 2-3강) Conditionals and Loops
          • (Python 2-2강) Function and Console I/O
          • (Python 2-1강) Variables
          • (Python 1-3강) 파이썬 코딩 환경
          • (Python 1-2강) 파이썬 개요
          • (Python 1-1강) Basic computer class for newbies
        • Assignment
          • [선택 과제 3] Maximum Likelihood Estimate
          • [선택 과제 2] Backpropagation
          • [선택 과제 1] Gradient Descent
          • [필수 과제 5] Morsecode
          • [필수 과제 4] Baseball
          • [필수 과제 3] Text Processing 2
          • [필수 과제 2] Text Processing 1
          • [필수 과제 1] Basic Math
    • 딥러닝 CNN 완벽 가이드 - Fundamental 편
      • 종합 실습 2 - 캐글 Plant Pathology(나무잎 병 진단) 경연 대회
      • 종합 실습 1 - 120종의 Dog Breed Identification 모델 최적화
      • 사전 훈련 모델의 미세 조정 학습과 다양한 Learning Rate Scheduler의 적용
      • Advanced CNN 모델 파헤치기 - ResNet 상세와 EfficientNet 개요
      • Advanced CNN 모델 파헤치기 - AlexNet, VGGNet, GoogLeNet
      • Albumentation을 이용한 Augmentation기법과 Keras Sequence 활용하기
      • 사전 훈련 CNN 모델의 활용과 Keras Generator 메커니즘 이해
      • 데이터 증강의 이해 - Keras ImageDataGenerator 활용
      • CNN 모델 구현 및 성능 향상 기본 기법 적용하기
    • AI School 1st
    • 현업 실무자에게 배우는 Kaggle 머신러닝 입문
    • 파이썬 딥러닝 파이토치
  • TIL : Python & Math
    • Do It! 장고+부트스트랩: 파이썬 웹개발의 정석
      • Relations - 다대다 관계
      • Relations - 다대일 관계
      • 템플릿 파일 모듈화 하기
      • TDD (Test Driven Development)
      • template tags & 조건문
      • 정적 파일(static files) & 미디어 파일(media files)
      • FBV (Function Based View)와 CBV (Class Based View)
      • Django 입문하기
      • 부트스트랩
      • 프론트엔드 기초다지기 (HTML, CSS, JS)
      • 들어가기 + 환경설정
    • Algorithm
      • Programmers
        • Level1
          • 소수 만들기
          • 숫자 문자열과 영단어
          • 자연수 뒤집어 배열로 만들기
          • 정수 내림차순으로 배치하기
          • 정수 제곱근 판별
          • 제일 작은 수 제거하기
          • 직사각형 별찍기
          • 짝수와 홀수
          • 체육복
          • 최대공약수와 최소공배수
          • 콜라츠 추측
          • 크레인 인형뽑기 게임
          • 키패드 누르기
          • 평균 구하기
          • 폰켓몬
          • 하샤드 수
          • 핸드폰 번호 가리기
          • 행렬의 덧셈
        • Level2
          • 숫자의 표현
          • 순위 검색
          • 수식 최대화
          • 소수 찾기
          • 소수 만들기
          • 삼각 달팽이
          • 문자열 압축
          • 메뉴 리뉴얼
          • 더 맵게
          • 땅따먹기
          • 멀쩡한 사각형
          • 괄호 회전하기
          • 괄호 변환
          • 구명보트
          • 기능 개발
          • 뉴스 클러스터링
          • 다리를 지나는 트럭
          • 다음 큰 숫자
          • 게임 맵 최단거리
          • 거리두기 확인하기
          • 가장 큰 정사각형 찾기
          • H-Index
          • JadenCase 문자열 만들기
          • N개의 최소공배수
          • N진수 게임
          • 가장 큰 수
          • 124 나라의 숫자
          • 2개 이하로 다른 비트
          • [3차] 파일명 정렬
          • [3차] 압축
          • 줄 서는 방법
          • [3차] 방금 그곡
          • 거리두기 확인하기
        • Level3
          • 매칭 점수
          • 외벽 점검
          • 기지국 설치
          • 숫자 게임
          • 110 옮기기
          • 광고 제거
          • 길 찾기 게임
          • 셔틀버스
          • 단속카메라
          • 표 편집
          • N-Queen
          • 징검다리 건너기
          • 최고의 집합
          • 합승 택시 요금
          • 거스름돈
          • 하노이의 탑
          • 멀리 뛰기
          • 모두 0으로 만들기
        • Level4
    • Head First Python
    • 데이터 분석을 위한 SQL
    • 단 두 장의 문서로 데이터 분석과 시각화 뽀개기
    • Linear Algebra(Khan Academy)
    • 인공지능을 위한 선형대수
    • Statistics110
  • TIL : etc
    • [따배런] Kubernetes
    • [따배런] Docker
      • 2. 도커 설치 실습 1 - 학습편(준비물/실습 유형 소개)
      • 1. 컨테이너와 도커의 이해 - 컨테이너를 쓰는이유 / 일반프로그램과 컨테이너프로그램의 차이점
      • 0. 드디어 찾아온 Docker 강의! 왕초보에서 도커 마스터로 - OT
    • CoinTrading
      • [가상 화폐 자동 매매 프로그램] 백테스팅 : 간단한 테스팅
    • Gatsby
      • 01 깃북 포기 선언
  • TIL : Project
    • Mask Wear Image Classification
    • Project. GARIGO
  • 2021 TIL
    • CHANGED
    • JUN
      • 30 Wed
      • 29 Tue
      • 28 Mon
      • 27 Sun
      • 26 Sat
      • 25 Fri
      • 24 Thu
      • 23 Wed
      • 22 Tue
      • 21 Mon
      • 20 Sun
      • 19 Sat
      • 18 Fri
      • 17 Thu
      • 16 Wed
      • 15 Tue
      • 14 Mon
      • 13 Sun
      • 12 Sat
      • 11 Fri
      • 10 Thu
      • 9 Wed
      • 8 Tue
      • 7 Mon
      • 6 Sun
      • 5 Sat
      • 4 Fri
      • 3 Thu
      • 2 Wed
      • 1 Tue
    • MAY
      • 31 Mon
      • 30 Sun
      • 29 Sat
      • 28 Fri
      • 27 Thu
      • 26 Wed
      • 25 Tue
      • 24 Mon
      • 23 Sun
      • 22 Sat
      • 21 Fri
      • 20 Thu
      • 19 Wed
      • 18 Tue
      • 17 Mon
      • 16 Sun
      • 15 Sat
      • 14 Fri
      • 13 Thu
      • 12 Wed
      • 11 Tue
      • 10 Mon
      • 9 Sun
      • 8 Sat
      • 7 Fri
      • 6 Thu
      • 5 Wed
      • 4 Tue
      • 3 Mon
      • 2 Sun
      • 1 Sat
    • APR
      • 30 Fri
      • 29 Thu
      • 28 Wed
      • 27 Tue
      • 26 Mon
      • 25 Sun
      • 24 Sat
      • 23 Fri
      • 22 Thu
      • 21 Wed
      • 20 Tue
      • 19 Mon
      • 18 Sun
      • 17 Sat
      • 16 Fri
      • 15 Thu
      • 14 Wed
      • 13 Tue
      • 12 Mon
      • 11 Sun
      • 10 Sat
      • 9 Fri
      • 8 Thu
      • 7 Wed
      • 6 Tue
      • 5 Mon
      • 4 Sun
      • 3 Sat
      • 2 Fri
      • 1 Thu
    • MAR
      • 31 Wed
      • 30 Tue
      • 29 Mon
      • 28 Sun
      • 27 Sat
      • 26 Fri
      • 25 Thu
      • 24 Wed
      • 23 Tue
      • 22 Mon
      • 21 Sun
      • 20 Sat
      • 19 Fri
      • 18 Thu
      • 17 Wed
      • 16 Tue
      • 15 Mon
      • 14 Sun
      • 13 Sat
      • 12 Fri
      • 11 Thu
      • 10 Wed
      • 9 Tue
      • 8 Mon
      • 7 Sun
      • 6 Sat
      • 5 Fri
      • 4 Thu
      • 3 Wed
      • 2 Tue
      • 1 Mon
    • FEB
      • 28 Sun
      • 27 Sat
      • 26 Fri
      • 25 Thu
      • 24 Wed
      • 23 Tue
      • 22 Mon
      • 21 Sun
      • 20 Sat
      • 19 Fri
      • 18 Thu
      • 17 Wed
      • 16 Tue
      • 15 Mon
      • 14 Sun
      • 13 Sat
      • 12 Fri
      • 11 Thu
      • 10 Wed
      • 9 Tue
      • 8 Mon
      • 7 Sun
      • 6 Sat
      • 5 Fri
      • 4 Thu
      • 3 Wed
      • 2 Tue
      • 1 Mon
    • JAN
      • 31 Sun
      • 30 Sat
      • 29 Fri
      • 28 Thu
      • 27 Wed
      • 26 Tue
      • 25 Mon
      • 24 Sun
      • 23 Sat
      • 22 Fri
      • 21 Thu
      • 20 Wed
      • 19 Tue
      • 18 Mon
      • 17 Sun
      • 16 Sat
      • 15 Fri
      • 14 Thu
      • 13 Wed
      • 12 Tue
      • 11 Mon
      • 10 Sun
      • 9 Sat
      • 8 Fri
      • 7 Thu
      • 6 Wed
      • 5 Tue
      • 4 Mon
      • 3 Sun
      • 2 Sat
      • 1 Fri
  • 2020 TIL
    • DEC
      • 31 Thu
      • 30 Wed
      • 29 Tue
      • 28 Mon
      • 27 Sun
      • 26 Sat
      • 25 Fri
      • 24 Thu
      • 23 Wed
      • 22 Tue
      • 21 Mon
      • 20 Sun
      • 19 Sat
      • 18 Fri
      • 17 Thu
      • 16 Wed
      • 15 Tue
      • 14 Mon
      • 13 Sun
      • 12 Sat
      • 11 Fri
      • 10 Thu
      • 9 Wed
      • 8 Tue
      • 7 Mon
      • 6 Sun
      • 5 Sat
      • 4 Fri
      • 3 Tue
      • 2 Wed
      • 1 Tue
    • NOV
      • 30 Mon
Powered by GitBook
On this page
  • [AI 스쿨 1기] 8주차 DAY 4
  • Deep Learning: 신경망의 기초 - 심층학습 최적화 III
  • Deep Learning: 신경망의 기초 - 심층학습 최적화 IV

Was this helpful?

  1. 2021 TIL
  2. JAN

28 Thu

TIL

[AI 스쿨 1기] 8주차 DAY 4

Deep Learning: 신경망의 기초 - 심층학습 최적화 III

활성함수

  • 선형 연산 결과인 활성값 z에 비선형 활섬함수 t를 적용하는 과정

  • 변천사

    • 선형

    • 계단

    • tanh

    • ReLU

  • ReLU

    • 경사도 포화 문제 해소

    • max(0, z)

    • 한계 : deactivate 됐을 때는 가중치 갱신이 불가 => Leaky ReLU

  • ELU

    • z, if z >= 0

    • a(e^z - 1), elif z < 0

배치 정규화

  • 공변량 변화, covariate shift

    • 훈련집합과 테스트집합의 분포가 다름

      • 모의고사와 수능의 형태가 다른 예

    • 내부의 공변량 변화

      • 첫번째 층에서 데이터 정규화를 하더라도 연산을 거친 뒤 입력되는 두번째 층의 입력 데이터는 각 배치마다 분포가 다르다

      • 두번째 층 입장에서는 매번 데이터의 분포가 바뀌는 셈. 세번째, 네번째, ... 층에서는 심각해질 수 있음 => 학습을 방해하는 요인

      • 매번 출력할 때 마다 정규화를 할 필요성을 느낌 => 배치 정규화

  • 배치 정규화

    • 공변량 시프트 현상을 누그러뜨리기 위해 정규화를 층 단위 적용하는 기법

    • 어디에 적용할 것인가?

      • 선형 연산과 비선형 연산 중 어디?

      • 선형 연산을 하고 나서 비선형 연산을 하기 전!

      • 전체 집합 보다는 미니 배치에 적용하는 것이 좋음

    • 과정

      • 미니 배치 단위로 평균과 분산을 계산

      • 평균과 분산을 가지고 정규화

      • 비례와 이동으로 세부 조정

        • 데이터 정규화와 큰 차이점!

        • r(감마) : 비례, b(베타) : 이동

        • 이 파라미터는 하이퍼는 아니고 학습에 의해 결정

        • 정규화를 한다고 하더라도 데이터 분포가 고르지 않을 수 있기 때문

    • 장점

      • 신경망의 경사도 흐름 개선

        • 학습이 더 잘되기 때문

      • 높은 학습률 허용

        • 안정적인 학습이 가능

      • 초기화에 대한 의존성 감소

      • 의도하지 않았지만 규제와 유사한 행동을 하며, 드롭아웃의 필요성을 감소시킴

        • 드롭아웃의 효과를 어느정도 내기 때문

    • 최적화를 마친 후 추가적인 후처리 작업 필요

      • 각 노드는 전체 훈련집합을 가지고 독립적으로 평균과 분산을 구함

규제

  • 과잉적합

    • 대부분 가지고 있는 데이터에 비해 훨씬 큰 용량의 모델 사용

    • 현대 기계 학습은 충분히 큰 용량의 모델을 설계한 후 학습 과정에서 여러 규제 기법을 적용한다

  • 규제

    • 모델 용량에 비해 데이터가 부족한 경우의 부족조건문제를 푸는 접근법

    • 적절한 가정을 투입해 문제를 품

      • 입력과 출력 사이의 변환은 매끄럽다

      • 유사한 데이터는 가깝게 매핑 된다

    • 티호노프의 규제

      • 대표적인 기법

      • 매끄러운 가정에 기반을 둠

      • 통계에서는 릿지 회귀, 기계학습에서는 가중치 감쇄가 대표적

규제기법

  • 명시적 규제 : 가중치 감쇠나 드롭아웃처럼 목적함수나 신경망 구조를 직접 수정하는 방식

  • 암시적 규제 : 조기 멈춤, 데이터 증대, 잡음 추가, 앙상블 처럼 간접적으로 영향을 미치는 방식

  • 규제항

    • 훈련집합과 무관

    • 데이터 생성 과정에 내재한 사전 지식에 해당

    • 모델의 용량을 제한하는 역할

    • 큰 가중치에 벌칙을 가해 작은 가중치를 유지하기 위해 L2놈이나 L1놈을 사용

  • L2 놈

    • 규제를 적용한 목적 함수 = 목적 함수 + 규제 항

    • 규제 항 = L2 놈

  • 효과

    • 가중치에 대한 선호도 표현

    • 학습 모델을 단순화시킴으로 일반화 성능 향상 시킴

    • 매끄럽게 하여 최적화 개선

  • 조기 멈춤

    • 오버 피팅이 발생하기 전까지 학습하는 기계학습 알고리즘

  • 데이터 확대

    • 과잉적합을 방지하는 가장 확실한 방법은 큰 훈련집합 사용

    • 데이터 수집은 비용이 많이 들음

    • 데이터 확대라는 규제 기법은 인위적으로 데이터를 변형함

    • 자연계에서 벌어지는 잠재적인 변형을 프로그램으로 흉내내는 셈

    • 아핀 변환 : 이동, 회전, 반전

      • 수작업 변형과 모든 부류가 같은 변형을 사용한다는 한계

    • 모핑을 이용한 변환

      • 비선형 변환 학습

      • 다양한 형태의 변환

      • 자연영상 확대

      • 잡음을 섞어 확대

Deep Learning: 신경망의 기초 - 심층학습 최적화 IV

드롭아웃

  • 완전연결층의 노드 중 일정 비율(일반적으로 p = 0.5)을 임의 선택하여 제거 => 남은 부분 신경망 학습

  • 연결이 많다는 것은 오버피팅 될 가능성이 높다는 의미. 특히 완전연결층은 높은 가능성

  • 많은 부분 신경망을 만들고, 앙상을 결합하는 기법으로 볼 수 있음

앙상블

  • 서로 다른 여러 개의 모델을 결합하여 일반화 오류를 줄이는 기법

  • 현대 기계학습은 앙상블도 규제로 여김

  • 두 가지 일

    • 서로 다른 예측기

      • 같은 구조를 사용하지만 서로 다른 초기값과 하이퍼 매개변수를 설정하고 학습

      • 서로 다른 구조의 신경망 여러개를 학습

      • 배깅 : 훈련집합을 여러번 랜덤 샘플링 하여 서로 다른 훈련집합을 구성

      • 부스팅 : i번째 예측기가 풀지 못하는 샘플을 i+1번째 예측기가 잘 인식하도록 연계성을 고려

    • 학습된 예측기를 결합 => 모델 평균

      • 보통 평균을 구하거나 투표하여 최종 결과 결정

하이퍼 매개변수 최적화

  • 학습에 의해 결정되는 변수는 매개변수

  • 하이퍼 매개변수는 사람이 설정하는 사전변수

  • 선택

    • 모델의 성능을 결정하는 요소

    • 표준 참고 문헌이 제시하는 기본값을 사용할 것

  • 탐색

    • 격자 탐색

    • 임의 탐색 : 제일 우월함

    • 로그 탐색

  • 차원의 저주 문제 발생

    • 매개변수가 m개고 각각이 q개 구간이면 qm q^m qm개의 점을 조사해야 함

2차 미분을 이용한 최적화

  • 경사 하강법

    • 1차 미분을 사용하는 방법

    • 현재 기계 학습의 주류 알고리즘

    • 한계

      • 목표지점으로의 방향을 바로 알 수 없음

      • 각각의 배치 지점에서의 방향만 알 수 있기 때문

    • 두 가지 개선책이 있다

      • 경사도의 잡음을 줄임 => 미니 배치 사용

      • 2차 미분 정보를 활용

  • 2차 미분 최적화

    • 경사도와 헤시안을 사용하여 2차 근사 사용

    • 근사치의 최소값

  • 뉴턴 방법

    • 테일러 급수를 적용

    • 너무 어려움 잘 모르겠음

    • 문제점

      • 해시안 행렬 연산 부담 => 해시안을 근사화하는 LFGS가 많이 사용됨

  • 켤레 경사도 방법

    • 직선 탐색 이동 : 이동 크기를 결정하기 위해 직선으로 탐색하고 미분

    • 이전 가중치 방향과 현재 가중치 방향의 중간 방향으로 이동한다.

Previous29 FriNext27 Wed

Last updated 4 years ago

Was this helpful?