10 Thu

현업 실무자에게 배우는 Kaggle 머신러닝 입문

현업 머신러닝 엔지니어 소개

회사의 머신러닝 팀 구성원

머신러닝 팀에서 업무를 분배해서 일하는 법

프로젝트 진행과정

  1. 문제 정의 / 상품 기획

  2. 데이터 수집 / 정제 / 처리

  3. EDA 및 데이터 분석

  4. 다양한 모델 검토 및 학습

  5. 성능 평가 / 결과 분석

  6. 배포 / 상품화

  • 항상 이 순서대로 진행하는 것은 아니다.

    • 4번을 했다가 추가적인 데이터가 필요해서 2번으로 갈 수도 있고 5번을 했더니 데이터 분석이 잘못해서 3번으로 갈 수도 있다

  • 일반적으로 본인의 강점을 살릴 수 있는 과정에서 진행한다.

    • 그러나 직무를 순환해서 모두가 All-Rounder 가 되도록 한다

  • 다른 부서의 과제를 의뢰 받는 등의 일에서는 특정 과정만 하거나, 특정 과정에서부터 시작하기도 한다

현업 엔지니어의 하루 – 데이터 엔지니어(Data Engineer)

  • Data Gathering

    • 실제로 데이터가 잘 준비되어있을 경우는 거의 없다.

  • Data Cleansing

    • 중복과 잘못된 제거를 없앤다.

  • Data Interface & Program

    • 데이터의 저장과 관리를 할 수 있는 프로그래밍 능력

현업 엔지니어의 하루 – 데이터 사이언티스트(Data Scientist)

  • Data Analysis

    • 데이터에 대한 전반적인 분석을과 설명을 한다

  • Visualization & PT

    • 시각화와 상세한 설명을 발표한다.

  • Business Insight

    • CEO나 결정권자, 프로젝트 헤드의 의사결정에 도움을 준다.

현업 엔지니어의 하루 – 머신 러닝 엔지니어(Machine Learning Engineer)

  • ML Modleing & Training

    • 머신러닝 모델을 만들고 주어진 데이터로 학습한다

  • Evaluation & Improvement

    • 모델을 평가하고 개선한다

  • Research & Implementation

    • 최근 연구와 논문을 살피고 적용할 수 있으면 구현한다.

머신러닝 업무에서의 어려웠던 점

  • 데이터가 1)어떠한 과정으로 수집되었는지, 2)어떠한 예외처리를 했는지 처음 단계부터 파악할 수가 없다.

    • 타 부서에서 받는 경우도 많고, Hardware에서 수집한 경우 HW의 코드를 일일이 파악할 수 없기 때문

  • 머신러닝 / 딥러닝 모델의 성능을 더 이상 올리기 어려울 때

    • A, B, C, A', B', A+B 등의 여러 시도를 해봐도 성능 향상이 어려울 때 해결책을 찾기가 막막함

  • 머신러닝 / 딥러닝 모델의 결과와 의미를 설명하기, Business 전문가에게 납득시키기

    • 자칫 Blackbox로 여겨질 수 있기 때문에 충분한 근거와 논리를 찾아야 함

    • 성능만으로 이 결과를 사용하세요 라고 할 수 없음 => Explainable AI의 부상

  • 다양한 역량을 지닌 각 팀원들을 모두 만족시키면서 최대한의 역량을 끌어내고 이를 종합적으로 활용하여 팀 및 프로젝트를 리딩 할 수 있는 매니저의 역량이 필요

    • 이러한 역량이 있으면 프로젝트의 성공 가능성이 높아진다

머신러닝 업무를 하면서 느낀 장/단점

장점

  • 재미있다

    • 성능 올리기

    • 훈련 및 예측하기

    • 결과 분석하기

  • 다방면의 분야를 겪으면서 업무 하기 때문에, 크게 성장할 수 있다

  • 고객에게 직접적인 가치를 제공할 수 있다는 생각이 든다

  • 경영진의 의사결정에 '실질적인' 도움이 된다

  • 재미있는 데이터와 분석 결과들을 많이 접해볼 수 있다

  • 쉽게 다른 도메인 분야로 확장 및 전환할 수 있다

단점

  • 데이터 처리를 노가다 하는 경우가 많다

  • 답이 없는 경우가 아주 많다

    • 답을 스스로 만들면서 이에 대한 설득력도 있어야 한다

  • 모델링 성능을 향상시키기 위해 투입한 노력과 실제 완성된 성능이 비례하지 않을 수도 있다

  • 결국은 도메인 지식이 필요하다

  • 다양한 분야에 대한 공부를 항상 많이 해야 전문가 가 될 수 있다

후기

재미있었어용. 알고 있던 부분도 있는데 자세히 들어서 재미있기도 하고 모르는 부분이나 놓친 부분을 안 것 같아서 재미있어용

Last updated

Was this helpful?