Data Science and MLOps Landscape in Industry
Kaggle의 연례 머신 러닝 및 데이터 과학 설문조사 대회
데이터셋 : 데이터 과학과 머신 러닝의 현황을 진정으로 종합적으로 파악할 수 있는 산업 전반에 걸친 설문조사. 설문조사는 2022년 9월 16일부터 2022년 10월 16일까지 진행되었으며, 데이터를 정리한 후 23,997개의 응답을 받았습니다!
도전 목표: 이 설문조사에 포함된 데이터 과학 커뮤니티의 하위 집합에 대한 데이터 이야기를 내러티브 텍스트와 데이터 탐색의 조합을 통해 전달하는 것
도전 과제 : 특정 데이터 과학 및 머신 러닝 실무자 그룹의 영향, 우선순위 또는 우려 사항을 깊이 탐구하는 것
평가 요소
구성 - 데이터로 표현되고 뒷받침되는 이야기의 명확한 내러티브 스레드가 있는가?
주제 - 데이터와 시각화를 통해 잘 정의되고, 잘 연구되고, 잘 뒷받침되는가?
독창성 - 독자가 이 제출물을 통해 새로운 것을 배울 수 있는가? 아니면 독자가 새로운 방식으로 무언가에 대해 생각하는 것이 어려운가?
데이터셋 살펴보기
전처리
현재 학생이 아니고, 고용되어 있고, 어떤 산업에 종사하고 있는지에 대한 답변을 한, 즉, 전문가들의 응답들만 사용
이후 dictionary 를 만든 후 lambda 를 사용하여 repharse
간단 분석
전체 응답 수 : df.shape[0]
전문가 응답 수 : scope_df.shape[0]
전문가 / 전체 비율 : scope_df.shape[0]/df.shape[0]
Outlier 분석
- 보통 객관식 질문에서 평균적으로 1~2개의 옵션을 선택한다고 하기에, 3회 이상의 옵션을 선택하는 경우는 outlier 로 취급한다고 함. 그러나 분석해봤을 때, 3개 이상의 응답을 한 경우가 코딩 / 머신러닝 경험이 풍부한 것이 보여졌을므로 outlier 로 취급하지 않고 사용함.
평균 응답 수가 3개 초과인 경우가, 연차가 높은 쪽에 비율이 높았음
각 질문 별로 선택 가능한 옵션의 수와, 평균적으로 선택한 옵션의 수
이후 진행한 분석
- 응답에 대한 비율 비교
- 가장 많이 사용하는 제품
- 각 응답 별, 또 다른 응답에 대한 답변의 비율
- 두 응답 간의 상관관계
- 각 요소를 파악하고, 이를 바탕으로 다른 응답 비교
분석 결과
해당 분석의 목표 : AI 도입 및 산업에서의 MLOps 상태에 대한 통찰력을 제공하는 것
이를 통해 살펴볼 수 있던 것 :
기업들이 어느 정도까지 머신러닝 모델을 생산하고 있는지,
데이터 저장, 모델 훈련, 배포 및 기타 프로세스에 사용하는 주요 도구는 무엇인지,
정기적으로 사용하는 주요 프레임워크와 라이브러리는 무엇인지,
기업들이 추구하는 가장 일반적인 AI 직무 역할은 무엇인지
- 설문조사에 참여한 전문가 중 21.7%는 회사가 **아직 머신러닝 방법을 탐구하지 않았다고 답했으며, 조직이 이미 기계 학습 모델을 생산 중이거나 중간 단계에 있다고 답한 응답자 중 32.8%는 기계 학습 모델을 생산 중이라고 답했습니다.
- 온라인/인터넷 기반 서비스, 보험, 기술 기업이 인공지능 도입의 선두주자입니다.
- 기존 시스템의 부재로 인해 소규모 기업이 AI 도입에 더 적합할 수 있지만, 설문조사 결과에 따르면 현재 대기업이 AI 도입을 주도하고 있는 것으로 나타났습니다.
- 설문조사에 참여한 전문가 중 45%가 클라우드 컴퓨팅 플랫폼을 사용하고 있으며, 2022년에는 아마존 웹 서비스(AWS)와 구글 클라우드 플랫폼(GCP)이 주류를 이루고 있습니다.
- 가장 인기 있는 AI 직업은 데이터 과학자와 데이터 분석가입니다.
데이터 과학자/기계 학습 엔지니어에게 필요한 최고의 기술:
- 프로그래밍 언어: 파이썬, SQL
- 기계 학습 프레임워크: Scikit-learn, Tensorflow, Keras
- 기계 학습 알고리즘: 선형 및 로지스틱 회귀, 의사 결정 트리, 그래디언트 부스팅 머신, CNN, MLP, 트랜스포머
- 클라우드 컴퓨팅 플랫폼 사용 경험
- 데이터 시각화 라이브러리: 매트플롯립, 시본, 플롯리
데이터 과학자의 주요 책임:
- 제품 또는 비즈니스 결정에 영향을 미치는 데이터 분석 및 이해
- 새로운 분야에 머신 러닝을 적용하는 방법을 탐구하기 위한 프로토타입 제작
- 기존 ML 모델을 개선하기 위한 실험 및 반복
기계 학습 엔지니어의 주요 책임:
- 새로운 분야에 머신 러닝을 적용하는 방법을 탐구하기 위한 프로토타입 제작
- 기존 ML 모델을 개선하기 위한 실험 및 반복
- 제품이나 워크플로우를 운영적으로 개선하는 머신 러닝 서비스 구축 및/또는 실행
- 43.51%의 전문가가 석사 학위를 보유하고 있습니다
- 컴퓨터 비전 과제에서 Transfer learning 이 주로 사용됨
- 기계 학습 모델을 훈련할 때 전문 하드웨어를 사용하는 응답자는 31.3%에 불과하며, 이는 일반적으로 훈련에 막대한 자원이 필요한 빅데이터나 심층 신경망을 다루지 않거나, 회사들이 전문 하드웨어에 투자하지 않아 ML 모델 생산에 병목 현상을 초래한다는 것을 나타냅니다.
해당 노트북은 plotly, matplotlib, 등을 이용하여 시각화되었다. helper funciton 은 다시 살펴볼만 한 것 같다.
설문조사 데이터셋은 이런 식으로 분석하는구나, 이런 그래프를 사용하는구나 등을 알 수 있었다.
질문이나 답변들을 repharse 하는 전처리나, 카테고리 비율 등에 대한 단순 계산 위주였던 노트북이었다.