[후기] 2022 GDG 인천 머신러닝 밋업
Festa! 를 둘러보다가, '머신러닝 밋업' 이라는 말을 보고 신청하게 되었다.
pytorch 유저라서 tensorflow 는 거의 사용하지 않아 와닿지 못한 부분도 있었지만, 상당히 유익한 밋업이었다.
개인적으로 얻은 게 많았던 2가지 발표 세션에 대해 간략히 이야기해보려고 한다.
GCP와 TFX로 쉽게 MLOps 를 시작하는 법 (박찬성)

개인적으로 MLOps 에 관심이 많아지고 있어서, 더 집중해서 들었던 것 같다. 최근 일부 실험에서는 pytorch lightning 을 사용해서 머신러닝 파이프라인을 구축하여 사용하고 있었기 때문에 tensorflow 에서는 어떻게 하는지 궁금했었다.
Tensorflow 에는 5가지 오픈소스가 있는데, 이를 적절히 녹여서 아래 파이프라인으로 사용한다.

해당 파이프라인을 따라, 순서대로 설명을 하셨다.
이 과정에서 TFX 에서 사용한, 몇 가지 개념에 대해 정리해보겠다.
Component
- TFX 는 component (그림에서 하나의 컨테이너로 쌓여있는 것) 를 사용한다.
- 특정 component 로부터 나온 output인 'artifacts' 이라고 한다. 이를 'metadata store' 에 저장한다.
- 어떤 component 가 다른 component 로부터 나온 'artifacts'를 필요로 한다면, 'metadata store'으로부터 꺼내어 사용할 수 있다.
Artifacts
- 일종의 '작업 처리 보고서'라고 이해를 하면 된다.
- 예를 들어, data 를 train/test/validation data 로 나눈다고 할 때, '나눠진 데이터' 그 자체를 따로 저정하는 것이 아니라,이에 대한 '정보', 즉, '어떻게 분할 됐냐', '분할된 데이터가 어디에 저장됐냐' 등의 정보를 'artifacts'에 담는다.
- 그리고 artifacts 를 'metadata store' (일종의 저장소)에 저장하여, 다른 컴포넌트가 사용할 수 있게 한다.
- 이를 통해 component 를 서로 고립되게 만들 수 있고, 이를 통해 일반화된 파이프라인 구조가 만들어질 수 있다.
TFrecords
- TFX 가 만든 데이터 포맷
GCP 에서는 2개의 key service 제공한다.
1. DataFlow
2. Vertex AI
(오프라인 컨퍼런스에서 처음으로) 발표자님께 직접 질문을 했다!
- model state 를 pikle 같은 파일로 저장할 수 있는데 왜 artifact 를 사용하나요?
- gcs 랑 호환이 된다는 게 좋습니다.
- 물론 pikle 로 파일 저장해도 됩니다.
- records 도.. 왜 csv 있는데 tf records 를 쓰는 이유는 뭔가요?
- binary 라서, 컴퓨터가 읽기 더 좋습니다.
- 속도가 빠릅니다.
- scheme gen 단계에서는 에서는 사용자의 interaction 이 항상 들어가야 하나요?
- 내가 정한, 어떤 기준치에 포함되는지 미리 정해두는 것입니다. (파이프라인 과정 중에는 x)
- pytorch 랑 잘 호환이 되나요? 이미 생성한 모델도 일부 파이프라인 실행 가능한가요?
- 발표자님은 연구할 때도 tensorflow 쓰신다.
- TFX 에서는 pytorch 모델 못 쓴다. 😢
- custom package 는 아마 없을 것이다...
- baseline 모델을 입력으로 받을 떄, 모델의 형태.. 다른 프레임워크도 되나요 ? tensorflow 가 아니라...!
- 마찬가지로 tensorflow 만 됩니다...!
텐서플로우로 만나는 Graph Neural Network (신정규)
커뮤니티 타임
Machine Learning Meetup - Incheon | Festa!
Festa에서 당신이 찾는 이벤트를 만나보세요.
festa.io
댓글을 사용할 수 없습니다.