머신러닝 파이프라인이란?

넓은 의미로 보자면,

머신러닝 파이프라인은 머신러닝의 전체과정을 순차적으로 처리하는 일련의 프로세스이다.

좁은 의미의 파이프 라인은

새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스이다.

머신러닝 파이프라인의 필요성?

자동화 및 효율성
- 반복적인 작업을 자동화하여 개발 시간을 단축하고 효율성을 높힌다.
재현성 및 일관성
- 동일한 데이터와 파라미터 설정으로 일관된 결과를 얻을 수 있도록 한다.
확장성
- 대규모 데이터 및 복잡한 모델에 대한 처리를 가능하게 한다.
협업
- 여러 팀 구성원 간의 협업을 용이하게 한다.

머신러닝 파이프라인의 단계?

데이터 수집
- 데이터베이스, API 또는 파일과 같은 다양한 데이터 소스에서 새 데이터를 수집한다.
- (유용하게 사용하기 위해 사전 처리를 거쳐야 할 수도 있는 원시 데이터가 포함되는 경우가 많다)
데이터 사전 처리
- 모델링을 위한 입력 데이터 정리, 변환 및 준비가 포함된다.
- 일반적인 사전 처리 단계에서는
- 결측값 처리, 범주형 변수 인코딩, 숫자 피처 스케일링, 데이터를 학습 및 테스트 세트로 분할하는 작업이 수행된다.
기능 엔지니어링
- 기능 엔지니어링은 모델의 예측력을 개선할 수 있는 새로운 기능을 만들거나,
- 데이터에서 관련 기능을 선택하는 프로세스이다.
- (이 단계에서는 종종 도메인에 대한 지식과 창의력이 필요하다)
모델 선택
- 문제 유형(예: 분류, 회귀), 데이터 특성 및 성능 요구 사항에 따라 알맞은 머신 러닝 알고리즘을 선택합니다.
- 하이퍼 매개 변수 조정을 고려할 수도 있습니다.
모델 학습
- 선택된 모델이 선택된 알고리즘을 사용하여 학습 데이터 세트에서 학습한다.
- 학습 데이터 내의 기본 패턴과 관계를 학습하는 작업이 여기에 포함된다.
- 새로운 모델을 학습시키지 않고 미리 학습된 모델을 사용할 수도 있다.
모델 평가
- 학습 후에는 별도의 테스트 데이터 세트를 사용하거나 교차 검증을 통해 모델의 성능을 평가한다.
- 특정 문제에 따라 다르지만 일반적인 평가 메트릭에는
- 정확도, 정밀도, 재현율, F1 점수, 평균 제곱 오차 등이 포함될 수 있다.
모델 배포
- 만족스러운 모델을 개발하고 평가한 후에는
- 프로덕션 환경에 배포하여 보이지 않는 새로운 데이터에 대한 예측을 수행할 수 있다.
- 배포에는 API 생성 및 다른 시스템과의 통합이 포함될 수 있다.
모니터링 및 유지 관리
- 배포 후에는 모델의 성능을 지속적으로 모니터링하고
- 변화하는 데이터 패턴에 적응하기 위해 필요한 경우 모델을 재교육하는 것이 중요하다.
- 이 단계를 통해 모델이 실제 환경에서 정확하고 신뢰할 수 있는 상태를 유지할 수 있다.

Reference

https://www.ibm.com/kr-ko/think/topics/machine-learning-pipeline

MI_Log

머신러닝 파이프라인이란?

머신러닝 파이프라인이란?

머신러닝 파이프라인의 필요성?

머신러닝 파이프라인의 단계?

티스토리툴바