본문 바로가기

카테고리 없음

머신러닝 파이프라인이란?

머신러닝 파이프라인이란? 

넓은 의미로 보자면, 

머신러닝 파이프라인은 머신러닝의 전체과정을 순차적으로 처리하는 일련의 프로세스이다.

 

좁은 의미의 파이프 라인은 

새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스이다. 

 

 

 

머신러닝 파이프라인의 필요성?

  1. 자동화 및 효율성
    • 반복적인 작업을 자동화하여 개발 시간을 단축하고 효율성을 높힌다.
  2. 재현성 및 일관성
    • 동일한 데이터와 파라미터 설정으로 일관된 결과를 얻을 수 있도록 한다.
  3. 확장성
    • 대규모 데이터 및 복잡한 모델에 대한 처리를 가능하게 한다.
  4. 협업
    • 여러 팀 구성원 간의 협업을 용이하게 한다. 

 

 

 

머신러닝 파이프라인의 단계?

  1. 데이터 수집
    • 데이터베이스, API 또는 파일과 같은 다양한 데이터 소스에서 새 데이터를 수집한다.
    • (유용하게 사용하기 위해 사전 처리를 거쳐야 할 수도 있는 원시 데이터가 포함되는 경우가 많다)
  2. 데이터 사전 처리
    • 모델링을 위한 입력 데이터 정리, 변환 및 준비가 포함된다.
    • 일반적인 사전 처리 단계에서는
    • 결측값 처리, 범주형 변수 인코딩, 숫자 피처 스케일링, 데이터를 학습 및 테스트 세트로 분할하는 작업이 수행된다.
  3. 기능 엔지니어링
    • 기능 엔지니어링은 모델의 예측력을 개선할 수 있는 새로운 기능을 만들거나,
    • 데이터에서 관련 기능을 선택하는 프로세스이다.
    • (이 단계에서는 종종 도메인에 대한 지식과 창의력이 필요하다)
  4. 모델 선택
    • 문제 유형(예: 분류, 회귀), 데이터 특성 및 성능 요구 사항에 따라 알맞은 머신 러닝 알고리즘을 선택합니다.
    • 하이퍼 매개 변수 조정을 고려할 수도 있습니다.
  5. 모델 학습
    • 선택된 모델이 선택된 알고리즘을 사용하여 학습 데이터 세트에서 학습한다.
    • 학습 데이터 내의 기본 패턴과 관계를 학습하는 작업이 여기에 포함된다.
    • 새로운 모델을 학습시키지 않고 미리 학습된 모델을 사용할 수도 있다.
  6. 모델 평가
    •  학습 후에는 별도의 테스트 데이터 세트를 사용하거나 교차 검증을 통해 모델의 성능을 평가한다.
    • 특정 문제에 따라 다르지만 일반적인 평가 메트릭에는
    • 정확도, 정밀도, 재현율, F1 점수, 평균 제곱 오차 등이 포함될 수 있다.
  7. 모델 배포
    • 만족스러운 모델을 개발하고 평가한 후에는
    • 프로덕션 환경에 배포하여 보이지 않는 새로운 데이터에 대한 예측을 수행할 수 있다.
    • 배포에는 API 생성 및 다른 시스템과의 통합이 포함될 수 있다.

  8. 모니터링 및 유지 관리
    • 배포 후에는 모델의 성능을 지속적으로 모니터링하고
    • 변화하는 데이터 패턴에 적응하기 위해 필요한 경우 모델을 재교육하는 것이 중요하다.
    • 이 단계를 통해 모델이 실제 환경에서 정확하고 신뢰할 수 있는 상태를 유지할 수 있다.

 

 

 

 

 

 


Reference

https://www.ibm.com/kr-ko/think/topics/machine-learning-pipeline