'데이터 분석/머신러닝' 카테고리의 글 목록

MLOps를 위한 데이터 관리 전략

MLOps를 위한 데이터 관리 전략 1. 서론 MLOps 환경에서 데이터는 모델 개발과 운영의 핵심 요소입니다. 정확하고 신뢰할 수 있는 데이터를 ML 파이프라인에 지속적으로 공급하기 위해서는 체계적인 데이터 관리 전략이 필요합니다. 이번 포스팅에서는 MLOps를 위한 효과적인 데이터 관리 방안을 알아보겠습니다. 2. 데이터 버전 관리 데이터셋의 변경 사항을 체계적으로 관리하고 추적하는 것이 중요합니다. Git 기반의 데이터 버전 관리 시스템(DVC, GitLFS 등)을 사용하면 편리합니다. # DVC 예시 dvc init dvc add data/train.csv git commit -m "Add train data" 3. 데이터 라이너지 추적 원시 데이터로부터 특징 데이터셋이 생성되는 과정을 추적하는 ..

데이터 분석/머신러닝 2024.05.14

MLOps에서 모델 모니터링과 CI/CD 구축하기

MLOps에서 모델 모니터링과 CI/CD 구축하기 1. 모델 모니터링의 중요성 기계학습 모델을 프로덕션에 배포했다고 해서 모든 과정이 완료된 것은 아닙니다. 실제 서비스 환경에서 지속적으로 모델의 성능과 건전성을 모니터링하는 것이 필수적입니다. 데이터 드리프트, 모델 성능 저하, 예기치 못한 입력 등 다양한 이슈가 발생할 수 있기 때문입니다. 2. 모니터링 지표 정의 모델 모니터링을 위해서는 먼저 관심 있는 지표를 정의해야 합니다. 일반적으로 다음과 같은 지표들을 추적합니다. - 데이터 통계: 입력 데이터의 통계적 분포 변화 - 모델 성능: 정확도, 정밀도, 재현율 등 평가 지표 - 시스템 지표: 응답 시간, 자원 사용량 등 시스템 메트릭 - 비즈니스 지표: 실제 서비스 메트릭 (매출, 전환율 등) 3...

데이터 분석/머신러닝 2024.05.14

클라우드 환경에서 MLOps 구축하기

클라우드 환경에서 MLOps 구축하기 1. MLOps 소개 기계학습 모델을 실제 프로덕션 환경에 배포하고 운영하는 과정은 전통적인 소프트웨어 개발 및 운영과는 다른 많은 고려사항이 필요합니다. MLOps(Machine Learning Operations)는 모델 개발 단계부터 프로덕션 배포, 모니터링, 재학습까지 전체 라이프사이클을 체계적으로 관리하고자 하는 개념입니다. MLOps의 주요 구성 요소는 다음과 같습니다. - 데이터 처리 및 관리 - 모델 학습 및 실험 관리 - 모델 버전 관리 및 배포 - 모델 모니터링 및 성능 추적 - 코드 통합 및 자동화 파이프라인 2. 클라우드 환경 선택 MLOps를 위한 인프라 환경으로 대표적인 클라우드 플랫폼 중 하나를 선택할 수 있습니다. AWS, GCP, Azu..

데이터 분석/머신러닝 2024.05.14

딥러닝 모델을 웹 / 모바일 앱에 배포하기

딥러닝 모델을 웹/모바일 앱에 배포하기 1. 개요 딥러닝 모델을 개발한 후에는 실제 서비스에 배포하는 단계가 필수적입니다. 이번 포스팅에서는 학습된 모델을 웹이나 모바일 애플리케이션에서 사용할 수 있도록 서빙하는 다양한 방법을 알아보겠습니다. 2. TensorFlow Serving 구축 TensorFlow 모델을 프로덕션 환경에 배포할 때 많이 사용하는 옵션이 TensorFlow Serving입니다. 설치 및 모델 저장 pip install tensorflow-serving-api import tensorflow as tf model = ... # 학습된 TF 모델 로드 MODEL_VERSION = 1 export_path = f"./exported_models/model/{MODEL_VERSION}" ..

데이터 분석/머신러닝 2024.05.13

PyTorch vs TensorFlow - CIFAR-10 이미지 분류 비교

PyTorch vs TensorFlow - CIFAR-10 이미지 분류 비교 딥러닝 프레임워크 중 가장 인기 있는 PyTorch와 TensorFlow, 두 프레임워크의 성능을 실제 이미지 분류 문제에 대해 비교해보았습니다. 이번에는 CIFAR-10 데이터셋과 ResNet-18 모델을 사용하여 정확도, 학습 속도 등의 지표를 측정하고 분석해보겠습니다. 데이터셋 및 모델 실험에 사용한 데이터셋은 CIFAR-10으로, 60,000개의 32x32 크기 이미지가 10개 클래스로 구분되어 있습니다. 모델은 ResNet-18 아키텍처를 사용했으며, 하이퍼파라미터는 다음과 같이 설정하였습니다. - 옵티마이저: SGD (lr=0.1, momentum=0.9) - 손실함수: CrossEntropyLoss - 학습 에포크:..

데이터 분석/머신러닝 2024.05.13

PyTorch와 Transfer Learning으로 꽃 이미지 분류기 만들기

PyTorch와 Transfer Learning으로 꽃 이미지 분류기 만들기 오늘은 PyTorch와 Transfer Learning 기법을 활용하여 꽃 이미지를 분류하는 모델을 만들어보겠습니다. 다양한 꽃 사진 데이터셋을 대상으로 하며, 사전 훈련된 모델의 지식을 활용하여 빠르고 정확한 모델을 구축할 수 있습니다. 전체 과정을 단계별로 따라가시면서 실습해보시기 바랍니다. 사전 준비 PyTorch와 관련 패키지를 설치합니다. pip install torch torchvision 그리고 실습에 사용할 데이터셋을 다운로드 받습니다. 이번 예제에서는 아래 링크의 꽃 이미지 데이터셋을 활용하겠습니다. https://www.robots.ox.ac.uk/~vgg/data/flowers/102/ 데이터셋을 다운로드하여..

데이터 분석/머신러닝 2024.05.13

텍스트? 이미지? 모두 OK! huggingface 멀티모달 모델 활용하기

텍스트? 이미지? 모두 OK! huggingface 멀티모달 모델 활용하기 최근 딥러닝 모델은 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 모달리티를 함께 다룰 수 있게 되었습니다. 이러한 멀티모달 모델은 단일 모델에서 여러 형태의 데이터를 통합적으로 처리할 수 있어 새로운 응용 분야가 열리고 있죠. huggingface에서도 대표적인 멀티모달 모델들을 제공하고 있으니 함께 알아볼까요? 1. 멀티모달 모델이란? - 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 데이터를 통합 처리하는 모델 - 단일 모델에서 멀티태스크를 수행 가능 - 강력한 표현력으로 새로운 응용 분야 개척 중 2. 대표 모델 소개 - CLIP (Contrastive Language-Image Pretraining) - 이..

데이터 분석/머신러닝 2024.05.09

사전 훈련 모델을 업그레이드하자! huggingface 파인튜닝 가이드

사전 훈련 모델을 업그레이드하자! huggingface 파인튜닝 가이드 머신러닝 모델 개발에서 가장 큰 고민은 '좋은 모델을 구하기 어렵다'는 점입니다. 하지만 huggingface에는 엄청난 양의 사전 훈련된 모델들이 있죠. 이들을 그대로 사용하기에는 아쉬움이 있겠지만, 파인튜닝을 통해 내 작업에 맞게 커스터마이징할 수 있습니다. 이번 포스팅에서는 huggingface에서 모델 파인튜닝하는 방법을 자세히 알아보겠습니다. 1. 파인튜닝이란? - 사전 훈련된 모델의 가중치를 내 데이터셋으로 추가 학습시키는 전이학습 기법 - 모델을 처음부터 훈련하는 것보다 적은 데이터와 리소스로 좋은 성능을 낼 수 있음 2. 데이터 준비하기 - 업무 영역과 작업에 맞는 데이터셋 준비 (라벨링 포함) - 데이터 전처리 : 토..

데이터 분석/머신러닝 2024.05.09

머신러닝 모델 고르기? huggingface에서 한방에 해결!

머신러닝 모델 고르기? huggingface에서 한방에 해결! 머신러닝과 딥러닝 분야에서 huggingface는 가장 인기 있는 오픈소스 플랫폼 중 하나입니다. 수많은 사전 훈련된 모델과 라이브러리를 제공하여 개발자와 연구자들이 쉽게 활용할 수 있게 해줍니다. 하지만 방대한 양의 모델들 사이에서 자신의 작업에 가장 적합한 모델을 고르기란 쉽지 않습니다. 이번 포스팅에서는 huggingface에서 유용한 모델을 찾는 방법을 상세히 알아보겠습니다. 1. huggingface 모델 허브 살펴보기 huggingface 웹사이트에 접속하면 가장 먼저 모델 허브(https://huggingface.co/models)를 만나게 됩니다. 여기서 수많은 모델들을 한눈에 볼 수 있습니다. 모델 검색창과 다양한 필터링 기능..

데이터 분석/머신러닝 2024.05.09

OpenAI의 프롬프트 엔지니어링 가이드

OpenAI의 프롬프트 엔지니어링 가이드 대규모 언어 모델(GPT 모델이라고도 함)에서 더 나은 결과를 얻기 위한 전략과 기술을 공유하는 가이드 여기서 설명하는 방법들은 때때로 결합하여 더 큰 효과를 낼 수 있으며, 가장 적합한 방법을 찾기 위해 실험을 권장 예시 프롬프트를 탐색하여 모델이 할 수 있는 일을 배울 수 있음 더 나은 결과를 얻기 위한 여섯 가지 전략 1. 명확한 지시사항 작성 모델은 마음을 읽을 수 없으므로, 원하는 것을 명확히 요청해야 함. 세부사항을 포함하여 더 관련성 높은 답변을 얻고, 모델에게 특정 인물을 연기하도록 요청하거나, 입력의 구별된 부분을 명확히 나타내기 위해 구분자 사용. 작업을 완료하기 위해 필요한 단계를 명시하고, 예시를 제공하며, 출력의 원하는 길이를 지정. 2. ..

데이터 분석/머신러닝 2023.12.18

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Family in August

데이터 분석/머신러닝 36

티스토리툴바