Created by. 솔루션사업팀
https://towardsdatascience.com/the-machine-learning-workflow-explained-557abf882079
1. 데이터 수집
- 자연어 처리(NLP)의 경우 말뭉치를 만들고, 분석을 위한 기본 데이터(Raw Data) 뿐만 아니라 코드 데이터, 음성, 영상 데이터 이 모든 것들을 수집한다.
- 데이터의 형태는 Json, csv(열을 ,(콤마)로 구분한 데이터), 이미지, 텍스트(댓글 데이터) 등 다양하다.
- 수집을 위해서 Open API 또는 웹크롤러를 사용하여 외부 데이터를 가져오거나, 내부적으로 데이터를 가지고 있는 경우에는 JDBC와 같은 라이브러리를 활용하여 직접 DB에 접근하여 데이터를 받는다.
- 데이터 레이블링도 이 단계에 속한다.
예시) AI Hub (https://aihub.or.kr/)
예) 공공데이터 포털 (https://www.data.go.kr/index.do)
예) ‘의약품, 화장품 패키징 OCR 데이터’ ****Raw Data 예시 (https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=633)
2. 데이터 분석 (Analysis, Visualization)
- 데이터를 수집한 이후에는, 이 데이터가 우리가 지향하는 목표에 적절한 데이터인지 점검, 파악을 하는 단계를 갖는다.
- 데이터의 구조 등과 분포 등을 확인하여 앞으로 어떻게 전처리를 할지 또는 추가적인 데이터 수집이 필요한지를 판단한다.
- 보통 통계 기법(군집화 등)과 데이터 시각화를 활용하여 진행한다.