AndrewNA

AI 적용 프로세스 - 3. 데이터 분석 및 전처리 본문

■ Communications /AI

AI 적용 프로세스 - 3. 데이터 분석 및 전처리

N's Story 2025. 4. 15. 23:48
728x90
반응형

AI 적용 프로세스
문제 정의 → 데이터 수집 → 데이터 분석 및 전처리 → AI 모델링 → AI 적용

 

 

데이터 분석 및 전처리

데이터 분석 : 수집한 데이터의 구조와 특성 이해

기본 통계 확인 평균, 표준편차, 최대/최소값, 중간값 등 df.describe()
결측치 확인 누락된 값이 있는지 확인 df.isnull().sum()
변수 간 관계 분석 상관관계 확인, 산점도 등 시각화 corr(), heatmap()
분포 확인 각 변수의 분포 확인 히스토그램, 박스플롯
클래스 불균형 확인 목표값(Label)의 비율 확인 Class 0: 90%, Class 1: 10% 등

 

데이터 분석 도구

Python(pandas, matplotlib, seaborn, plotly), R, Excel, Tableau 등

 

 

데이터 전처리 : AI 모델이 학습하기 쉬운 형태로 가공

결측치 처리 NaN 등 누락값을 제거 또는 채움 평균/중간값 대체, 삭제, 예측
이상치 처리 비정상적으로 큰/작은 값 제거 박스플롯, Z-score, IQR
중복 제거 중복된 행 삭제 df.drop_duplicates()
데이터 형 변환 날짜형, 숫자형, 문자형 등 변환 astype(), to_datetime()
정규화/표준화 값의 범위를 일정하게 조정 MinMaxScaler, StandardScaler
범주형 인코딩 문자형 데이터를 숫자로 변환 One-Hot, Label Encoding
스케일링 숫자 간 단위 차이 보정 sklearn.preprocessing
피처 생성 의미 있는 새로운 변수 만들기 날짜 → 요일, 시간대 등
불필요한 피처 제거 분석에 방해되는 열 제거 고유 ID, 중복된 컬럼 등

 

데이터 전처리 주의할 점

과도한 전처리 주의 필요 없는 정보까지 제거하거나 왜곡할 수 있음
테스트 데이터에 누설 금지 훈련 데이터로 전처리 기준을 정하고, 테스트 데이터엔 그대로 적용
도메인 지식 반영 전처리 시 업무/비즈니스 이해가 꼭 필요 (예: 0이 의미 있는 값일 수도 있음)
일관성 유지 학습/검증/테스트 데이터에 동일한 전처리 과정 적용

 

 

데이터 분석 및 전처리 정리

데이터 분석 데이터의 특성과 문제점을 파악했는가? 분포 분석, 상관관계, 결측치 탐색
데이터 전처리 모델이 학습 가능한 형태로 만들었는가? 정제, 인코딩, 스케일링, 이상치 제거 등
728x90
반응형
Comments