일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 오스트리아 여행
- BGP
- init 6
- 체스키
- ai 적용 프로세스
- vi편집기
- ai 프로세스
- BGP AS_Path prepend
- 트렌드코리아
- 잘츠부르크 김치
- 클라우드
- 리눅스
- 잘츠부르크 여행
- 체스키크롬로프
- 도서평
- html5
- 무차별 공격
- PIM-SM
- 프라하
- 소극적 공격
- 초단파방송
- 오스트리아
- 레지오젯
- CK셔틀
- 모차르트 동상
- 적극적 공격
- 체코
- init 0
- 할슈타트 페리
- 비엔나 여행
Archives
- Today
- Total
AndrewNA
AI 적용 프로세스 - 3. 데이터 분석 및 전처리 본문
728x90
반응형
AI 적용 프로세스
문제 정의 → 데이터 수집 → 데이터 분석 및 전처리 → AI 모델링 → AI 적용
데이터 분석 및 전처리
데이터 분석 : 수집한 데이터의 구조와 특성 이해
기본 통계 확인 | 평균, 표준편차, 최대/최소값, 중간값 등 | df.describe() |
결측치 확인 | 누락된 값이 있는지 확인 | df.isnull().sum() |
변수 간 관계 분석 | 상관관계 확인, 산점도 등 시각화 | corr(), heatmap() |
분포 확인 | 각 변수의 분포 확인 | 히스토그램, 박스플롯 |
클래스 불균형 확인 | 목표값(Label)의 비율 확인 | Class 0: 90%, Class 1: 10% 등 |
데이터 분석 도구
Python(pandas, matplotlib, seaborn, plotly), R, Excel, Tableau 등
데이터 전처리 : AI 모델이 학습하기 쉬운 형태로 가공
결측치 처리 | NaN 등 누락값을 제거 또는 채움 | 평균/중간값 대체, 삭제, 예측 |
이상치 처리 | 비정상적으로 큰/작은 값 제거 | 박스플롯, Z-score, IQR |
중복 제거 | 중복된 행 삭제 | df.drop_duplicates() |
데이터 형 변환 | 날짜형, 숫자형, 문자형 등 변환 | astype(), to_datetime() |
정규화/표준화 | 값의 범위를 일정하게 조정 | MinMaxScaler, StandardScaler |
범주형 인코딩 | 문자형 데이터를 숫자로 변환 | One-Hot, Label Encoding |
스케일링 | 숫자 간 단위 차이 보정 | sklearn.preprocessing |
피처 생성 | 의미 있는 새로운 변수 만들기 | 날짜 → 요일, 시간대 등 |
불필요한 피처 제거 | 분석에 방해되는 열 제거 | 고유 ID, 중복된 컬럼 등 |
데이터 전처리 주의할 점
과도한 전처리 주의 | 필요 없는 정보까지 제거하거나 왜곡할 수 있음 |
테스트 데이터에 누설 금지 | 훈련 데이터로 전처리 기준을 정하고, 테스트 데이터엔 그대로 적용 |
도메인 지식 반영 | 전처리 시 업무/비즈니스 이해가 꼭 필요 (예: 0이 의미 있는 값일 수도 있음) |
일관성 유지 | 학습/검증/테스트 데이터에 동일한 전처리 과정 적용 |
데이터 분석 및 전처리 정리
데이터 분석 | 데이터의 특성과 문제점을 파악했는가? | 분포 분석, 상관관계, 결측치 탐색 |
데이터 전처리 | 모델이 학습 가능한 형태로 만들었는가? | 정제, 인코딩, 스케일링, 이상치 제거 등 |
728x90
반응형
'■ Communications > AI' 카테고리의 다른 글
AI 적용 프로세스 - 5. AI 적용 (1) | 2025.04.17 |
---|---|
AI 적용 프로세스 - 4. AI 모델링 (0) | 2025.04.16 |
AI 적용 프로세스 - 2. 데이터 수집 (0) | 2025.04.15 |
AI 적용 프로세스 - 1. 문제 정의 (0) | 2025.04.14 |
AI의 주요 기능 (0) | 2025.04.14 |
Comments