■ Communications /AI
AI 적용 프로세스 - 2. 데이터 수집
N's Story
2025. 4. 15. 23:15
728x90
반응형
AI 적용 프로세스
문제 정의 → 데이터 수집 → 데이터 분석 및 전처리 → AI 모델링 → AI 적용
데이터 수집
AI 모델 학습을 위한 필요한 데이터를 확보
데이터 종류
정형 데이터 | 행과 열로 구성된 데이터 | 엑셀, DB 테이블, CSV |
비정형 데이터 | 형태가 일정하지 않은 데이터 | 텍스트, 이미지, 음성, 영상 |
반정형 데이터 | 태그 기반 구조화된 데이터 | JSON, XML, 로그 파일 |
데이터 수집 방식
- 내부 데이터
. 수집 방법 : 담당자간 협의 통한 기존 시스템에서 필요한 데이터를 추출
. 주의사항 : 민감 정보 주의
- 외부 데이터
. 수집 방법 : 크롤링, RSS, Opne API, 스트리밍 등
. 주의사항 : 수집 절차 및 저작권 확인
데이터 수집시 고려 요소
정확성 | 데이터가 실제 현상을 제대로 반영하는가? (입력 오류, 측정 오류 등 확인) |
완전성 | 필요한 모든 항목이 포함되어 있는가? (누락 데이터 존재 여부) |
일관성 | 데이터 포맷이 표준화되어 있는가? (날짜 형식, 단위 통일 등) |
시간성 | 최신 데이터인가? 또는 시점 기준이 일관되는가? |
윤리성/법적 이슈 | 개인정보 보호, 민감 정보 수집 여부 고려 (GDPR, 개인정보보호법 등) |
데이터 수집 도구 및 기술
DB에서 추출 | SQL, ETL 도구 (Talend, Apache Nifi 등) |
웹 데이터 수집 | Python requests, BeautifulSoup, Selenium |
실시간 수집 | Apache Kafka, Spark Streaming, Flume |
API 기반 수집 | REST API, GraphQL, Python requests |
공공데이터 | data.go.kr, 기상청 API, 구글 데이터셋 검색 등 |
데이터 수집 e.g.
DB, 센서, 로그, 이미지, 텍스트 등 다양한 형식의 데이터
728x90
반응형