■ Communications /AI

AI 적용 프로세스 - 2. 데이터 수집

N's Story 2025. 4. 15. 23:15
728x90
반응형

AI 적용 프로세스
문제 정의 → 데이터 수집 → 데이터 분석 및 전처리 → AI 모델링 → AI 적용

 

 

데이터 수집

AI 모델 학습을 위한 필요한 데이터를 확보

 

 

데이터 종류

정형 데이터 행과 열로 구성된 데이터 엑셀, DB 테이블, CSV
비정형 데이터 형태가 일정하지 않은 데이터 텍스트, 이미지, 음성, 영상
반정형 데이터 태그 기반 구조화된 데이터 JSON, XML, 로그 파일

 

 

데이터 수집 방식

- 내부 데이터

  . 수집 방법 : 담당자간 협의 통한 기존 시스템에서 필요한 데이터를 추출
  . 주의사항 : 민감 정보 주의
- 외부 데이터
  . 수집 방법 : 크롤링, RSS, Opne API, 스트리밍 등
  . 주의사항 : 수집 절차 및 저작권 확인

 

 

데이터 수집시 고려 요소

정확성 데이터가 실제 현상을 제대로 반영하는가? (입력 오류, 측정 오류 등 확인)
완전성 필요한 모든 항목이 포함되어 있는가? (누락 데이터 존재 여부)
일관성 데이터 포맷이 표준화되어 있는가? (날짜 형식, 단위 통일 등)
시간성 최신 데이터인가? 또는 시점 기준이 일관되는가?
윤리성/법적 이슈 개인정보 보호, 민감 정보 수집 여부 고려 (GDPR, 개인정보보호법 등)

 

데이터 수집 도구 및 기술

DB에서 추출 SQL, ETL 도구 (Talend, Apache Nifi 등)
웹 데이터 수집 Python requests, BeautifulSoup, Selenium
실시간 수집 Apache Kafka, Spark Streaming, Flume
API 기반 수집 REST API, GraphQL, Python requests
공공데이터 data.go.kr, 기상청 API, 구글 데이터셋 검색 등

 

데이터 수집 e.g.

DB, 센서, 로그, 이미지, 텍스트 등 다양한 형식의 데이터

 

728x90
반응형