| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- ai 적용 프로세스
- BGP AS_Path prepend
- 체코
- init 6
- 잘츠부르크 김치
- 클라우드
- 적극적 공격
- 체스키
- 오스트리아
- 모차르트 동상
- 리눅스
- 레지오젯
- vi편집기
- init 0
- 프라하
- 잘츠부르크 여행
- 도서평
- 트렌드코리아
- 비엔나 여행
- ai 프로세스
- 체스키크롬로프
- 무차별 공격
- 할슈타트 페리
- BGP
- 초단파방송
- 소극적 공격
- 오스트리아 여행
- PIM-SM
- html5
- CK셔틀
Archives
- Today
- Total
AndrewNA
AI 적용 프로세스 - 2. 데이터 수집 본문
728x90
반응형
AI 적용 프로세스
문제 정의 → 데이터 수집 → 데이터 분석 및 전처리 → AI 모델링 → AI 적용
데이터 수집
AI 모델 학습을 위한 필요한 데이터를 확보
데이터 종류
| 정형 데이터 | 행과 열로 구성된 데이터 | 엑셀, DB 테이블, CSV |
| 비정형 데이터 | 형태가 일정하지 않은 데이터 | 텍스트, 이미지, 음성, 영상 |
| 반정형 데이터 | 태그 기반 구조화된 데이터 | JSON, XML, 로그 파일 |
데이터 수집 방식
- 내부 데이터
. 수집 방법 : 담당자간 협의 통한 기존 시스템에서 필요한 데이터를 추출
. 주의사항 : 민감 정보 주의
- 외부 데이터
. 수집 방법 : 크롤링, RSS, Opne API, 스트리밍 등
. 주의사항 : 수집 절차 및 저작권 확인
데이터 수집시 고려 요소
| 정확성 | 데이터가 실제 현상을 제대로 반영하는가? (입력 오류, 측정 오류 등 확인) |
| 완전성 | 필요한 모든 항목이 포함되어 있는가? (누락 데이터 존재 여부) |
| 일관성 | 데이터 포맷이 표준화되어 있는가? (날짜 형식, 단위 통일 등) |
| 시간성 | 최신 데이터인가? 또는 시점 기준이 일관되는가? |
| 윤리성/법적 이슈 | 개인정보 보호, 민감 정보 수집 여부 고려 (GDPR, 개인정보보호법 등) |
데이터 수집 도구 및 기술
| DB에서 추출 | SQL, ETL 도구 (Talend, Apache Nifi 등) |
| 웹 데이터 수집 | Python requests, BeautifulSoup, Selenium |
| 실시간 수집 | Apache Kafka, Spark Streaming, Flume |
| API 기반 수집 | REST API, GraphQL, Python requests |
| 공공데이터 | data.go.kr, 기상청 API, 구글 데이터셋 검색 등 |
데이터 수집 e.g.
DB, 센서, 로그, 이미지, 텍스트 등 다양한 형식의 데이터
728x90
반응형
'■ Communications > AI' 카테고리의 다른 글
| AI 적용 프로세스 - 4. AI 모델링 (0) | 2025.04.16 |
|---|---|
| AI 적용 프로세스 - 3. 데이터 분석 및 전처리 (1) | 2025.04.15 |
| AI 적용 프로세스 - 1. 문제 정의 (0) | 2025.04.14 |
| AI의 주요 기능 (0) | 2025.04.14 |
| AI 모델 구성요소 및 목표 (0) | 2025.04.07 |
Comments