일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 빅데이터분석기사필기
- 데이터전처리
- 방향변경
- 유니코드 제거
- BeautifulSoup
- 정말
- 보라카이
- 사각형변형
- 마우스클릭
- 빅데이터분석기사
- 멜버른
- 너무오래됐다
- 색상변경
- 애니메이션
- 크롤링
- 청청구역
- 오류
- 예쁜곳
- selenium
- OpenGL
- 갈자신이없다
- 필기후기
- 가고싶은데
- 빅데이터분석기사후기
- 파이썬
- 언제또가보지
- 호주
Archives
- Today
- Total
wisdiom 아니고 wisdom
9. 데이터 수집 본문
(1) 데이터 처리 기술
데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소
(2) 데이터 수집 절차
수집 데이터 도출 - 목록 작성 - 소유기관 파악 및 협의 - 데이터 유형 분류 - 수집 기술 선정 - 수집 계획서 작성 - 수집 주기 결정 - 데이터 수집 실행
(3) 데이터 수집 방식 및 기술
- 정형 데이터
- ETL : 데이터를 추출, 가공하여 DW 및 DM에 저장하는 기술
- FTP : TCP/IP 기반으로 파일을 송·수신하는 응용계층 통신 프로토콜
- API :시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술
- DBToDB
- Rsync (Remote Sync) : 서버·클라이언트 방식으로 대상 시스템과 1:1로 파일과 디렉토리를 동기화하는 기술
- Sqoop (스쿱) : 커넥터(connector)를 사용해 RDB와 하둡 간 데이터 전송 기능을 제공하는 기술
- 반정형 데이터
- Sensing (센싱)
- Streaming (스트리밍)
- Flume (플럼)
- 스트리밍 데이터 흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술
- 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트(Event), 에이전트(Agent)를 활용하는 분산형 로그 수집 기술
- Scribe (스크라이브) : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
- Chuckwa (척와)
- 비정형 데이터
- Crawling (크롤링)
- RSS : XML 기반으로 정보를 배포하는 프로토콜을 활용해 데이터를 수집하는 기술
- Open API
- Scrapy (스크래파이) : 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(Python) 기반의 애플리케이션 프레임워크
- ⭐ Kafka (카프카) : 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 <발행(Publish), 구독(Scriber)>하는 방식의 분산 스트리밍 플랫폼
- Chuckwa (척와)
(4) 데이터 변환 기술 : 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것
- 평활화 (Smoothing)
- 집계 (Aggregation)
- 일반화 (Generalization)
- 정규화 (Normalization)
- 속성 생성 (Feature Construction)
반응형
'👩🎓✍ > BigData 분석기사' 카테고리의 다른 글
11. 데이터 적재 (0) | 2021.03.08 |
---|---|
10. 데이터 품질 검증 (0) | 2021.03.08 |
8. 데이터 확보 계획 (0) | 2021.03.07 |
7. 데이터 분석 방안 (0) | 2021.03.07 |
6. 분석 로드맵 설정 (0) | 2021.03.07 |
Comments