일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 가고싶은데
- 언제또가보지
- 청청구역
- 사각형변형
- 빅데이터분석기사후기
- 색상변경
- 필기후기
- 멜버른
- BeautifulSoup
- 갈자신이없다
- 마우스클릭
- 유니코드 제거
- 방향변경
- 너무오래됐다
- selenium
- OpenGL
- 빅데이터분석기사
- 호주
- 보라카이
- 오류
- 크롤링
- 파이썬
- 애니메이션
- 예쁜곳
- 정말
- 빅데이터분석기사필기
- 데이터전처리
- Today
- Total
목록👩🎓✍/BigData 분석기사 (40)
wisdiom 아니고 wisdom
🔥 선행 필수 내용 https://spreadyourwisdiom21.tistory.com/8 2. 데이터 사전 처리 Data Preprocessing 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다. 데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요 spreadyourwisdiom21.tistory.com 작업형 제1유형 : 데이터 처리 영역¶ Q. mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 반환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. 📚 Library¶ In [ ]: import pandas as pd import numpy as np 🔍 데이터 살펴보..
여러 명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어는 무엇인가? 데이터베이스 관리 시스템(DBMS)

🏫 : 문정중학교 📆 : 2021년 4월 17일 (토) 10:00 📝 생각보다 많은 재직자분들이 시험을 보러 온 것 같아서 놀랐다. 그리고 솔직히 첫 시험이라 난이도가 쉬울거라고 생각했다. 근데 문제를 풀면서 내가 너무 쉽게 생각했다는 것을 알았다 ^^,, 문제가 한번에 이해가 되지 않게 냈다고 해야 하나. 문제와 답을, 말을 너무 어렵게 써놨다는 생각이 들면서,, 큐넷이 생각났다,,^^ㅎ,,, 마지막에 마지막까지 헷갈리는 문제 고민하다가 어쩌피 모르는거 고민해서 뭐하나 싶어 제출했다. 나와서 시험본 친구들이랑 얘기하다가 정답이 두 개일 수 있다고 문제지 앞 페이지에 적어놨다고 한다. 진짜 그때... 너무 어이없고 허탈하고 화도 나고,,^^,, 그런건 앞 페이지를 반드시 읽어주세요 라든가, 방송으로 유의..
데이터 시각화, Data Visualization (1) 데이터 시각화 기능 설명 기능 : 데이터의 시각화를 통해 전달하려는 메시지와 주요한 분석 결과를 설명하는 기능 탐색 기능 : 데이터의 숨겨져 있는 관계와 패턴을 찾기 위한 시각적 분석 기능 표현 기능 : 데이터를 활용한 개인 작품이나 예술적인 표현을 통해 이야기 전달과 공감을 불러일으키기 위한 기능 (2) 데이터 시각화 유형 시간 시각화 : 시간 흐름에 따른 변화를 통해 경향(트렌드) 파악 막대 그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프 분포 시각화 도넛 차트, 파이 차트, 트리맵, 누적 연속 그래프 관계 시각화 : 집단 간의 상관관계를 확인하여 다른 수치의 변화 예측 산점도(상관관계, 군집화, 이상값 패턴 파악 유용), ..
(1) 과대 적합 방지 과대 적합은 제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생한다. 데이터 증강 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다. 모델의 복잡도 감소 은닉층의 수 감소 모델의 수용력 낮추기 가중치 규제 적용 L1 규제 : λ|ω} L2 규제 : ½λω² 드롭아웃(Dropout) : 학습 과정에서 신경망 일부를 사용하지 않는 방법 초기 드롭아웃 공간적 드롭아웃 시간적 드롭아웃 (2) 매개변수 최적화 학습 모델과 실제 레이블과의 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 ..
교차 검증, Cross Validation 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다. 홀드 아웃 교차 검증 : 전체 데이터를 *비복원추출 방법을 이용하여 랜덤하게 학습 데이터와 평가 데이터로 나눠 검증하는 기법 다중 교차 검증 랜덤 서브샘플링 : 모집답으로부터 조사의 대상이 되는 표본을 무작위로 추출하는 기법 K-Fold Cross Validation : 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그 중 1개 집합을 평가 데이터로 나머지 (K-1)개 집합을 학습 데이터로 선정하여 분석 모형을 평가하는 기법 LOOCV : 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 (N-1)개는 학습 ..
비모수 통계 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향이 적다*. 구분 비모수 통계 모수 통계 단일 표본 - 부호 검정 - 윌콕슨 부호 순위 검정 - 단일 표본 T-검정 두 표본 - 윌콕슨 순위 합 테스트 - 독립 표본 T-검정 - 부호 검정 - 윌콕슨 부호 순위 검정 - 대응 표본 T-검정 분산 분석 크루스칼-왈리스 검정 - ANOVA 무작위성 *런 검정 - 없음 상관 분석 스피어만 순위 상관계수 피어슨 상관계수 *런 검정(Run Test) : 두 개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검정하는 방법 런(Run)은 동일한 측정값들이 시작하여 끝날 때까지의..

앙상블, Ensemble 여러 가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법 (1) 앙상블 특징 보다 높은 신뢰성 확보 정확도 상승 원인분석에 부적합 (2) 앙상블 기법 종류 배깅(Bagging) : 학습 데이터에서 n개의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 다수결을 통해 최종 예측 모형을 만다는 알고리즘이다. 분산감소, 결측값이 존재할 때 강함, 소량 데이터 유리, 단순할수록 유리 부스팅(Boosting) : 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법 예측력 강화, 가중치 재조정, 과대적합 없음, 대용량 데이터 유리, 복잡할수록 유리 랜덤 포레스트(Random Forest) : 배깅과 부스팅보다 더 ..