일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 사각형변형
- BeautifulSoup
- 멜버른
- 오류
- 크롤링
- 가고싶은데
- 유니코드 제거
- 빅데이터분석기사후기
- 갈자신이없다
- 호주
- 청청구역
- 색상변경
- selenium
- 너무오래됐다
- 빅데이터분석기사필기
- 필기후기
- 빅데이터분석기사
- 파이썬
- 데이터전처리
- 정말
- 언제또가보지
- 보라카이
- 애니메이션
- 방향변경
- 예쁜곳
- 마우스클릭
- OpenGL
- Today
- Total
목록👩💻/pandas (19)
wisdiom 아니고 wisdom
1) 다별량 데이터 탐색df.info() 2) 범주형 자료 탐색, 범주별 데이터 개수 확인df[col].value_counts() 3) 연속형 자료 탐색df.describe() 평균(mean)과 중위수(median)의 차이가 크지 않은 지 확인하고, 평균과 중위수가 일치할수록 이상치가 적은 데이터를 의미한다. df.skew() # 왜도 : 0일 경우, 정규분포와 일치df.kurtosis() # 값이 클수록 중심에 자료가 많이 몰려있다. 0이면 정규분포와 높이가 동일.df.hist() 4) 이변량 데이터 탐색df.corr(method='pearson')# pearson 상관계수: 모수 검정, 수치형/연속형 데이터 변수# spearman 순위 상관계수 : 비모수 검정, 범주형 데이터 중에서 순서적 데이터 ..
일치하는 문자열을 포함한 행 추출
8️⃣ 단일 리스트를 데이터프레임으로 변환, Single List to DataFrame ◼ 예시 >> list1 = [1,2,3,4,5] test = pd.DataFrame(data=list1) print(test) ◼ 결과 >> 0 0 1 1 2 2 3 3 4 4 5 9️⃣ 다중 리스트를 데이터프레임으로 변환, Multi-List to DataFrame ◼ 예시 1 >> list1 = [1,2,3,4,5] list2 = ['a','b','c','d','e'] test = pd.DataFrame(data=[list1, list2]) print(test) ◼ 결과 1 >> 0 1 2 3 4 0 1 2 3 4 5 1 a b c d e ◼ 예시 2 >> list1 = [1,2,3,4,5] list2 = ['..

Clustering, 군집 군집(clustering) 분석은 비지도학습 유형으로 데이터셋의 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 클러스터(집단)로 묶는 알고리즘이다. 다른 클러스터 간에는 서로 완전하게 구분되는 특징을 갖기 때문에 어느 클러스터에도 속하지 못하는 관측값이 존재할 수 있다. 이런 특성을 이용해 특이 데이터(이상값, 중복값 등)를 찾는데 활용하기도 한다. 🌳 응용 신용카드 부정 사용 탐지, 구매 패턴 분석 등 소비자 행동 특성 그룹화 알고 있는 클러스터 밖의 사용 패턴을 찾아 무단 네트워크 침입과 같은 이상 행동 탐지 유사한 값을 갖는 특징을 적은 개수의 동질적인 범주로 그룹핑해 초대형 데이터셋을 단순화 🧨 k-Means k-Means 알고리즘은 ..

Decision Tree, 의사결정 나무 트리(Tree) 구조를 사용하며, 각 분기점(node)에는 분석대상의 속성(설명변수)들이 위치한다. 각 분기점마다 목표 값을 잘 분류할 수 있는 속성을 찾아서 배치하고, 해당 속성이 갖는 값을 이용하여 새로운 가지(branch)를 만든다. 각 분기점에서의 최적의 속성을 선택할 때는 해당 속성을 기준으로 분류한 값들이 구분되는 정도를 측정한다. Entropy가 낮을수록 분류가 잘 된 것이며, Entropy가 일정 수준 이하로 낮아질 때까지 앞의 과정을 반복한다. *Entropy : 다른 종류의 값들이 섞여 있는 정도를 나타내는 것 📍 모형 학습 및 검증 # Decision Tree 분류 모형 from sklearn import tree # 모형 객체 생성 tree_..

SVM, Support Vector Machine 데이터셋의 여러 속성을 나타내는 데이터프레임의 각 열은 열 벡터 형태로 구현된다. 열 벡터들이 각각 고유의 축을 갖는 벡터 공간을 만드는데, 분석 대상이 되는 개별 관측값은 모든 속성(열 벡터)에 관한 값을 해당 축의 좌표로 표시하여 벡터 공간에서의 위치를 나타낸다. n개의 속성(n개의 열 벡터)이 존재하는 데이터셋은 n차원 공간에 표시된다. SVM 모형은 벡터 공간에 위치한 훈련 데이터의 좌표와 각 데이터가 어떤 분류 값을 가져야 하는지 정답을 입력 받아서 학습한다. 같은 분류 값을 갖는 데이터끼리 같은 공간에 위치하도록 벡터 공간을 여러 조각으로 나눌 수 있다면, 새로운 데이터에 대해서도 어느 공간에 위치하는지 분류할 수 있다. https://spre..

KNN, k-neareast-neighbors 새로운 관측값이 주어지면 기존 데이터 중에서 가장 속성이 비슷한 k개의 이웃을 먼저 찾는다. 그리고 가까운 이웃들이 갖고 있는 목표 값과 같은 값으로 분류하여 예측한다. 전통적으로 k-NN 알고리즘은 유클리드 거리(Euclidean distance)를 사용한다. (수치형 데이터를 다룬다.) (1) 장단점 🥰 😥 - 단순하고 효율적이다. - 기저 데이터 분포에 대한 가정을 하지 않는다. - 훈련 단계가 빠르다. - 적절한 k의 선택이 필요하다. - 분류 단계가 느리다. - 명목 특징과 누락 데이터에 대한 추가 처리가 필요하다. 🚨🙋♀️ 적절한 k값 선택이란? 🤔 k값에 따라 예측의 정확도가 달라지므로, 적절한 k값을 찾는 것이 매우 중요하다. k값이 클수록 ..

1️⃣ Regression, 회귀분석 가격, 매출, 주가, 환율, 수량 등 연속적인 값을 갖는 연속 변수를 예측하는데 주로 활용된다. 회귀분석은 하나의 변수가 나머지 다른 변수들 간의 선형적 관계를 갖는가의 여부를 분석하는 방법으로 하나의 종속변수(예측하고자 하는 값)와 독립변수(예측을 위해 모형이 사용하는 속성) 사이의 관계를 명시하는 것을 말한다. 🧨 Simple Linear Regression, 단순회귀분석 (선형 회귀선) 두 변수 간의 관계를 직선 형태로 설명하는 알고리즘 수학적으로 종속 변수 Y와 독립 변수 X 사이의 관계를 1차함수 Y=aX+b로 나타낸다. 단순회귀분석 알고리즘은 훈련 데이터를 이용하여 직선의 기울기(a)와 직선이 y축과 교차하는 지점인 y절편(b)을 반복 학습을 통해 찾는다...