일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 호주
- 정말
- 청청구역
- 보라카이
- 오류
- BeautifulSoup
- 방향변경
- OpenGL
- 사각형변형
- 멜버른
- 마우스클릭
- selenium
- 크롤링
- 데이터전처리
- 파이썬
- 애니메이션
- 색상변경
- 갈자신이없다
- 빅데이터분석기사필기
- 필기후기
- 빅데이터분석기사후기
- 너무오래됐다
- 예쁜곳
- 가고싶은데
- 빅데이터분석기사
- 언제또가보지
- 유니코드 제거
- Today
- Total
목록전체보기 (93)
wisdiom 아니고 wisdom

2️⃣ 열 재구성 📢 열 순서 변경 📍 DataFrame객체[ 재구성한 열 이름의 리스트 ] # ☝ 알파벳 순으로 열 순서 변경하기 # 1) 기존 열 이름을 리스트로 만든다. # 2) 오름차순 정렬한다. # 3) 열 순서를 변경한다. df_sorted = df[sorted(list(df.columns.values))] # ✌ 열 이름을 기존 순서의 역순으로 정렬하기 df_reverse = df[list(reversed(df.columns.values))] # 👌 사용자 임의로 열 순서 재배치하기 df_custom = df[['pclass', 'sex', 'age', 'survived']] 📢 열 분리 🔥 주가 데이터 '연월일'열에서 '연', '월', '일' 데이터로 분리하기 astype() 메소드를 사용..

1️⃣ 함수 매핑 함수 매핑은 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정을 말한다. 사용자가 직접 만든 함수(lambda 함수 포함)를 적용할 수 있기 때문에, 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 판다스 객체에 적용하는 것이 가능하다. 📢 Series객체 함수 매핑 📍 Series객체.apply(func) 시리즈 객체에 apply() 메소드를 적용하면, 매핑 함수에 시리즈의 모든 원소를 하나씩 인자로 전달한다. 리턴값으로 같은 시리즈 객체를 받는다. 예시) # 사용자 정의 함수 def add_two_obj(a, b): return a+b # Series 객체와 숫자에 적용 : 2개의 인수(시리즈 + 숫자) sr = df['age'].apply(add_two_..

Data Preprocessing 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다. 데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요하다. 1️⃣ 누락 데이터(결측값, Missing Value) 처리 데이터프레임에는 원소 데이터 값이 종종 누락되는 경우가 있다. 데이터를 파일로 입력할 때 빠트리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인다. 일반적으로 유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표시한다. 머신러닝 분석 모형에 데이터를 입력하기 전에 반드시 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요하다. 누락 데이터가 많아지면 데이터 품질이 떨어..

DataFrame, 데이터프레임 데이터프레임은 행과 열로 만들어진 2차원 배열이다. 여러 개의 시리즈들이 데이터프레임의 열로 모인 구조이다. ▶ DataFrame 만들기 import pandas as pd # pd.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열) df = pd.DataFrame( [[12, '남', '요크셔테리어'], [5, '여', '포메라이언']], index=['미남', '초롱'], columns=['나이','성별','이름']) ▶ 기존 행 인덱스 / 열 이름 변경 행 인덱스 변경 DataFrame객체.index = 새로운 행 인덱스 배열 DataFrame객체.rename(index={기존 인덱스 : 새 인덱스}, inplace=False)..

Series, 시리즈 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 인덱스(index)와 데이터 값(values)를 가지며, 서로 일대일 대응된다. 이런 점에서 Python Dictionary와 비슷한 구조를 갖는다고 볼 수 있다.데이터 주소데이터 값index 0data 0index 1data 1index 2data 2::index ndata n ▶ Series class 속성- 📍 인덱스 : Series객체.index - 📍 데이터 값 배열 : Series객체.values ▶ 원소 선택import pandas as pd tup = ('홍지', '2021-01-11', True) profile = pd.Series(tup, index=['닉네임', '시작일', '게시물유무']) # 1..