일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 정말
- 색상변경
- 빅데이터분석기사
- 멜버른
- 데이터전처리
- 필기후기
- 너무오래됐다
- 방향변경
- 예쁜곳
- 사각형변형
- 애니메이션
- 가고싶은데
- 마우스클릭
- 파이썬
- selenium
- 빅데이터분석기사필기
- 청청구역
- 크롤링
- 갈자신이없다
- OpenGL
- 보라카이
- 유니코드 제거
- 빅데이터분석기사후기
- 오류
- 언제또가보지
- BeautifulSoup
- 호주
- Today
- Total
목록👩💻/pandas (19)
wisdiom 아니고 wisdom

Data Preprocessing 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다. 데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요하다. 1️⃣ 누락 데이터(결측값, Missing Value) 처리 데이터프레임에는 원소 데이터 값이 종종 누락되는 경우가 있다. 데이터를 파일로 입력할 때 빠트리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인다. 일반적으로 유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표시한다. 머신러닝 분석 모형에 데이터를 입력하기 전에 반드시 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요하다. 누락 데이터가 많아지면 데이터 품질이 떨어..

DataFrame, 데이터프레임 데이터프레임은 행과 열로 만들어진 2차원 배열이다. 여러 개의 시리즈들이 데이터프레임의 열로 모인 구조이다. ▶ DataFrame 만들기 import pandas as pd # pd.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열) df = pd.DataFrame( [[12, '남', '요크셔테리어'], [5, '여', '포메라이언']], index=['미남', '초롱'], columns=['나이','성별','이름']) ▶ 기존 행 인덱스 / 열 이름 변경 행 인덱스 변경 DataFrame객체.index = 새로운 행 인덱스 배열 DataFrame객체.rename(index={기존 인덱스 : 새 인덱스}, inplace=False)..

Series, 시리즈 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 인덱스(index)와 데이터 값(values)를 가지며, 서로 일대일 대응된다. 이런 점에서 Python Dictionary와 비슷한 구조를 갖는다고 볼 수 있다.데이터 주소데이터 값index 0data 0index 1data 1index 2data 2::index ndata n ▶ Series class 속성- 📍 인덱스 : Series객체.index - 📍 데이터 값 배열 : Series객체.values ▶ 원소 선택import pandas as pd tup = ('홍지', '2021-01-11', True) profile = pd.Series(tup, index=['닉네임', '시작일', '게시물유무']) # 1..