일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 빅데이터분석기사
- 색상변경
- 가고싶은데
- 방향변경
- 데이터전처리
- 보라카이
- BeautifulSoup
- 사각형변형
- 오류
- 빅데이터분석기사필기
- 멜버른
- 언제또가보지
- 필기후기
- 파이썬
- 크롤링
- 너무오래됐다
- 정말
- 갈자신이없다
- selenium
- 예쁜곳
- 호주
- OpenGL
- 마우스클릭
- 애니메이션
- 유니코드 제거
- 빅데이터분석기사후기
- 청청구역
Archives
- Today
- Total
wisdiom 아니고 wisdom
3. 데이터프레임 응용(0) 본문
DataFrame Structure
데이터프레임에는 데이터프레임의 크기, 데이터 구성 항목, 자료형, 통계 수치 등 여러 정보를 확일할 수 있는 속성과 메소드가 포함되어 있다.
1️⃣ 데이터 내용 미리보기
📍 앞부분 미리보기 : DataFrame객체.head(n)
📍 뒷부분 미리보기 : DataFrame객체.tail(n)
* n은 숫자
2️⃣ 데이터 요약 정보 확인하기
📢 데이터프레임의 크기(행, 열)
📍 DataFrame객체.shape
데이터프레임 클래스의 shape 속성은 행과 열의 개수를 튜플 형태로 보여준다.
📢 데이터프레임의 기본 정보
📍 DataFrame객체.info()
- 클래스 유형
- 행 인덱스의 구성
- 열 이름의 종류와 개수
- 각 열의 자료형과 개수
- 메모리 할당량
📢 데이터프레임의 기술 통계 정보 요약
describe() 메소드를 적용하면, 데이터 갖는 열마다 주요 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 중간값 등)를 요약하여 출력한다. 🚨 단, NaN값은 제외된다.
📍 DataFrame객체.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
- percentiles : 백분위 수를 출력할 것인지. 단, 모두 0과 1사이에 값이어야 한다.
- include : 이산형 데이터가 아닌 열에 대한 정보를 포함할 것인지.
- 'all' : 모든 열 출력
- numpy.number : 이산형 열만
- numpy.object : 문자형 열만
- ['O'] : 문자열 데이터가 포함된 열만
- 'category' : Pandas 범주형 열만
- exclude : 결과에 포함시키지 않을, 생략할 데이터 유형
- datetime_is_numberic : 날짜형식 데이터를 숫자로 처리할지
df.describe()
df.describe(include='all')
💡 실행결과
문자열 데이터가 들어있는 열에 대한 정보(unique, top, freq)가 추가됐다.
그러나, 이산형 데이터를 가진 열에 대해서는 추가된 항목에 유효한 값이 없다는 뜻을 가진 NaN값이 표시됐다.
반대로 문자열 데이터를 가진 열은 나머지 항목에 대해 NaN값이 표시됐다.
3️⃣ 데이터 개수 확인
📢 각 열의 데이터 개수
> 데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환한다. 🚨단, NaN값은 계산에서 제외된다.
📍 DataFrame객체.count()
📢 각 열의 고유값 개수
value_counts() 메소드는 시리즈 객체의 고유값(unique value) 개수를 세는 데 유용하다.
데이터프레임의 열은 시리즈이므로, value_counts() 메소드로 각 열의 고유값의 종류와 개수를 확인할 수 있다.
고유값이 행 인덱스가 되고, 고유값의 개수가 데이터 값이 되는 시리즈 객체가 만들어진다.
📍 DataFrame객체.['열 이름'].value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
normalize : True이면 반환 된 객체에 고유값 상대 빈도가 포함된다.
sort : 빈도수로 정렬된다.
ascending : 오름차순으로 정렬한다.
bins : 이산형 데이터에만 적용되며 빈으로 그룹화 한다.
dropna : NaN 값을 포함하지 않는다.
반응형
'👩💻 > pandas' 카테고리의 다른 글
3. 데이터프레임 응용(5) (0) | 2021.02.01 |
---|---|
3. 데이터프레임 응용(4) (0) | 2021.01.31 |
3. 데이터프레임 응용(3) (0) | 2021.01.31 |
3. 데이터프레임 응용(2) (0) | 2021.01.31 |
3. 데이터프레임 응용(1) (0) | 2021.01.31 |
Comments