빅데이터 공부

판다스 기본 제공 메소드로 시각화하기

왕초보코딩러 2023. 11. 23. 18:39
728x90

시각화를 하는 이유

1. 분석에 도움을 준다

2. 결과가 한 눈에 보인다

 

문자에 대해서 그래프를 그리기는 어렵다

필요하다면 전처리 하기

 


판다스에서 제공하는 기본적인 그래프 함수

df.plot()

 

필요한 파라미터

kind='그래프 종류'

 

x='원하는 컬럼명'

y='원하는 컬럼명' 혹은

여러 개이면, y=[원하는 컬럼들]

 

 

 

그래프의 종류

선, 막대, 파이, 히스토그램, 박스, 산점도

 

 

1. 선 그래프

보통 x축에는 시간과 관련된 값을 , y축에는 관측된 값을 표시한다.

df.plot()
df.plot(kind = 'line')

 

 

2. 막대 그래프

카테고리 비교를 위해 사용한다.

df.plot(kind='bar')

 

 

막대 그래프를 눕히고 싶다면 kind = 'barh'

df.plot(kind='barh')

 

같은 인덱스끼리의 값을 쌓고 싶다면 stacked = True

df.plot(kind='bar', stacked=True)

 

 

3. 파이 그래프

절대적인 수치 보다, 비율을 알고 싶을 때 사용한다.

df.plot(kind='pie')

y 필요

 

퍼센트 표시 autopct = '%'

plot(kind='pie', autopct='%소수점형식f%%')

 

https://hyunmin1906.tistory.com/36

 

[데이터 시각화] 파이 그래프(matplotlib/pandas)

■ [matplotlib] 파이 그래프 matplotlib.pyplot.pie(x , [ , options]) x : x의 각 요소 데이터를 비율로 계산하여 부채꼴을 그리는데 사용 options : 생략가능 labels : x축 데이터에 해당되는 라벨 지정 autopct : 비율

hyunmin1906.tistory.com

 

 

4. 히스토그램

분포를 알고 싶을 때 사용한다.

df.plot(kind='hist')

 

기본적으로 범위를 10개로 나눈다.

 

내가 임의로 정하고 싶을 때는 bins를 사용

df.plot(kind='hist', bins=15)

 

 

5. 박스플롯

분포와 이상치를 보고 싶을 때 사용한다.

df.plot(kind='box')

 

https://datarian.io/blog/boxplot

 

박스 플롯에 대하여

박스 플롯(box plot)은 데이터의 대략적인 분포와 개별적인 이상치들을 동시에 보여줄 수 있으며 서로 다른 데이터 뭉치를 쉽게 비교할 수 있도록 도와주는 시각화 기법으로 가장 널리 쓰이는 시

datarian.io

 

 

6. 산점도

두 변수 사이의 연관성(상관관계)을 알아볼 때 사용한다.

df.plot(kind='scatter')

x,y 필요

'빅데이터 공부' 카테고리의 다른 글

[빅데이터분석기사 실기] 제2유형  (1) 2023.12.18
데이터 클리닝  (0) 2023.11.29
DataFrame 다루기  (1) 2023.10.26
Pandas DataFrame의 데이터 전처리  (0) 2023.07.12
판다스(Pandas)  (0) 2023.06.17