빅데이터 공부 12

[Pandas] 데이터 변형하기 - groupby

1. groupby()2. pd.pivot(), pd.pivot_table()3. stack(), unstack() 실습을 위한 라이브러리 임포트import numpy as npimport pandas as pdimport seaborn as sns 팁 데이터 사용tips = sns.load_dataset('tips') 데이터 살펴보기tips.head()tips.info()groupby()컬럼 값이 같은 것끼리 그룹화한다 # 성별로 묶기group_sex = tips.groupby('sex')# 객체를 리턴group_sex  그룹의 속성이 보고 싶다면groups()group_sex.groups  groupby의 함수 활용- count: 데이터 수 - size: 집단 별 크기 - sum: 합 - mean: ..

빅데이터 공부 2024.10.22

[Pandas] DataFrame

필요 라이브러리 임포트import numpy as npimport pandas as pd  1. 데이터프레임 만들기: pd.DataFrame()pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None) 자주 사용하는 파라미터index: 인덱스명 지정columns: 컬럼명 지정 - 딕셔너리 사용key 값이 컬럼, value에 리스트 형태로 각 인덱스 값 넣기 pd.DataFrame({'a':[10,20], 'b':[20,40], 'c':[59,39]}) 인덱스명을 지정하고 싶을 때: index=[]pd.DataFrame({'a':[10,20], 'b':[20,40], 'c':[59,39]}, index=['s1', 's2']) ..

빅데이터 공부 2024.07.14

PCA

변수의 수 = 차원의 수차원이 높아지면 분석이 힘들어진다 차원의 수를 줄이기 위한 방법1. 차원 선택변수 간의 관계를 보고, 덜 중요하거나 불필요한 변수 제거(사용이 쉽지만 정보 손실 커짐)2. 차원 추출데이터를 잘 설명하는 새로운 변수를 만들어냄(해석이 힘듦)  PCA는 차원 추출의 한 가지 방법 PCA를 사용하여 고차원의 데이터를 저차원의 데이터로 바꾼다 PCA의 장점: 변수들의 정보를 최대한 보존하여 PCA를 진행한 데이터로 예측 모델을 만들 시, 더 일반화된 결과물을 얻을 수 있다.PCA의 단점: 여러 변수들의 영향을 받아 만들어진 것이기 때문에, 주성분이 무엇을 의미하는지 해석이 어렵다. 많은 비용과 시간pca 공부https://ddongwon.tistory.com/114 PCA (Princip..

빅데이터 공부 2024.01.09

[빅데이터분석기사 실기] 제3유형-가설검정

https://deephive.tistory.com/25 빅데이터분석기사 실기 :: 신유형 작업형3 소개, 변경사항, 공부방법빅데이터분석기사 실기 관련 Kdata 데이터자격검정 사이트에 올라온 공지사항입니다.빅데이터분석기사 실기시험의 출제유형이 아래와 같이 변경됨을 안내합니다. 변경내용 : 기존 단답형 10문제deephive.tistory.com https://www.youtube.com/watch?v=37GqFZVjc1Y&t=11290s 1. 필요 라이브러리 임포트2. 가설설정3. 유의수준 확인4. 정규성 검정5. 검정실시(통계량, p-value)6. p-value와 유의수준 비교 후 귀무가설 기각 채택 결정 1. 필요 라이브러리 임포트import scipy.stats as stats 2. 가설설정귀무..

빅데이터 공부 2024.01.08

비지도학습-클러스터링

클러스터링 좀 더 의미있는 인사이트를 추출하기 위해 유사한 데이터들을 클러스터(집단)으로 묶어주는 것 비지도학습 중 하나(정답이 주어지지 않은 상태에서 스스로 찾아내는 것) 정답을 주지 않아도, 알아서 클러스터를 나눠준다 하지만 해당 클러스터가 무엇을 의미하는지는 분석해주지 않는다 -유사한 데이터는 같은 클러스터로 묶는다 -유사하지 않은 데이터는 다른 클러스터로 묶는다 유사의 기준 1. 거리 2. 계층 3. 밀도 4. 분포 1. 거리 기반 클러스터링(K-Means) k개의 중심점을 임의로 배치한 후 각 중심점과 가까이 있는 데이터들을 클러스터로 묶어주고, 중심점을 클러스터 내 데이터들의 중심으로 이동시킨다 -> 중심점 위치 갱신 안할 때까지 반복 필요 라이브러리 임포트 from sklearn.cluste..

빅데이터 공부 2024.01.08

[빅데이터분석기사 실기] 제2유형

빅데이터 분석 과정 1. 필요 패키지 임포트 2. 데이터 불러오기 3. 데이터 살펴보기 4. 데이터 전처리 5. 데이터 나누기 6. 데이터 분석 수행 7. 성능평가 및 시각화 1. 필요 패키지 임포트 import numpy as np import pandas as pd import sklearn 빅분기 실기에서는 그래프가 안되는 것으로 알고 있습니다(아닐지도..) 2. 데이터 불러오기 df = pd.read_csv("경로") 3. 데이터 살펴보기 데이터를 탐색한다. -데이터 프레임의 구성 df.head() -데이터 프레임 행, 열 수 df.shape -데이터 프레임 컬럼 당 null값, 타입 df.info() -데이터 프레임 기술 통계 #숫자형만 df.describe() #오브젝트형도 함께 df.desc..

빅데이터 공부 2023.12.18

데이터 클리닝

좋은 데이터의 기준 1. 완결성(Completeness) 필수적인 데이터는 모두 기록되어 있어야 한다. 완결성 충족 방법: 필요한 컬럼들에 결측값이 있는 지 확인한다. 2. 유일성(Uniqueness) 동일한 데이터가 중복되면 안된다. 유일성 충족 방법: 중복값 제거한다. 3. 통일성(Conformity) 데이터가 동일한 형식으로 저장되어 있어야 한다. 통일성 충족 방법: 데이터 타입, 단위, 포맷 등을 맞춘다 4. 정확성(Accuracy) 데이터가 정확해야 한다. 모으는 과정에서 실수로 생김 정확성 충족 방법: 이상점을 처리한다. 1. 결측값이 있는 행을 제거 df.dropna() 2. 결측값이 있는 열을 제거 df.dropna(axis = 'columns') 3. 결측값을 대체 - 0으로 대체 df...

빅데이터 공부 2023.11.29

판다스 기본 제공 메소드로 시각화하기

시각화를 하는 이유 1. 분석에 도움을 준다 2. 결과가 한 눈에 보인다 문자에 대해서 그래프를 그리기는 어렵다 필요하다면 전처리 하기 판다스에서 제공하는 기본적인 그래프 함수 df.plot() 필요한 파라미터 kind='그래프 종류' x='원하는 컬럼명' y='원하는 컬럼명' 혹은 여러 개이면, y=[원하는 컬럼들] 그래프의 종류 선, 막대, 파이, 히스토그램, 박스, 산점도 1. 선 그래프 보통 x축에는 시간과 관련된 값을 , y축에는 관측된 값을 표시한다. df.plot() df.plot(kind = 'line') 2. 막대 그래프 카테고리 비교를 위해 사용한다. df.plot(kind='bar') 막대 그래프를 눕히고 싶다면 kind = 'barh' df.plot(kind='barh') 같은 인덱..

빅데이터 공부 2023.11.23

DataFrame 다루기

Pandas 사용하기데이터프레임의 이름은 df로 하겠습니다!!. 1. 데이터 값 추출하기 -인덱싱#인덱싱#특정 값 하나를 보고 싶을 때df.loc['특정 인덱스 값', '특정 컬럼 값']#특정 인덱스의 모든 값을 보고 싶을 때df.loc['특정 인덱스 값', :]df.loc['특정 인덱스 값']#특정 컬럼의 모든 값을 보고 싶을 때df.loc[: , '특정 컬럼 값']df['특정 컬럼 값']컬럼만 인덱싱할 때는 .loc이 필요 없다  만약 원하는 인덱스나 컬럼이 2개 이상이라면리스트로 묶어주면 됩니다#인덱싱#여러 값을 보고 싶을 때df.loc[[인덱스1, 인덱스2], [컬럼1, 컬럼2]]#특정 인덱스들의 모든 컬럼df.loc[[인덱스1, 인덱스2], :]df.loc[[인덱스1, 인덱스2]]#특정 컬럼들의..

빅데이터 공부 2023.10.26

Pandas DataFrame의 데이터 전처리

1. 파생변수 생성 2. 표준화 3. 정규화 dic1={'first':['a','b','c'], 'second':['d','e','f']} df1=pd.DataFrame(dic1) df1 파생변수 생성 새로운 열을 만들어준다. 1. 각 열 원소의 합 df1["str_plus"]=df1['first']+df1['second'] print(df1) >> first second str_plus 0 a d ad 1 b e be 2 c f cf 2. []를 사용 3. insert() 사용 insert(삽일될 열 번호, 열 이름, 삽입될 값, 중복 열 삽입 허용) 중복 열 삽입 허용 기본값은 False https://wikidocs.net/151527 4. assign() 사용 5. loc[] 사용 print(df..

빅데이터 공부 2023.07.12