빅데이터 공부 18

numpy를 이용한 k-평균 클러스터링

https://product.kyobobook.co.kr/detail/S000209345747?utm_source=google&utm_medium=cpc&utm_campaign=googleSearch&gad_source=1 개발자를 위한 실전 선형대수학(파이썬 3.10 버전 대응, 구글 코랩 실습 가능) | 마이크 X 코헨 - 교개발자를 위한 실전 선형대수학(파이썬 3.10 버전 대응, 구글 코랩 실습 가능) | 복잡한 증명과 수식 없이 파이썬을 이용해 직관적으로 배우는 선형대수학 * 연습문제 + 해답 + 해설 강의, 무료 샘product.kyobobook.co.kr 2024.01.08 - [빅데이터 공부] - 비지도학습-클러스터링 비지도학습-클러스터링클러스터링 좀 더 의미있는 인사이트를 추출하기 위해 ..

빅데이터 공부 2025.03.21

데이터 복사하기

원본 데이터df = pd.DataFrame({'A': [0, 1, 2, 3, 4], 'B': [4, 5, 6, 7, 8], 'C': ['a', 'b', 'c', 'd', 'e']})df 얕은 복사원본도 변경 된다(원본을 바꾸면 복사본도 변경 됨)# 카피하지 않으면 원본 데이터도 변경됨non_cp = dfnon_cp.A = 0non_cp  깊은 복사.copy() 했을 때원본 데이터에는 영향을 미치지 않는다# 원본 데이터 카피하면 바꿔도 원본 데이터에 영향 Xcp = df.copy()cp.A = 0

빅데이터 공부 2025.02.27

[Pandas] 데이터 변형하기 - stack, unstack

2024.10.22 - [빅데이터 공부] - [Pandas] 데이터 변형하기 - groupby [Pandas] 데이터 변형하기 - groupby1. groupby()2. pd.pivot(), pd.pivot_table()3. stack(), unstack() 실습을 위한 라이브러리 임포트import numpy as npimport pandas as pdimport seaborn as sns 팁 데이터 사용tips = sns.load_dataset('tips') 데이터 살펴보기tips.head()tidogfoot1.tistory.com 2024.12.07 - [빅데이터 공부] - [Pandas] 데이터 변형하기 - pivot, pivot_table [Pandas] 데이터 변형하기 - pivot, pivot..

빅데이터 공부 2024.12.08

[Pandas] 데이터 변형하기 - pivot, pivot_table

2024.10.22 - [빅데이터 공부] - [Pandas] 데이터 변형하기 - groupby [Pandas] 데이터 변형하기 - groupby1. groupby()2. pd.pivot(), pd.pivot_table()3. stack(), unstack() 실습을 위한 라이브러리 임포트import numpy as npimport pandas as pdimport seaborn as sns 팁 데이터 사용tips = sns.load_dataset('tips') 데이터 살펴보기tips.head()tidogfoot1.tistory.com 1. groupby()2. pd.pivot(), pd.pivot_table()3. stack(), unstack() 실습을 위한 라이브러리 임포트import numpy as..

빅데이터 공부 2024.12.07

[Pandas] 데이터 변형하기 - groupby

1. groupby()2. pd.pivot(), pd.pivot_table()3. stack(), unstack() 실습을 위한 라이브러리 임포트import numpy as npimport pandas as pdimport seaborn as sns 팁 데이터 사용tips = sns.load_dataset('tips') 데이터 살펴보기tips.head()tips.info()groupby()컬럼 값이 같은 것끼리 그룹화한다 # 성별로 묶기group_sex = tips.groupby('sex')# 객체를 리턴group_sex  그룹의 속성이 보고 싶다면groups()group_sex.groups  groupby의 함수 활용- count: 데이터 수 - size: 집단 별 크기 - sum: 합 - mean: ..

빅데이터 공부 2024.10.22

[Pandas] DataFrame

필요 라이브러리 임포트import numpy as npimport pandas as pd  1. 데이터프레임 만들기: pd.DataFrame()pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None) 자주 사용하는 파라미터index: 인덱스명 지정columns: 컬럼명 지정 - 딕셔너리 사용key 값이 컬럼, value에 리스트 형태로 각 인덱스 값 넣기 pd.DataFrame({'a':[10,20], 'b':[20,40], 'c':[59,39]}) 인덱스명을 지정하고 싶을 때: index=[]pd.DataFrame({'a':[10,20], 'b':[20,40], 'c':[59,39]}, index=['s1', 's2']) ..

빅데이터 공부 2024.07.14

PCA

변수의 수 = 차원의 수차원이 높아지면 분석이 힘들어진다 차원의 수를 줄이기 위한 방법1. 차원 선택변수 간의 관계를 보고, 덜 중요하거나 불필요한 변수 제거(사용이 쉽지만 정보 손실 커짐)2. 차원 추출데이터를 잘 설명하는 새로운 변수를 만들어냄(해석이 힘듦)  PCA는 차원 추출의 한 가지 방법 PCA를 사용하여 고차원의 데이터를 저차원의 데이터로 바꾼다 PCA의 장점: 변수들의 정보를 최대한 보존하여 PCA를 진행한 데이터로 예측 모델을 만들 시, 더 일반화된 결과물을 얻을 수 있다.PCA의 단점: 여러 변수들의 영향을 받아 만들어진 것이기 때문에, 주성분이 무엇을 의미하는지 해석이 어렵다. 많은 비용과 시간pca 공부https://ddongwon.tistory.com/114 PCA (Princip..

빅데이터 공부 2024.01.09

[빅데이터분석기사 실기] 제3유형-가설검정

https://deephive.tistory.com/25 빅데이터분석기사 실기 :: 신유형 작업형3 소개, 변경사항, 공부방법빅데이터분석기사 실기 관련 Kdata 데이터자격검정 사이트에 올라온 공지사항입니다.빅데이터분석기사 실기시험의 출제유형이 아래와 같이 변경됨을 안내합니다. 변경내용 : 기존 단답형 10문제deephive.tistory.com https://www.youtube.com/watch?v=37GqFZVjc1Y&t=11290s 1. 필요 라이브러리 임포트2. 가설설정3. 유의수준 확인4. 정규성 검정5. 검정실시(통계량, p-value)6. p-value와 유의수준 비교 후 귀무가설 기각 채택 결정 1. 필요 라이브러리 임포트import scipy.stats as stats 2. 가설설정귀무..

빅데이터 공부 2024.01.08