빅데이터 3

비지도학습-클러스터링

클러스터링 좀 더 의미있는 인사이트를 추출하기 위해 유사한 데이터들을 클러스터(집단)으로 묶어주는 것 비지도학습 중 하나(정답이 주어지지 않은 상태에서 스스로 찾아내는 것) 정답을 주지 않아도, 알아서 클러스터를 나눠준다 하지만 해당 클러스터가 무엇을 의미하는지는 분석해주지 않는다 -유사한 데이터는 같은 클러스터로 묶는다 -유사하지 않은 데이터는 다른 클러스터로 묶는다 유사의 기준 1. 거리 2. 계층 3. 밀도 4. 분포 1. 거리 기반 클러스터링(K-Means) k개의 중심점을 임의로 배치한 후 각 중심점과 가까이 있는 데이터들을 클러스터로 묶어주고, 중심점을 클러스터 내 데이터들의 중심으로 이동시킨다 -> 중심점 위치 갱신 안할 때까지 반복 필요 라이브러리 임포트 from sklearn.cluste..

빅데이터 공부 2024.01.08

데이터 클리닝

좋은 데이터의 기준 1. 완결성(Completeness) 필수적인 데이터는 모두 기록되어 있어야 한다. 완결성 충족 방법: 필요한 컬럼들에 결측값이 있는 지 확인한다. 2. 유일성(Uniqueness) 동일한 데이터가 중복되면 안된다. 유일성 충족 방법: 중복값 제거한다. 3. 통일성(Conformity) 데이터가 동일한 형식으로 저장되어 있어야 한다. 통일성 충족 방법: 데이터 타입, 단위, 포맷 등을 맞춘다 4. 정확성(Accuracy) 데이터가 정확해야 한다. 모으는 과정에서 실수로 생김 정확성 충족 방법: 이상점을 처리한다. 1. 결측값이 있는 행을 제거 df.dropna() 2. 결측값이 있는 열을 제거 df.dropna(axis = 'columns') 3. 결측값을 대체 - 0으로 대체 df...

빅데이터 공부 2023.11.29

판다스 기본 제공 메소드로 시각화하기

시각화를 하는 이유 1. 분석에 도움을 준다 2. 결과가 한 눈에 보인다 문자에 대해서 그래프를 그리기는 어렵다 필요하다면 전처리 하기 판다스에서 제공하는 기본적인 그래프 함수 df.plot() 필요한 파라미터 kind='그래프 종류' x='원하는 컬럼명' y='원하는 컬럼명' 혹은 여러 개이면, y=[원하는 컬럼들] 그래프의 종류 선, 막대, 파이, 히스토그램, 박스, 산점도 1. 선 그래프 보통 x축에는 시간과 관련된 값을 , y축에는 관측된 값을 표시한다. df.plot() df.plot(kind = 'line') 2. 막대 그래프 카테고리 비교를 위해 사용한다. df.plot(kind='bar') 막대 그래프를 눕히고 싶다면 kind = 'barh' df.plot(kind='barh') 같은 인덱..

빅데이터 공부 2023.11.23