빅분기 3

[빅데이터분석기사 실기] 제2유형

빅데이터 분석 과정 1. 필요 패키지 임포트 2. 데이터 불러오기 3. 데이터 살펴보기 4. 데이터 전처리 5. 데이터 나누기 6. 데이터 분석 수행 7. 성능평가 및 시각화 1. 필요 패키지 임포트 import numpy as np import pandas as pd import sklearn 빅분기 실기에서는 그래프가 안되는 것으로 알고 있습니다(아닐지도..) 2. 데이터 불러오기 df = pd.read_csv("경로") 3. 데이터 살펴보기 데이터를 탐색한다. -데이터 프레임의 구성 df.head() -데이터 프레임 행, 열 수 df.shape -데이터 프레임 컬럼 당 null값, 타입 df.info() -데이터 프레임 기술 통계 #숫자형만 df.describe() #오브젝트형도 함께 df.desc..

빅데이터 공부 2023.12.18

판다스(Pandas)

print(sr2[[2,3]])#숫자 인덱스에 sr2[2], sr2[3] 출력 print(sr2[['2','3']])#문자열 인덱스에 sr2['2'], sr2['3'] 출력 판다스는 행과 열로 구성된 테이블 형식의 데이터를 다루는 데이터 분석에 많이 사용되는 패키지이다. 변수가 1개일 경우에는 시리즈(Series), 변수가 2개 이상이면 데이터프레임(Data Frame) 객체를 사용한다. 판다스 패키지 추가 import pandas as pd Series: 1차원 배열 형태의 구조로, 인덱스와 데이터가 있어 파이썬 딕셔너리와 유사하다. 배열의 각 원소에는 서로 다른 자료형을 넣을 수 있고, 다차원 배열도 원소로 넣을 수 있다. DataFrame: 2차원 테이블 형태의 구조로, 여러 열과 행을 가지며 열은..

빅데이터 공부 2023.06.17

넘파이(Numpy)

넘파이: 행렬이나 대규모 다차원 배열을 쉽게 처리하도록 도와주는 파이썬 패키지 리스트와 차이 리스트(List) 넘파이(Numpy) 자료형 다양한 자료형 동일한 자료형 배열의 크기가 커질수록 성능 떨어짐 높은 성능 보장 Numpy 패키지 추가 #numpy 패키지를 np라는 이름으로 사용 import numpy as np ndarray 객체: 넘파이 패키지에 있는 다차원 배열을 지원하는 클래스이다. ndarray 객체 생성 메소드: array(), random.randn(), zeros(), ones(), arange(), reshape() 1. np.array(리스트/튜플) 리스트, 튜플 등을 ndarray 객체로 생성 ar1=np.array([1,2,3,4,5])#1차원 리스트->ndarray 객체 ar..

빅데이터 공부 2023.06.03