Computer Sciences/BigData(5)
-
[BigData] 데이터 시각화
도수 분포표 데이터가 취하는 값을 몇 개의 구간으로 나누고, 각 구간에 몇 개의 데이터가 들어가는가를 세서 정리한 표이다. 용어 계급(class): 구간 0 ~ 10, 10 ~ 20, 20 ~ 30, … 계급폭(class interval): 구간 길이 10 계급값(class midpoint/mark): 구간 대푯값 5, 15, 25, … 계급수(bins): 총 계급 수 100점까지 계급폭이 10이므로 계급 수는 10이다. 도수(frequency): 계급에 속한 학생 수 0 ~ 10까지는 1, 11 ~ 20 까지는 3, … 상대도수(relative frequency) 전체 중 해당 계급이 차지하는 비율 누적상대도수(cumulative relative frequency) 현재 계급까지 상대도수의 합 Nump..
2023.04.17 -
[BigData] 데이터 정규화
필요성 평균과 분산이 다른 데이터를 비교하기 위해서 필요하다. 평균은 기준점, 분산은 퍼진 정도이다. 정규화(normalization) 데이터를 통일된 지표로 변환하는 것이다. 표준화, 편찻값 등이 있다. 표준화(standardization) 데이터에서 평균을 빼고 표준편차로 나눈 지표이다. $$ z_i=\frac{x_i-\bar{x}}{S} $$ 표준화된 데이터를 표준화 변량(standardization data) 또는 Z-score라고 한다. 표준화된 데이터의 평균은 0, 표준 편차는 1이다. 표준화된 데이터의 단위는 없다. Pandas에서 표준화 작업을 할 때는 ddof를 0으로 설정해주어야 한다. 편찻값(t-score) 데이터에서 특정한 데이터가 얼마나 특수한지를 측정하는 지표이다. 평균이 50,..
2023.04.17 -
[BigData] 데이터 이해
변수 질적 변수 선택이 필요한 변수 혹은 종류를 구별하기 위한 변수를 의미한다. 선택이 필요한 변수 1. 매우 좋음 2. 좋음 3. 보통 4. 나쁨 5. 매우 나쁨 종류를 구별하기 위한 변수 A형 B형 O형 AB형 양적 변수 양을 표현하는 변수를 의미한다. 시험 점수, 온도 등 💡 매우 좋음을 1, 매우 나쁨을 5로 표현한 수치형 변수는 질적 변수이다. 헷갈리지 말자. 척도 수준 온도 60도가 30도보다 높다고 할 수 있다. 60도와 30도 간에는 30도 차이가 존재하며, 200도와 170도 간에도 30도 차이가 존재한다. 하지만 60도는 30도보다 2배 더 높다고 할 수 없다. 키 180cm가 90cm보다 2배 더 크다고 할 수 있다. → 온도나 키에 대한 수치가 0인 경우 없음을 의미하는가 아닌가가 ..
2023.04.17 -
[BigData] Pandas 기본
Series Pandas에서 제공하는 1차원 배열과 같은 자료구조이다. 파이썬의 딕셔너리나 리스트로 만들 수 있다. import pandas as pd d = {'a': 1, 'b': 2, 'c': 3, 'd': 4} s = pd.Series(data=d, index=['a', 'b', 'c']) print(s) # a 1 # b 2 # c 3 # dtype: int64 # 데이터를 딕셔너리로 쓰면서 인덱스가 맞지 않으면 NaN으로 입력된다. d = {'a': 1, 'b': 2, 'c': 3, 'd': 4} s = pd.Series(data=d, index=['x', 'y', 'z']) print(s) # x NaN # y NaN # z NaN # dtype: float64 # 인덱스를 따로 지정하지 않..
2023.03.14 -
[BigData] Numpy 기본
Numpy 행렬이나 대규모 다차원 배열을 쉽게 처리할 수 있도록 지원하는 파이썬 라이브러리이다. 파이썬 리스트 vs 넘파이 어레이 1. 선언 조건 파이썬 리스트 모든 타입을 가질 수 있다. 2차원 이상 배열 구조에서 내부 배열의 원소 개수가 달라도 된다. 넘파이 어레이 숫자형 또는 문자열만 가질 수 있으며 숫자형과 문자열이 섞이면 모두 문자열로 전환 2차원 이상 배열 구조에서 내부 배열의 원소 개수가 같아야 한다. # 파이썬 리스트 a = [1, 2, 3, 'four', 'five'] # 1, 2, 3은 number, four five는 string b = [[1], [2, 3], ['four', 'five']] # 파이썬 리스트는 원소 개수가 달라도 됨 # 넘파이 어레이 import numpy as n..
2023.03.13