[BigData] 데이터 정규화

2023. 4. 17. 12:58Computer Sciences/BigData

필요성

  • 평균과 분산이 다른 데이터를 비교하기 위해서 필요하다.
  • 평균은 기준점, 분산은 퍼진 정도이다.

정규화(normalization)

  • 데이터를 통일된 지표로 변환하는 것이다.
  • 표준화, 편찻값 등이 있다.

표준화(standardization)

  • 데이터에서 평균을 빼고 표준편차로 나눈 지표이다.

$$
z_i=\frac{x_i-\bar{x}}{S}
$$

  • 표준화된 데이터를 표준화 변량(standardization data) 또는 Z-score라고 한다.
  • 표준화된 데이터의 평균은 0, 표준 편차는 1이다.
  • 표준화된 데이터의 단위는 없다.
  • Pandas에서 표준화 작업을 할 때는 ddof를 0으로 설정해주어야 한다.

편찻값(t-score)

  • 데이터에서 특정한 데이터가 얼마나 특수한지를 측정하는 지표이다.
  • 평균이 50, 표준 편차가 10이 되도록 정규화하는 것을 의미한다.

$$
t_i=50+10\times z_i
$$

  • Z-score가 음수와 양수에 걸쳐 분포하는 것을 재설정하여 가독성이 향상된다.
    • T-score로도 음수가 나올 수 있긴 하지만 매우 희박하다(2.86e-5%)

'Computer Sciences > BigData' 카테고리의 다른 글

[BigData] 데이터 시각화  (0) 2023.04.17
[BigData] 데이터 이해  (1) 2023.04.17
[BigData] Pandas 기본  (4) 2023.03.14
[BigData] Numpy 기본  (0) 2023.03.13