[BigData] 데이터 정규화
2023. 4. 17. 12:58ㆍComputer Sciences/BigData
필요성
- 평균과 분산이 다른 데이터를 비교하기 위해서 필요하다.
- 평균은 기준점, 분산은 퍼진 정도이다.
정규화(normalization)
- 데이터를 통일된 지표로 변환하는 것이다.
- 표준화, 편찻값 등이 있다.
표준화(standardization)
- 데이터에서 평균을 빼고 표준편차로 나눈 지표이다.
$$
z_i=\frac{x_i-\bar{x}}{S}
$$
- 표준화된 데이터를 표준화 변량(standardization data) 또는 Z-score라고 한다.
- 표준화된 데이터의 평균은 0, 표준 편차는 1이다.
- 표준화된 데이터의 단위는 없다.
- Pandas에서 표준화 작업을 할 때는 ddof를 0으로 설정해주어야 한다.
편찻값(t-score)
- 데이터에서 특정한 데이터가 얼마나 특수한지를 측정하는 지표이다.
- 평균이 50, 표준 편차가 10이 되도록 정규화하는 것을 의미한다.
$$
t_i=50+10\times z_i
$$
- Z-score가 음수와 양수에 걸쳐 분포하는 것을 재설정하여 가독성이 향상된다.
- T-score로도 음수가 나올 수 있긴 하지만 매우 희박하다(2.86e-5%)
'Computer Sciences > BigData' 카테고리의 다른 글
[BigData] 데이터 시각화 (0) | 2023.04.17 |
---|---|
[BigData] 데이터 이해 (1) | 2023.04.17 |
[BigData] Pandas 기본 (4) | 2023.03.14 |
[BigData] Numpy 기본 (0) | 2023.03.13 |