본문 바로가기
함수 설명/기본 및 범용

[NumPy] 배열의 중앙값 구하기: np.median() 사용 및 설명

by First Adventure 2024. 10. 3.
반응형

소개

  np.median(a, axis=None, out=None, overwrite_input=False, keepdims=False)는 주어진 배열 a의 중앙값(중위수)을 계산하는 함수입니다. 중앙값은 데이터셋을 오름차순으로 정렬했을 때, 가운데 위치한 값을 의미하며, 데이터 분포의 중심을 측정하는 데 자주 사용됩니다. 배열의 전체 중앙값을 구하거나, 특정 축(axis)에 따라 중앙값을 계산할 수 있습니다.

 

기본 사용법

import numpy as np

# 1차원 배열의 중앙값 계산
array = np.array([1, 2, 3, 4, 5])
median_value = np.median(array)

# 2차원 배열에서 축(axis)별 중앙값 계산
array2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
median_axis0 = np.median(array2d, axis=0)  # 열 기준 중앙값
median_axis1 = np.median(array2d, axis=1)  # 행 기준 중앙값

print("1D 배열의 중앙값:", median_value)
print("2D 배열의 열별 중앙값:", median_axis0)
print("2D 배열의 행별 중앙값:", median_axis1)

상세 설명

  • a: 중앙값을 계산할 배열로, 다차원 배열도 허용됩니다.
    • 예시: np.median([1, 2, 3, 4, 5])는 중앙값 3을 반환합니다.
  • axis (선택사항): 배열에서 중앙값을 구할 축을 지정합니다. 기본값은 None으로, 배열을 평탄하게(flatten)하여 중앙값을 계산합니다. axis=0은 열, axis=1은 행을 기준으로 계산합니다.
    • 예시: np.median(array2d, axis=0)은 각 열의 중앙값을 계산하여 [4, 5, 6]을 반환합니다.
  • out (선택사항): 결과를 저장할 배열을 지정할 수 있습니다. 입력 배열과 크기가 같아야 하며, 메모리 절약을 위해 사용할 수 있습니다.
  • overwrite_input (선택사항): True로 설정하면 입력 배열을 수정하여 메모리를 절약할 수 있습니다. 기본값은 False입니다.
  • keepdims (선택사항): True로 설정하면 축을 따라 계산한 후에도 결과 배열의 차원을 유지합니다. 기본값은 False입니다.
  • 활용
    • 데이터 분석 및 통계: 중앙값은 평균에 비해 이상값(Outlier)에 덜 민감하여, 데이터의 중심 경향을 더 잘 나타낼 수 있습니다. 데이터셋의 중심 값을 파악할 때 유용합니다.
    • 과학적 계산 및 머신러닝: 배열에서 중위수를 구해 데이터의 분포를 분석하거나, 중앙 집중 경향을 추정하는 데 자주 사용됩니다.

 

라이센스

  NumPy는 BSD-3-Clause 라이센스를 따릅니다. 자유롭게 사용, 수정, 배포할 수 있으며 상업적 목적으로도 사용할 수 있습니다. 라이센스와 저작권 정보는 NumPy의 공식 GitHub 리포지토리에서 확인할 수 있습니다.

 

관련 내용

  [NumPy] 상관 계수 구하기: np.corrcoef() 사용 및 설명

  [NumPy] 공분산 구하기: np.cov() 사용 및 설명

  [NumPy] 배열의 백분위수 구하기: np.percentile() 사용 및 설명

  [NumPy] 배열의 중앙값 구하기: np.median() 사용 및 설명

반응형