frequency(도수) : 각 값이 나타난 갯수의 합
relative frequency : frequency/(data size)
histograms : 도수별로 그린 막대그래프
cululative frequency plot = ogive : 누적도수분포그래프
stem and leaf plot : 각 구간별 숫자를 한번만 적고 작은 자릿수 수를 뒤에 길게 적음
Sample mean = weighted average : 평균
Sample Median : 중앙값, 짝수개이면 두 가운데 값의 평균
Sample Mode : 최빈값
Sample variance : 분산
Sample standard deviation : 표준편차
Sample Percentiles : 상위 100p%의 값. p=50이면 median
Chebyshev's inequality : mean과 variance를 가지고 그 범위에 들어있는 값들의 갯수를 추정할 수 있는 공식
scatter diagram : paired data (x,y)를 2차원상에 그림.
sample correlation coefficient : -1~1사이의 값.
조건부 확률(conditional probability)
Bayes' formular
Independent events
Random variable = procedual 프로그래밍 언어의 variable처럼 값이 바뀔 수 있다.;
. discrete random variable
. Bernoulli random variable
P(X = 0) = 1-p
P(X = 1) = p
. Binomial random variable
Bernoulli에서 X가 여러개 => Xi
P{X = i} = (n, k)(p^k)((1-p)^(n-k))
n개에서 k개의 특정 구슬 중 i개를 고를 확률(
고르고 구슬을 다시 집어넣지 않음.
. Poisson random variable
Binomial에서 n이 매우 크고 p가 매우 작을 때
P{X = i} = (e ^ (-l))(l^i)/(i!)
l = np
. Hypergeometric random variable
Binomial에서 n이 매우 클 때
P(X = i) = (N, i)(M, n-i)/(N+M, n)
n개에서 k개의 특정 구슬 중 i개를 고를 확률(replacement)
고르고 구슬을 다시 집어넣음.
. continuous random variable
. Uniform random variable
a < x < b, f(x) = 1/(b-a)
. Normal random variables
f(x) = (1 / (sqrt(2pie)sigma))exp(-(x-mu)^2/(2sigma^2))
. Exponential random varibles
f(x) = lambda * exp(-lambda * x) if x > 0
= 0 if x < 0
memoryless property가 있음.
P{X>s+t|X>t} = P{X>s} for all s,t >= 0
. chi-square distribution(Xn ^ 2)
Z = standard normal random variable
Zi are independent.
Xn ^ 2 = Z1 ^ 2 + Z2 ^ 2 + ... + Zn ^ 2 +
n : degree of freedom
. t-distribution
Xn ^ 2 = chi-square distribution
Tn = Z / sqrt((Xn ^ 2)/n)
n : degree of freedom
. F-distribution
Xn ^ 2, Xm ^ 2 ard independent.
Fn,m = (Xn^2/n)/(Xm^2/m)
n,m : degree of freedom
. Central Limit Theorem
. for n large,
X1 + X2 + .. + Xn ~ N(n*mu, n*sigma^2)
mu : mean
sigma^2 : variance
. Maximum likelihood estimators
. sample을 가지고 population의 값을 추정
. 가장 확률이 높은 값을 그것으로 추정
. 대게 sample mean을 population mean으로 둠.
. Confidence interval
. 추정치의 분포(면적)가 95%, 99% 등의 범위내에 있는 구간.
. Hypothesis test
. regression
. sample을 가지고 값의 관계를 fitting
relative frequency : frequency/(data size)
histograms : 도수별로 그린 막대그래프
cululative frequency plot = ogive : 누적도수분포그래프
stem and leaf plot : 각 구간별 숫자를 한번만 적고 작은 자릿수 수를 뒤에 길게 적음
Sample mean = weighted average : 평균
Sample Median : 중앙값, 짝수개이면 두 가운데 값의 평균
Sample Mode : 최빈값
Sample variance : 분산
Sample standard deviation : 표준편차
Sample Percentiles : 상위 100p%의 값. p=50이면 median
Chebyshev's inequality : mean과 variance를 가지고 그 범위에 들어있는 값들의 갯수를 추정할 수 있는 공식
scatter diagram : paired data (x,y)를 2차원상에 그림.
sample correlation coefficient : -1~1사이의 값.
조건부 확률(conditional probability)
Bayes' formular
Independent events
Random variable = procedual 프로그래밍 언어의 variable처럼 값이 바뀔 수 있다.;
. discrete random variable
. Bernoulli random variable
P(X = 0) = 1-p
P(X = 1) = p
. Binomial random variable
Bernoulli에서 X가 여러개 => Xi
P{X = i} = (n, k)(p^k)((1-p)^(n-k))
n개에서 k개의 특정 구슬 중 i개를 고를 확률(
고르고 구슬을 다시 집어넣지 않음.
. Poisson random variable
Binomial에서 n이 매우 크고 p가 매우 작을 때
P{X = i} = (e ^ (-l))(l^i)/(i!)
l = np
. Hypergeometric random variable
Binomial에서 n이 매우 클 때
P(X = i) = (N, i)(M, n-i)/(N+M, n)
n개에서 k개의 특정 구슬 중 i개를 고를 확률(replacement)
고르고 구슬을 다시 집어넣음.
. continuous random variable
. Uniform random variable
a < x < b, f(x) = 1/(b-a)
. Normal random variables
f(x) = (1 / (sqrt(2pie)sigma))exp(-(x-mu)^2/(2sigma^2))
. Exponential random varibles
f(x) = lambda * exp(-lambda * x) if x > 0
= 0 if x < 0
memoryless property가 있음.
P{X>s+t|X>t} = P{X>s} for all s,t >= 0
. chi-square distribution(Xn ^ 2)
Z = standard normal random variable
Zi are independent.
Xn ^ 2 = Z1 ^ 2 + Z2 ^ 2 + ... + Zn ^ 2 +
n : degree of freedom
. t-distribution
Xn ^ 2 = chi-square distribution
Tn = Z / sqrt((Xn ^ 2)/n)
n : degree of freedom
. F-distribution
Xn ^ 2, Xm ^ 2 ard independent.
Fn,m = (Xn^2/n)/(Xm^2/m)
n,m : degree of freedom
. Central Limit Theorem
. for n large,
X1 + X2 + .. + Xn ~ N(n*mu, n*sigma^2)
mu : mean
sigma^2 : variance
. Maximum likelihood estimators
. sample을 가지고 population의 값을 추정
. 가장 확률이 높은 값을 그것으로 추정
. 대게 sample mean을 population mean으로 둠.
. Confidence interval
. 추정치의 분포(면적)가 95%, 99% 등의 범위내에 있는 구간.
. Hypothesis test
. regression
. sample을 가지고 값의 관계를 fitting