Home Page TOOLS Probability & Statistic PHÂN TÍCH PHƯƠNG SAI
PHÂN TÍCH PHƯƠNG SAI

PHÂN TÍCH PHƯƠNG SAI

Nguyễn Như Phong

Kỹ thuật Hệ thống Công nghiệp

Đại học Bách Khoa, ĐHQG TPHCM

 

 

  1. PHÂN TÍCH PHƯƠNG SAI

 

1.1. Bài toán suy diễn nhiều đám đông

Xem m đám đông có đặc tính quan tâm là biến ngẫu nhiên với giả sử có phân bố chuẩn với cùng phươgn sai:

Xi ~ N(mi, s2), i=1¸m

Để suy diễn, các đám đông này được lấy mẫu ngẫu nhiên với cở mẫu là n. Mẫu thứ j của đám đông thứ i là:

Xij , i=1¸m, j=1¸n.

Bài toán suy diễn nhiều đám đông thường gặp là bài tóan so sánh các kỳ vọng mi của các đám đông. Các giả thuyết được thiết lập như sau:

H0: m1 = m2 = … = mm

H1: $(i,j = 1¸m), i ¹ j: mi ¹ mj

1.2. Phân tích phương sai

Phương pháp thích hợp để so sánh nhiều đám đông như ở trường hợp này là phân tích phương sai ANOVA.

Phân tích phương sai ANOVA là một phương pháp suy diễn thống kê, sử dụng hàm thống kê có phân bố Fisher để suy diễn có hay khôgn sự khác biệt giữa nhiều đám đông dựa vào mẫu được lấy ngẫu nhiên trên các đám đông.

Phân tích phương sai ANOVA  không chỉ hữu dụng cho bài tóan suy diễn nêu trên mà còn có thể ứng dụng cho nhiều bài tóan thiết kế thực nghiệm khác, sẽ được trình bày ở phần sau.

  1. PHÂN TÍCH BIẾN THIÊN

 

2.1  Mô hình sai số

Biến ngẫu nhiên của đám đông có thể biểu diễn theo sai số:

Xi = mi + Ei, i=1¸m

Trong đó Ei  là sai số của đám đông thứ i, biểu thị biến thiên trong đám đông. Với giả sử Xi có phân bố chuẩn với phươgn sai s2 , sai số có phân bố chuẩn với kỳ vọng bằng 0, phươgn sai s2.

              Ei ~ N(0, s2)

Kỳ vọng mi có thể biểu thị bởi:

              mi = m + ti

trong đó:

  m - kỳ vọng chung cho mọi đám đông.

  ti - độ lệch kỳ vọng ứng với đám đông i.

Kỳ vọng m không đổi theo các đám đông, ti biểu thị độ lệch của kỳ vọng mi với kỳ vọng chung m .

2.2  Phân tích biến thiên

a.   Tổng mẫu, trung bình mẫu

Với tập dữ liệu Xij, ta xác định các hàm thống kê tổng mẫu và trung bình mẫu.

Tổng mẫu của đám đông i:

Trung bình mẫu ở đám đông i:

Tổng mẫu chung của các đám đông:

Với tổng số lần lấy mẫu là N=nm, trung bình mẫu chung:

b.  Tổng bình phương

Phân tích phương sai phân tích biến thiên dữ liệu thành nhiều thành phần. Biến thiên dữ liệu được biễu diễn bởi tổng bình phương:

Sau khi khai triển tổng bình phương, ta có được biểu thức sau:

Gọi:

Thì có:

SS = SSB + SSE

Vậy tổng bình phương SS có thể phân tích thành hai tổng bình phương thành phần bao gồm tổng bình phương SSB và tổng bình phương SSE. Tổng bình phương SSB  biểu thị biến thiên giữa các các đám đông. Tổng bình phương SSE biểu thị biến thiên trong các đám đông, do sai số gây ra.

Các tổng bình phương có thể được xác định như sau:

          

Số bậc tự do của các tổng bình phương:

  • Với tổng cộng N mẫu, số bậc tự do của SS là N–1.
  • Với m tập mẫu, số bậc tự do của SSB là m–1.
  • Với m tập mẫu có cở mẫu n , số bậc tự do của SSE là m(n–1) = N–m.

c.   Trung bình bình phương

Từ các tổng bình phương, với các bậc tự do tương ứng, ta tính được các trung bình bình phương. Trung bình bình phương do biến thiên giữa các đám đông:

              MSB = SSB / (m–1).

Trung bình bình phương do sai số:

              MSE = SSE / (N–m)

Kỳ vọng của các trung bình bình phương tính được như sau:

              E(MSE) = s2

             

Từ các kết quả về kỳ vọng trung bình bình phương ở trên ta thấy MSE có thể được sử dụng để ước lượng s2. Mặt khác, MSB có kỳ vọng bằng s2 khi không có độ lệch kỳ vọng giữa các đám đông, và lớn hơn s2 khi có độ lệch kỳ vọng. Khi các kỳ vọng của các đám đông là như nhau thì MST có xu hướng bằng với MSE. Còn khi các kỳ vọng của các đám đông khác nhau thì MST có xu hướng lớn hơn MSE. Đây là cơ sở cho kiểm định xét ở phần sau.

 

  1. KIỂM ĐỊNH GIẢ THUYẾT

 

Nhắc lại các giả thuyết bài toán so sánh các kỳ vọng mi của các đám đông:

H0: m1 = m2 = … = mm

H1: $(i,j = 1¸m), i ¹ j: mi ¹ mj

Hay theo các độ lệch kỳ vọng:

H0: t1 = t2 = … = tm = 0

H1: $i=1¸m:  ti ¹ 0.

Với giả định các đám đông có phân bố độc lập, đồng dạng chuẩn với phươgn sai bằng nhau: 

Xi ~ N(m + ti , s2), i=1¸m

Các hàm thống kê tổng bình phương có phân bố c2 với các bậc tự do như sau:

SS / s2  ~ c2 N-1.

SSE/s2 ~ c2 N-m (*)

Nếu H0 đúng:

SSB/s2 ~ c2m-1 (**)

Nhằm kiểm định giả thuyết, ta xây dựng hàm thống kê F0 là tỷ số giữa các trung bình bình phương:

Nếu H0 đúng, từ (*) và (**) ta thấy hàm thống kê F0phân bố Fisher với các bậc tự do (m–1) và (N–m):

F0 ~ Fm-1,N-m.

Khi H0 đúng, MSB có xu hướng bằng MSE. Khi H0 sai, MSB có xu hướng lớn hơn MSE, F0 có xu hướng lớn hơn 1. H0 sẽ bị bác bỏ khi F0 tăng đủ lớn. Với a xác định, vùng bác bỏ của H0 phụ thuộc phân bố hàm thống kê:

              F0 > Fa,m-1,N-m.

Quy trình kiểm định theo phương pháp giá trị tới hạn như sau:

  1. Xác định các tổng bình phương.
  2. Xác định các trung bình bình phương.
  3. Xác định trị thống kê F0.
  4. Chọn a, xác định trị phân vị Fa,m-1,N-m.
  5. Ra quyết định:
    1. F0 > Fa,m-1,N-m ® bác bỏ H0
    2. F0 < Fa,m-1,N-m ® chấp nhận H0

Quy trình kiểm định theo phương pháp xác suất tới hạn như sau:

  1. Xác định các tổng bình phương.
  2. Xác định các trung bình bình phương.
  3. Xác định trị thống kê F0.
  4. Xác định giá trị P.
  5. Chọn xác suất sai lầm a, ra quyết định:
    1. a > P ® bác bỏ H0.
    2. a < P ® chấp nhận H0.

Phân tích phương sai ANOVA có hỗ trợ bởi các phần mềm chuyên dụng, với phương tiện là bảng phân tích phương sai ANOVA sau:

SOV

SS

DOF

MS

F0

P

Giữa các đám đông

SSB

m-1

MSB

MSB / MSE

 

Trong các đám đông

SSE

N-m

MSE

 

 

Tổng

SS

N-1

 

 

 

 

Với các ký hiệu:

  • SOV: Biến thiên
  • SS: Tổng bình phương
  • DOF: Bậc tự do
  • MS: Trung bình bình phương
  • F0 : Trị thống kê
  • P: Xác suất tới hạn P.

Suy diễn với cỡ mẫu khác nhau

Với cở mẫu khác nhau, phân tích ANOVA vẫn được sử dụng với thay đổi về cách tính các tổng bình phương. Gọi ni là cỡ mẫu cho đám đông i, các tổng bình phương được tính như sau:

Tuy nhiên, lấy mẫu với cỡ mẫu bằng nhau có ưu điểm hơn vì hàm thống kê ít bị ảnh hưởng bởi giả định biến thiên như nhau ở các đám đông, và giảm thiểu xác suất sai lầm loại 2.

 

  1. ƯỚC LƯỢNG THAM SỐ

 

Sau khi lấy mẫu ta thường sử dụng số liệu để ước lượng tham số đám đông và sai số. Các tham số đám đông bao gồm kỳ vọng chung m, kỳ vọng đám đông mi, và độ lệch kỳ vọng ti . Các tham số này được ước lượng dựa vào số liệu thu thập qua các trung bình mẫu sau:

m » `X..

mi »`Xi. , i = 1,2,...,m

ti = mi - m » `Xi. –`X.. , i = 1,2,...,m

Giá trị của sai số ở mẫu j của đám đông i được  ước lượng từ số liệu thu thập như sau:

              eij = Xij – `Xi.

 

  1. KIỂM TRA MÔ HÌNH

 

Sử dụng phân tích phương sai ANOVA trong kiểm định giả thuyết về kỳ vọng đám đông dựa trên các giả định:

  • Các mẫu lấy ngẫu nhiên từ đám đông.
  • Phân bố tiềm ẩn của các đám đông là phân bố chuẩn.
  • Phươgn sai các đám đông bằng nhau.

Việc kiểm tra các giả định thường được thực hiện bằng cách khảo sát sai số eij đã ước lượng được từ số liệu thu thập. Việc ước lượng sai số là một phần của phân tích phương sai ANOVA.

  1. XÁC ĐỊNH CỞ MẪU

 

6.1.  Đặc tính vận hành

Một quyết định quan trọng khi phân tích phương sai là chọn cỡ mẫu Phương pháp xác định cỡ mẫu thường dùng là sử dụng Đặc tuyến vận hành của kế họach kiểm định.

Đặc tuyến vận hành của kế họach kiểm định là quan hệ giữa xác suất sai lầm loại 2, b, là xác suất chấp nhận một giả thuyết sai của một kế hoạch kiểm định với tham số biểu thị mức độ sai lầm của giả thuyết kiểm định.

              b = P{Chấp nhận H0 êH0 sai}

Một kế hoạch kiểm định là một kế hoạch được xác định bởi một xác suất sai lầm loại 1, a, xác định cùng với một cỡ mẫu n xác định. Tham số biểu thị mức độ sai lầm là tổng bình phương độ lệch kỳ vọng:

             

Tổng quát đặc tuyến vận hành là quan hệ:

              b = b(d,a,n)

Trong thực tế, ta thường xây dựng đặc tuyến theo tham số F2 tích hợp giữa mức độ sai lầm d và cỡ mẫu n:

             

Ta có thể viết lại:

              b = P{F0 < Fa,a-1, N-a ½F2 }

Với hàm thống kê:

              F0 = MSB / MSE

Vậy xác suất sai lầm b phụ thuộc vào phân bố của hàm thống kê F0 ứng với các giá trị khác nhau của tham số F2 .

Đặc tuyến vận hành b có dạng như ở hình sau với sự phụ thuộc vào:

  • Tham số F2.
  • Xác suất a.
  • Các bậc tự do của phân bố F: v1 = a – 1, v2 = n(a – 1).

              b = b(F, a, v1, v2).

6.2.  Xác định cỡ mẫu

Năng lực kiểm định P là xác suất bác bỏ một giả thuyết sai:

               P = 1 – b

Việc chọn cỡ mẫu n là một quá trình thử sai và lặp để có được năng lực kiểm định mong muốn, hai phương pháp thường dùng là:

  • Năng lực kiểm định ở một tập các kỳ vọng xác định.
  • Năng lực kiểm định ở một độ lệch kỳ vọng cực đại.
    1. SO SÁNH KỲ VỌNG

 

Sau khi sử dụng ANOVA để kiểm định giả thuyết và có kết quả bác bỏ giả thuyết H0, có sự khác biệt giữa kỳ vọng các đám đông. Một câu hỏi đặt ra là kỳ vọng nào khác với kỳ vọng nào? Một phân tích hữu ích tiếp theo là So sánh các nhóm kỳ vọng.

Giá trị kỳ vọng mi được ước lượng bởi trung bình mẫu  và có quan hệ với tổng trong mẫu Xi.. So sánh giữa các kỳ vọng có thể thực hiện theo trung bình mẫu hay tổng mẫu . So sánh nhóm các kỳ vọng thường được thực hiện bởi:

  • Phương pháp đồ thị.
  • Phương pháp thống kê.

Phương pháp đồ thị vẽ các phân bố các đám đông, trục hoành của đồ thị thể hiện các giá trị của trung bình mẫu ứng với các đám đông, từ đó có nhận xét trực quan về các kỳ vọng. Phương pháp thống kê giúp so sánh nhóm kỳ vọng, sử dụng khái niệm tương phản.

 

TLTK:

Nguyễn Như Phong. Thống kê trong CN. NXBĐHQG. 2013. ISBN: 978-604-73-1998-5.

 

 

 
  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

ABOUT US

ADMIN


GOOD BROWSERS

 
   

STATISTIC

mod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_counter
mod_vvisit_counterH�m nay73
mod_vvisit_counterH�m qua281
mod_vvisit_counterTu?n n�y1939
mod_vvisit_counterTh�ng n�y2716
mod_vvisit_counterT?t c?695283
Hiện có 21 khách Trực tuyến