Home Page TOOLS Decision Making RA QUYẾT ĐỊNH MARKOV
RA QUYẾT ĐỊNH MARKOV

RA QUYẾT ĐỊNH MARKOV

Nguyễn Như Phong

Kỹ thuật Hệ thống Công nghiệp

Đại học Bách Khoa, ĐHQG TPHCM

 

1.  MÔ HÌNH QUYẾT ĐỊNH MARKOV

 

Mô hình quyết định Markov hỗ trợ ra quyết định trong hệ thống biểu thị bởi quá trình Markov. Hệ thống ở đây là hệ thống ngẫu nhiên với không gian trạng thái hữu hạn.

Các khái niệm cơ bản trong mô hình quyết định Markov bao gồm:

          - Ma trận chuyển dịch

          - Ma trận lợi nhuận

          - Bước hay giai đoạn

          - Phương án quyết định

          - Chính sách tối ưu.

Ma trận chuyển dịch

Ma trận chuyển trạng thái của chuỗi Markov mô tả hệ thống:

                           

Ma trận lợi nhuận

Gọi lợi nhuận khi hệ thống chuyển từ trạng thái i sang trạng thái jrij. Ma trận lợi nhuận:

                           

Hệ thống có thể được khảo sát với số bước hay giai đoạn là hữu hạn hay vô hạn. Ở mỗi giai đoạn có một phương án quyết định trong tập k phương án. Các ma trận chuyển dịch P, lợi nhuận R phụ thuộc vào phương án chọn lựa.

Chính sách là tập các phương án theo trạng thái hệ thống. Chiến lược tối ưu là tập các chính sách theo các giai đoạn của hệ thống nhằm tối ưu một hàm mục tiêu xác định như cực đại lợi nhuận.

Mô hình quyết định Markov ứng dụng trong nhiều bài toán thực tế như bài toán tồn kho, bài toán thay thế… Các mô hình thường dùng trong bài toán quyết định Markov là quy hoạch động hay quy hoạch tuyến tính. Trong mô hình quy hoạch động với số bước vô hạn, các phương pháp thường dùng là phương pháp liệt kê và phương pháp lặp.

 

2.  BÀI TOÁN NGƯỜI LÀM VƯỜN

 

Bài  toán người làm vườn được sử dụng nhằm minh họa cho bài toán quyết định Markov và các phương pháp giải. Trong bài  toán người làm vườn, hệ thống gồm ba trạng thái theo tình trạng đất ở đầu mùa vụ hàng năm và sản lượng thu hoạch trong năm như ở bảng sau.

Trạng thái (s)

Tình trạng đất

Sản lượng

1

2

3

Tốt

Vừa

Xấu

Cao

Vừa

Thấp

 

Có hai phương án chọn lựa bón phân và không bón phân:

K

Phương án

1

2

Không bón phân

Bón phân

 

Có thể giả sử tình trạng đất hay sản lượng năm nay chỉ phụ thuộc vào trạng thái đất năm trước. Ma trận chuyển dịch theo hai phương án tuần tự như sau:

                           

                           

Ma trận lợi nhuận (triệu đồng) theo hai phương án tuần tự như sau:

                  

                  

Theo tình trạng đất có nhiều chính sách, một chính sách có thể chọn lựa là chỉ bón phân khi đất xấu:

                   i = 1, 2  ®  k = 1

                   i = 3  ®  k = 2

Với chính sách này, ma trận chuyển dịch và ma trận lợi nhuận như sau:

                  

                  

Vấn đề ở đây là chọn chiến lược tối ưu nhằm cực đại lợi nhuận tích lũy.

 

3.  MÔ HÌNH QUY HOẠCH ĐỘNG HỮU HẠN

 

Mô hình này giải bài toán ra quyết định Markov với số bước hữu hạn bằng phương pháp quy hoạch động. Tham số mô hình gồm số giai đoạn N, số phương án K, số trạng thái m, ma trận chuyển dịch và ma trận lợi nhuận theo các phương án k = 1 ¸ K.

                  

                  

Nhằm xác định phương trình hồi quy ngược của mô hình, gọi:

  - kỳ vọng thu nhập khi chuyển từ trạng thái i ở phương án k

 - kỳ vọng thu nhập tích lũy ngược ở giai đoạn n, trạng thái i, phương án k

fn(i) - kỳ vọng thu nhập tích lũy ngược tối ưu ở giai đoạn n, trạng thái i.

thì có:

         

         

   

         

Phương trình hồi quy:

         

Ví dụ: Xét bài toán người làm vườn trong thời gian 3 năm: N = 3, m = 3, k = 2. Ma trận chuyển dịch và ma trận lợi nhuận theo từng phương án:

         

Xét ở năm thứ 3:

i

f3(i)

k*

k = 1

k = 2

1

2

3

0,2 x 7 + 0,5 x 6 + 0,3 x 3 = 5,3

0 x 0 + 0,5 x 5 + 0,5 x 1 = 3

0 x 0 + 0 x 0 + 1 x (-1) = -1

4,7

3,1

0,4

5,3

3,1

0,4

1

2

2

 

Năm thứ 2:

i

f2(i)

k*

k = 1

k = 2

1

2

3

5,3 + 0,2 x 5,3 + 0,5 x 3,1 + 0,3 x 0,4 = 8,03

3 + 0 x 5,3 + 0,5 x 3,1 + 0,5 x 0,4 = 4,7

-1 + 0 x 5,3 + 0 x 3,1 + 1 x 0,4 = -0,6

8,19

5,61

2,13

8,19

5,61

2,13

2

2

2

 

Năm thứ 1:

I

f1(i)

k*

k = 1

k = 2

1

2

3

5,3 + 0,2 x 8,19 + 0,5 x 5,61 + 0,3 x 2,13 = 10,38

3 + 0 x 8,19 + 0,5 x 5,61 + 0,5 x 2,13 = 6,87

-1 + 0 x 8,19 + 0 x 5,61 + 1 x 2,13 = 4,23

10,74

7,92

4,23

10,74

7,92

4,23

2

2

2

 

Từ các bảng trên, chiến lược tối ưu là ở năm đầu và năm thứ 2, phương án tốt nhất là bón phân bất chấp tình trạng đất, sang năm thứ 3 nếu đất tốt thì không bón còn nếu đất xấu hay vừa thì bón phân.

Với chính sách này, kỳ vọng lợi nhuận là cực đại với giá trị là 10,74 triệu đồng nếu tình trạng đất đầu năm 1 là tốt; là 7,92 triệu đồng nếu tình trạng đất đầu năm 1 là trung bình; là 4,23 triệu đồng nếu tình trạng đất đầu năm 1 là xấu.

Tổng quát, xác suất và lợi nhuận  phụ thuộc giai đoạn n, khi ấy  phương trình hồi quy tổng quát như sau:

                  

Nếu tính đến giá trị thời gian của tiền tệ, gọi a = (P/F, r, 1) = 1/(1 + r), với r là lãi suất thực trong thời đoạn là 1 bước phương trình hồi quy:

                  

 

4.  MÔ HÌNH QUY HOẠCH ĐỘNG VÔ HẠN

 

Mô hình giải bài toán ra quyết định Markov với số bước vô hạn bằng phương pháp quy hoạch động. Với số giai đoạn vô hạn, thường xét hệ thống ở trạng thái xác lập. Chuỗi Markov ở xác lập có đặc tính độc lập với trạng thái ban đầu.

Chiến lược tối ưu với số bước vô hạn hay chính sách xác lập tối ưu là chính sách cực đại kỳ vọng thu nhập chuyển giai đoạn. Các phương pháp xác định chính sách xác lập tối ưu bao gồm:

          - Phương pháp liệt kê

          - Phương pháp lặp.

 

a.  Phương pháp liệt kê

 

Phương pháp liệt kê và so sánh các chính sách. Số chính sách L ở hệ thống m trạng thái, K phương án là L = Km. Với mỗi chính sách l trong tập chính sách sẽ có một ma trân chuyển dịch Pl và ma trận lợi nhuận Rl tương ứng.

Phương pháp liệt kê gồm các bước sau:

          - Xác định tập chính sách và các ma trận tương ứng: l, Pl, Rl.

          - Tính kỳ vọng thu nhập khi chuyển từ trạng thái i ở chính sách l.

                            l = 1 ¸ L

          - Tính ma trận tới hạn cho các chính sách l = 1 ¸ L

                            l = 1 ¸ L

                            Pl = PlPl

          - Xác định kỳ vọng thu nhập El ở chính sách l = 1 ¸ L

                            El = åi=1¸mpilvil

          - Xác định chính sách tối ưu l*   

                            E = El* = maxl [El]                                                     

Ví dụ: Áp dụng phương pháp liệt kê cho bài toán người làm vườn với số bước vô hạn. Với 3 trạng thái và 2 phương án hệ thống có 8 chính sách như ở bảng sau:

L

Chính sách

1

2

3

4

5

6

7

8

Không bón

Bón ở mọi trạng thái

Bón ở trạng thái 1

Bón ở trạng thái 2

Bón ở trạng thái 3

Bón ở trạng thái 1 hay 2

Bón ở trạng thái 1 hay 3

Bón ở trạng thái 2 hay 3

 

Ma trận chuyển dịch và ma trận lợi nhuận tương ứng với chính sách l = 1 - 8 như sau:

                  

Kỳ vọng thu nhập khi chuyển từ trạng thái i ở chính sách l tính ở bảng sau:

                  

 

 

 

l

i = 1

i = 2

i = 3

1

2

3

4

5

6

7

8

5,3

4,7

4,7

5,3

5,3

4,7

4,7

5,3

3

3,1

3

3,1

3

3,1

3

3,1

-1

0,4

-1

-1

0,4

-1

0,4

0,4

 

Kết quả tính toán xác suất giới hạn như ở bảng sau:

l

p1l

p2l

p3l

1

2

3

4

5

6

7

8

0

6/59

0

0

5/154

0

5/137

12/135

0

31/59

0

0

69/154

0

62/137

69/135

1

22/59

1

1

80/154

1

70/137

54/135

 

Kỳ vọng thu nhập El ở chính sách l = 1 ¸ L có kết quả tính toán như ở bảng sau:

l

El

1

2

3

4

5

6

7

8

-1

2,256

0,4

-1

1,724

-1

1,734

2,210

 

Từ bảng kỳ vọng thu nhập, ta thấy chính sách tối ưu là chính sách số 2, đó là bón phân cho mọi trạng thái đất. Với chính sách này, kỳ vọng thu nhập hàng năm là cực đại với giá trị 2,256 triệu. Để ý rằng kết quả này khác với kết quả của bài toán số bước hữu hạn ở trên.

 

b.  Phương pháp lặp

 

Phương pháp liệt kê tuy đơn giản nhưng có lượng tính toán lớn nhất là khi quá trình có số trạng thái hay số phương án lớn. Để giảm thiểu lượng tính toán, có thể dùng phương pháp lặp. Mục tiêu mô hình là cực đại kỳ vọng thu nhập chuyển giai đoạn theo các chính sách:

                  

Kỳ vọng thu nhập chuyển giai đoạn theo các chính sách l:

                  

trong đó f(i) là các hằng số trạng thái theo chính sách.

Đây là hệ m phương trình với  m+1 ẩn số có thể giải bằng quá trình lặp theo hai bước định trị và cải thiện chính sách.

Bước định trị ta chọn một chính sách bất kỳ l mà ta gọi là lp, xác định các ma trận tương ứng Pl, Rl và giải hệ phương trình:

                  

trong đó tùy chọn .

Bước cải thiện chính sách, xác định chính sách mới ln. Với mỗi trạng thái i, định phương án tối ưu k*:

                  

Nếu chính sách mới ln trùng chính sách cũ lp, chính sách mới là tối ưu. Nếu chính sách mới ln khác chính sách cũ lp, thay chính sách cũ lp bởi chính sách mới và quay lại bước định trị.

Ví dụ: Sử dụng phương pháp lặp với bài toán làm vườn. Xem chính sách ban đầu là không bón phân với mọi tình trạng đất:

                   k = 1, i = 1, 2, 3

Ma trận chuyển dịch và ma trận lợi nhuận tương ứng chính sách ban đầu:

                  

                  

Hệ phương trình:

                   E = 5,3  + 0,2 f(1) + 0,5 f(2) + 0,3 f(3) – f(1)

                   E = 3 +  0 f(1)  + 0,5 f(2)  + 0,5 f(3) – f(2)

                   E = -1 + f(1) + f(2) + 1 f(3) – f(3)

Với f(3) = 0 giải hệ phương trình trên ta được:

                   E = -1;  f(1) = 12,88;  f(2) = 8;  f(3) = 0

Chính sách mới tương ứng với phương án tối ưu cho từng trạng thái định bởi bảng sau:

i

f(i)

k*

k=1

k =2

1

2

3

5,3+0,2x12,8+0,5x8+0,3x0 =11,9

3 + 0x12,8 +0, 5x8 + 0,5x0= 7

-1 + 0x12,8 + 0x8+1x0   = -1

4,7+0,3x12,8+0,6x8+0,1x0=13,3

3,1+0,1x12,8+0,6x8+0,3x0 = 9,2

0,4+0,05x12,8+0,4x8+0,55x0=4,2

13,3

9,2

4,2

2

2

2

 

Từ bảng trên ta thấy chính sách mới là chọn phương án 2 cho mọi trạng thái hay bón phân cho mọi tình trạng đất, chính sách mới này khác chính sách cũ nên được chọn là chính sách hiện tại.

Với chính sách mới hiện tại, ma trân chuyển dịch và lợi nhuận như sau:

         

                  

                   E = 4,7 + 0,3 f(1)  + 0,6 f(2) + 0,1 f(3) – f(1)

                   E = 3,1 + 0,1 f(1)  + 0,6 f(2) + 0,3 f(3) – f(2)

                   E = 4  + 0,05 f(1)  + 0,4 f(2) + 0,55 f(3) – f(3)

                   f(3) = 0 ® E = 2,26;  f(1) = 6,7;  f(2) = 3,8;  f(3) = 0

i

k*

k = 1

k = 2

1

2

3

5,3 + 0,2 x 6,7 + 5 x 3,8 = 8,5

3 + 0 x 6,7  + 0,5 x 3,8 = 4,9

-1 + 0 x 6,7 + 0 x 3,8 = -1

4,7 + 3 x 6,7 + 0,6 x 3,8 = 8,9

3,1 + 0,1 x 6,7 + 0,6 x 3,8 = 6,05

0,4 + 0,05 x 6,7 + 0,4 x 3,8 = 2,25

2

2

2

 

Chính sách mới lại là chính sách chọn phương án 2 cho mọi trạng thái, đây là chính sách tối ưu và giá trị tối ưu của hàm mục tiêu là E = 2,26.

 

5.  MÔ HÌNH QUY HOẠCH TUYẾN TÍNH VÔ HẠN

 

Phần này áp dụng mô hình quy hoạch tuyến tính cho bài toán quyết định Markov với số giai đoạn vô hạn. Với số giai đoạn vô hạn, bài toán có hàm mục tiêu là cực đại kỳ vọng thu nhập chuyển giai đoạn theo các chính sách.

                  

Gọi  là xác suất chọn phương án k khi hệ thống ở trạng thái i. Bài toán có thể mô hình như sau: 

                  

Với các ràng buộc: 

                  

                  

                  

Chú ý rằng pij  là hàm của chính sách hay tập phương án chọn lựa.

Để đưa về mô hình tuyến tính, gọi wik là xác suất khi hệ thống ở trạng thái i và chọn phương án k thì có theo định luật Bayes: 

                  

Từ lý thuyết xác suất:

                  

Có thể suy ra  từ wik:

                  

Từ đó, mô hình trên có thể viết lại thành mô hình tuyến tính sau với mK biến và (m + 1) ràng buộc:

                  

Với các ràng buộc: 

                  

                  

Ví dụ: Áp dụng mô hình quy hoạch tuyến tính cho bài toán làm vườn. Kỳ vọng thu nhập khi ở trạng thái i, phương án k tính được ở bảng sau:

i

k = 1

k = 2

1

2

3

5,3

3

-1

4,7

3,1

0,4

 

 

Mô hình:

     Max E = 5,3 w11 + 4,7w12 + 3w21 +3,1w22 – w31  + 0,4w32

     St:

          w11 + w12 – (0,2w11 + 0,3w12  + 0,1w22 + 0,5w32) = 0

          w21 + w22 – (0,5w11 + 6w12 + 0,5w21 + 0,6w22  + 0,4w32 ) = 0

          w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w22 + w31 + 0,55w32­) = 0

          w11 + w12 + w21 + w22 + w31 + w32  = 1

          w11w­ik ³ 0,  " i, k

Giải mô hình ta được:   w11 = w21 = w31 = 0

                                      w12 = 6/59

                                      w22  = 31/59

                                      w32  = 22/59

Từ đó:                           q11 = w11 / (w11 + w12) = 0

Tương tự:                      q12 = q13 = 0

                                      q12  =  q22q32 = 1

Chính sách tối ưu là chọn phương án 2 cho mọi trạng thái 0, kỳ vọng thu nhập chuyển trạng thái tối ưu là:

         

 

TLTK

Nguyễn Như Phong. Vận trù ngẫu nhiên. NXBĐHQG. 2003, 2010, 2015

 

 

 

 
  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

  • thiet ke noi that chung cu

ABOUT US

ADMIN


GOOD BROWSERS

 
   

STATISTIC

mod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_counter
mod_vvisit_counterToday134
mod_vvisit_counterYesterday689
mod_vvisit_counterThis week4226
mod_vvisit_counterThis month823
mod_vvisit_counterTotal1173793
Hiện có 184 khách Trực tuyến