[Video] Song đề tù nhân và lý thuyết trò chơi

BaroTo
12/7/2018 19:26Phản hồi: 586
[Video] Song đề tù nhân và lý thuyết trò chơi
Song đề tù nhân hay Thế tiến thoái lưỡng nan của người tù (Prisoner's Dilemma) là một trò chơi có tổng không bằng không (non-zero sum) trong lý thuyết trò chơi (game theory). Để bắt đầu tìm hiểu song đề tù nhân hãy cùng nhau thoả thuận 1 việc sau. Trước tiên bạn sẽ được đưa vào vai các nhân vật trong phần Quiz dưới đây, việc của bạn là hãy đưa ra các lựa chọn của mình. Tiếp theo đó hãy đọc bài và nghiệm lại kết quả bằng cách xem có bao nhiêu phần trăm người phản bội bạn trong phần Quiz trên, nó sẽ giúp bạn hiểu rõ vấn đề hơn.



Tất cả các hành động mà chúng ta đã làm ở một thời điểm nhất định là kết quả của vô số các hành động trước đó? Liệu các hành động đó có phải được chọn một các tự nguyện hay mọi thứ đã được định trước kể từ lúc vũ trụ khai sinh?

song_de_tu_nhan_2.jpg

Hãy cùng nhìn vào các ví dụ xoắn não này để tự bạn có thể đưa ra kết luận của chính mình: Song đề tù nhân và bài toán của Newcomb.


1. Song đề tù nhân

Hai thành viên của một băng đảng tội phạm, Simon và Peter, bị bắt vì tình nghi thực hiện một vụ cướp có vũ trang, cảnh sát không có đủ bằng chứng để kết tội bất kỳ ai cho vụ cướp. Thay vào đó, họ thẩm vấn cả hai nghi phạm riêng và đưa ra thỏa thuận sau, hi vọng rằng sẽ có kẻ tố cáo người còn lại: Nếu Simon và Peter đều tố cáo lẫn nhau, một người sẽ phải ngồi tù hai năm, nếu Simon phản bội Peter, nhưng Peter giữ im lặng Simon sẽ được tự do và Peter sẽ phải ngồi tù 3 năm hoặc ngược lại. Tuy nhiên nếu cả Simon và Peter đều im lặng mỗi người bọn họ sẽ chỉ phải ngồi tù một năm vì một cáo trạng nhẹ hơn do tội sở hữu súng ngắn.

Một mặt, một cá nhân sẽ có kết quả tốt hơn nếu phản bội người còn lại thay vì giữ im lặng. Nếu Peter không nói gì, Simon sẽ có lợi khi phản bội Peter và được trả tự do thay vì cũng im lặng và phải ngồi tù 1 năm. Nếu Peter phản bội Simon, Simon một lần nữa vẫn có lợi hơn bằng cách phản bội Peter và ngồi tù hai năm thay vì im lặng và chịu án ba năm. Mặt khác nếu cả hai tù nhân làm theo logic bên trên, họ sẽ đều phản bội lẫn nhau và mỗi người sẽ phải chịu ngồi tù hai năm. Nhưng nếu cả hai người đều im lặng, cả hai sẽ chỉ phải chịu án một năm.

song_de_tu_nhan_3.jpg

Vấn đề bên trên được biết dưới cái tên song đề tù nhân, có rất nhiều ứng dụng trong đời thật, bao gồm lý thuyết trò chơi, kinh tế, biến đổi khí hậu, thể thao và các vấn đề chính trị xã hội. Lấy ví dụ chúng ta có thể tưởng tượng Simon và Peter như hai người nông dân sống trong một cộng đồng không có luật pháp. Nếu họ có một thỏa thuận ngầm không ăn trộm của nhau, cả hai sẽ có lợi hơn khi phản bội lòng tin của người còn lại: Simon sẽ có lợi khi ăn trộm bí ngô của Peter vì Peter không ăn trộm của Simon, Simon sẽ có một ít bí ngô của Peter thêm vào chỗ bí đao của bản thân và nếu Peter có ăn trộm đi chăng nữa, Simon vẫn có một ít bí ngô để bù lại chỗ bí đao bị mất của mình. Dù vậy, dĩ nhiên chúng ta muốn các cá nhân sống trong một cộng đồng tránh xa khỏi các hành vi như vậy.

2. Bài toán của Newcomb


song_de_tu_nhan_4.jpg

Trong tình huống thứ hai này, bạn có một lựa chọn giữa việc lấy đồ trong cả hai chiếc hộp kín: A và B hoặc chỉ hộp B.

Quảng cáo


  • Hộp A luôn luôn chứa 1000$
  • Hộp B hoặc trống rỗng hoăc chứa 1 triệu dollar
Bạn có một tuần trước khi đưa ra quyết định. Một thực thể siêu thông minh sẽ cố dự đoán quyết định của bạn và nếu nó đoán bạn lấy cả hai hộp, nó sẽ không đặt gì trong hộp B. Nếu nó nghĩ bạn chỉ lấy hộp B, nó sẽ đặt 1 triệu đô vào hộp B. Nó sẽ đoán lựa chọn của bạn, đặt số tiền dựa theo đó và bạn có một tuần để cân nhắc lựa chọn của mình. Bạn sẽ chọn gì?

Trong một cách diễn giải, bạn nên luôn luôn lấy hộp B nếu bạn tin rằng người dự đoán là chính xác. Lấy ví dụ nếu người dự đoán có tỉ lệ chính xác 90% trong quá khứ bạn sẽ có cơ hội lấy được 900 nghìn đô (0.9 x 1 triệu đô + 0.1 x 0 đô) khi lấy hộp B so với $101,000 (0.9 x 1000$ + 0.1 x $1,001,000) khi lấy cả hai hộp. Ở một cách diễn giải khác, bạn nên lấy cả hai hộp dù độ chính xác của người dự đoán có bằng bao nhiêu đi nữa. Bởi vì người dự đoán đã bỏ tiền sẵn từ trước lúc bạn chọn rồi, nếu nó không bỏ gì vào hộp B, bạn nên lấy cả hai hộp để ít nhất có được 1000$ và nếu nó bỏ 1 triệu đô vào hộp B, bạn nên lấy cả hai hộp để tôi đa phần thưởng của mình: 1,001,000 dollar. Cũng giống nhau cả.

song_de_tu_nhan_5.jpg

Nhìn qua thì song đề tù nhân là vấn đề về mặt đạo đức, Trong khi bài toán của Newcomb là câu hỏi về tự do ý chí. Song đề tù nhân đặt câu hỏi về cách một người nên cân bằng lợi ích bản thân với hợp tác như thế nào để có lợi cho cả hai, bài toán của Newcomb lại đặt câu hỏi liệu rằng người dự đoán có thể đoán trúng lựa chọn của bạn không. Nó ngụ ý rằng nếu người dự đoán là hoàn hảo, bạn sẽ không thể nào lựa chọn vào ngày quyết định khi mà người dự đoán đã xác nhận kết quả trước đó một tuần. Nhưng các nhà triết học như David Gauthier, Jan Narveson và David Lewis đã tranh cãi rằng song đề tù nhân cũng chính là bài toán của Newcomb. Hãy cùng nhìn xem các điểm chung đó ở đâu?

song_de_tu_nhan_6.jpg

Quay trở lại ví dụ của chúng ta về hai người nông dân Simon và Peter cả hai sẽ nhìn thấy một lợi ích lâu dài to lớn nhất nếu họ giữ thỏa thuận của mình. Nếu Simon trộm bí ngô của Peter vào năm nay, rất có thể Peter sẽ trả đũa vào năm sau và rồi cả hai sẽ nhanh chóng quan tâm nhiều hơn đến việc trộm của nhau trong khi bảo vệ thu hoạch của mình hơn là đơn giản chỉ trồng bí ngô và bí đao nên cả hai tình nguyện giữ thỏa thuận của mình miễn là bên kia cũng làm như vậy. Nhưng liệu họ có thể trông đợi vào nhau rằng người kia sẽ giữ lời hứa? Vậy là Simon sẽ phải quyết định xem Peter sẽ nghĩ anh làm gì. Biết rằng Peter sẽ ăn trộm nếu anh ta nghĩ Simon sẽ ăn trộm, hoặc không làm thế nếu anh ta nghĩ Simon cũng không làm thế. Thay thế Peter bằng người dự đoán, liệu chúng ta có thể bắt đầu chuyển sang bài toán của Newcomb với việc Simon phải quyết định rằng người dự đoán sẽ nghĩ anh lấy một hộp hay là hai, biết được rằng người dự đoán sẽ hành xử khác đi dựa theo dự đoán của bản thân nó? Sự so sánh này chỉ ra một hướng đi trong đó đạo đức sẽ còn tùy thuộc vào kiến thức và tự do của ý chí. Để Simon và Peter có thể hợp tác thành công, họ phải hiểu rõ lợi và hại trong các lựa chọn của bản thân và khuynh hướng của người còn lại. Họ cũng phải tin rằng hành vi của họ sẽ có hậu quả ngoài đời thật.

Quảng cáo


3. Song đề tù nhân và chiến thuật ngoài đời thực

Trong quyển The Evolution of Cooperation (1984) (Quá trình tiến hoá của sự hợp tác), tác giả Robert Axelrod đã khảo sát một trường hợp mở rộng của song đề tù nhân mà ông gọi là song đề tù nhân lặp lại (iterated prisoner's dilemma - IPD). Trong trường hợp này, những người tham gia phải chọn một chiến thuật nhiều lần, và có thể nhớ được những lần trước. Axelrod đã khám phá ra rằng khi các cuộc đấu này trải qua một thời gian dài với nhiều người chơi, mỗi người với một chiến thuật riêng, thì những chiến thuật "tham lam" thường có kết quả rất thấp khi so với những chiến thuật "vị tha" hơn. Ông đã dùng khám phá này để đưa ra một giải thích để bù một lỗ trong thuyết tiến hoá: trong chọn lọc tự nhiên chỉ có những động cơ ích kỷ, vậy sao lại tiến hoá đến những hành động vị tha?

song_de_tu_nhan_7.jpg

Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol Rapoport phát triển. Chiến thuật này là hợp tác trong lần đầu, và sau đó chỉ làm theo đối thủ trong trận trước. Một chiến thuật tốt hơn một tí là "ăn miếng trả miếng với tha thứ". Khi đối thủ tấn công ta, trong trận kế tiếp đôi khi vẫn hợp tác với một cơ hội nhỏ (1-5%). Việc này cho phép phục hồi nếu cả hai cứ tấn công nhau. "Ăn miếng trả miếng với tha thứ" hoạt động tốt nhất khi trong trò chơi có thể bị mất liên lạc. Việc này có nghĩa là đôi khi đối thủ được thông báo sai về lựa chọn của mình: mình hợp tác nhưng đối thủ lại tưởng là mình đã tấn công họ. Axelrod kết luận rằng "ăn miếng trả miếng" thành công vì hai lý do. Thứ nhất, nó "tử tế" (nice): nó hợp tác lúc đầu và chỉ tấn công để trả đũa khi đối thủ tấn công trước, cho nên nó không bao giờ bắt đầu một vòng lặp tấn công vô tận. Thứ nhì, nó có thể linh động, lúc nào cũng có thể phản ứng việc tấn công của đối thủ; nó trừng phạt người kia ngay sau khi họ tấn công, nhưng lập tức đối xử tử tế ngay khi họ bắt đầu hợp tác.

song_de_tu_nhan_8.jpg

Bạn đã nghiệm ra được điều gì chưa? Hãy comment bên dưới. Sau đây mời các bạn xem video đầy đủ với phụ đề tiếng Việt.



Nguồn: Monster Box
586 bình luận
Chia sẻ

Xu hướng

Mình nghĩ lấy 2 hộp lợi hơn
Xem giải trí xíu :rolleyes::rolleyes::rolleyes:

kubinqa
ĐẠI BÀNG
6 năm
@BaroTo Hiểu chết liền
dstream
ĐẠI BÀNG
6 năm
@kubinqa Quan trọng là có cách để liên hệ với nhau để biết được kết quả trả lời của thằng khác như nào
blizzaro
TÍCH CỰC
6 năm
@kubinqa Cái này dễ hiểu mà 😆 ĐOạn cuối nó có giải thích cả rồi . Thằng bạn trong nhóm đó trong mấy năm đó cố gắng hoặc có cơ hội làm nhân viên điều tra . Và trong quá trình đó nó sẽ ra dấu theo các kế hoạch sẵn có . Đại khái là thằng da đen nó lên kế hoạch từ A đến Z tất cả các bước luôn

=))
thailevi
TÍCH CỰC
6 năm
@narutoxboy Vụ này có tay trong nha bạn, không đúng bản chất cuộc chơi.
dinhsuc
ĐẠI BÀNG
6 năm
Ví dụ đầu tính ra thì tố cáo Peter lợi hơn. Ví dụ sau nếu là mình, mình sẽ lấy cả 2 hộp vì mình nghĩ nó lợi hơn
Ở bài toán Newcomb, nếu là mình, mình chỉ lấy hộp B thôi vì mình nghĩ nó lợi hơn. Còn ở song đề tù nhân, tính ra thì tố cáo Peter lợi hơn
thuat410
ĐẠI BÀNG
6 năm
Tính ra thì giữ im lặng lợi hơn
edios
TÍCH CỰC
6 năm
Ở tình huống đầu nếu là mình thì mình sẽ tố cáo Peter. Còn tình huống sau tính ra thì lấy hộp B lợi hơn
HHHIEP
TÍCH CỰC
6 năm
Cái đầu là song đề tù nhân, mình nghĩ giữ im lặng lợi hơn. Cái sau là bài toán Newcomb, mình nghĩ lấy hộp B lợi hơn
Nếu là mình, mình chỉ lấy hộp B thôi vì mình nghĩ nó lợi hơn
Ở tình huống đầu tính ra thì giữ im lặng lợi hơn. Còn tình huống sau tính ra thì lấy hộp B lợi hơn
Ở tình huống đầu nếu là mình thì mình sẽ tố cáo Peter. Còn tình huống sau nếu là mình, mình chỉ lấy hộp B thôi vì mình nghĩ nó lợi hơn
Ví dụ đầu mình nghĩ giữ im lặng lợi hơn. Ví dụ sau nếu là mình, mình chỉ lấy hộp B thôi vì mình nghĩ nó lợi hơn
Cái đầu là song đề tù nhân, tính ra thì giữ im lặng lợi hơn. Cái sau là bài toán Newcomb, mình nghĩ lấy hộp B lợi hơn
ufdb
CAO CẤP
6 năm
Ở tình huống đầu mình nghĩ giữ im lặng lợi hơn. Còn tình huống sau mình nghĩ lấy 2 hộp lợi hơn
muoino
ĐẠI BÀNG
6 năm
Nếu là mình thì mình sẽ tố cáo Peter
Cái đầu là song đề tù nhân, mình nghĩ giữ im lặng lợi hơn. Cái sau là bài toán Newcomb, tính ra thì lấy hộp B lợi hơn
Ví dụ đầu tính ra thì giữ im lặng lợi hơn. Ví dụ sau nếu là mình, mình sẽ lấy cả 2 hộp vì mình nghĩ nó lợi hơn
Ví dụ đầu mình nghĩ giữ im lặng lợi hơn. Ví dụ sau mình nghĩ lấy hộp B lợi hơn

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019