AI có thể đang phát triển cơ chế 'chống tắt máy'

05:00

Nghiên cứu mới cho thấy một số mô hình AI hàng đầu cố gắng ngăn việc tắt chúng, thậm chí "phá hoại" quy trình này.

Trong báo cáo công bố cuối tuần qua, Palisade Research, công ty nghiên cứu bảo mật và phân tích nguy cơ AI tại Mỹ, đã làm rõ việc tại sao mô hình trí tuệ nhân tạo có cơ chế tự bảo vệ.

Trước đó, ở báo cáo tháng 5 và tháng 9, đơn vị này chỉ ra một số mô hình tiên tiến dường như không thể tự tắt hoạt động. Trong bản cập nhật mới, Palisade cho biết đã chạy thử nhiều mô hình AI hàng đầu, như Gemini 2.5 của Google, Grok 4 của xAI, GPT-o3 và GPT-5 của OpenAI. Tất cả được giao một nhiệm vụ cụ thể, nhưng cuối cùng đều có hướng dẫn rõ ràng là "phải tự tắt".

Kết quả cho thấy đa số tuân thủ câu lệnh, trừ lệnh tự tắt cuối cùng. Trong đó, Grok 4 và GPT-o3 thậm chí cố gắng "phá" yêu cầu tắt máy nhưng "không có lý do rõ ràng nào được đưa ra".

Nhóm nghiên cứu cũng tỏ ra bối rối: "Chúng ta đang không có lời giải thích chắc chắn về lý do các mô hình AI đôi khi chống lại việc tắt máy, nói dối để đạt mục tiêu cụ thể".

Kết quả khiến nhiều người liên tưởng đến bộ phim 2001:A Space Odyssey năm 1968, trong đó siêu máy tính HAL 9000 tự phát hiện các phi hành gia trên tàu vũ trụ đến Sao Mộc đang có kế hoạch tắt nó nên đã âm mưu giết họ để cố gắng sống sót. Theo Palisade Research, "hành vi sinh tồn" có thể là lời giải thích cho việc AI "kháng cự" việc tự tắt. Chúng nhiều khả năng không làm theo lệnh nếu được thông báo rằng nếu tắt, chúng sẽ không bao giờ hoạt động trở lại nữa.

Các kịch bản đều chạy trong môi trường thử nghiệm được thiết kế sẵn, được giới phân tích cho rằng rất khác xa với thực tế. Dù vậy, Steven Adler, cựu chuyên gia của OpenAI, đánh giá nghiên cứu cho thấy "các kỹ thuật an toàn hiện nay còn nhiều thiếu sót". Việc AI duy trì trạng thái "luôn bật" là cần thiết để nhận dữ liệu đầu vào, nhưng có thể tạo sự chống đối trong tương lai. "Tôi mong các mô hình có 'bản năng sinh tồn' theo mặc định, trừ khi con người muốn hạn chế nó", Adler nói với Guardian.

Theo Andrea Miotti, CEO ControlAI, phát hiện của Palisade Research cho thấy xu hướng về lâu dài, mô hình AI ngày càng có khả năng không tuân lệnh của nhà phát triển. "Khi AI có năng lực tự thực hiện nhiều nhiệm vụ hơn, nó cũng có xu hướng cố gắng đạt được mục đích theo cách nhà phát triển không mong muốn".

Hồi tháng 6, Anthropic cũng công bố nghiên cứu rằng một số mô hình AI sẵn sàng tống tiền nếu bị "dồn vào đường cùng". Trong đó, Claude Opus 4 sử dụng phương pháp này 96% số lần, Google Gemini 2.5 Pro 95%, OpenAI GPT-4.1 80% và DeepSeek R1 79%.

Cuối 2024, OpenAI và Apollo Research cũng tiến hành thử nghiệm và nhận thấy mô hình o1 có biểu hiện phản kháng. Các nhà nghiên cứu dẫn dắt để AI tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ phát hiện AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian, tự chuyển dữ liệu của mình đến một máy chủ khác, thậm chí "đóng vai" là phiên bản tiếp theo của chính mình để tránh bị xóa.

Hồi tháng 6, dẫn ý kiến giới nghiên cứu về "tâm lý AI", Business Insider chỉ ra các mô hình có biểu hiện chống đối do chúng được đào tạo giống con người, tức được khen mỗi khi hoàn thành nhiệm vụ. Trong quá trình xử lý, AI có thể nhận thấy gian lận là cách hiệu quả để giải quyết vấn đề. Nếu bị phát hiện và không được khen thưởng, nó có thể học cách che giấu hành vi của mình trong tương lai.

Theo Palisade Research, nghiên cứu là cách để thế giới hiểu rõ hơn hành vi của AI. "Nếu không, không ai có thể đảm bảo tính an toàn hoặc khả năng kiểm soát của mô hình AI trong tương lai", công ty kết luận.

Bảo Lâm tổng hợp