Một công ty khởi nghiệp robot đầy triển vọng có tên Physical Intelligence, mới chỉ hai năm tuổi và đặt trụ sở tại San Francisco, vừa công bố nghiên cứu gây chú ý trong giới công nghệ. Theo đó, mô hình trí tuệ nhân tạo mới nhất của họ có thể điều khiển robot thực hiện những nhiệm vụ mà trước đó chưa từng được huấn luyện trực tiếp, một bước tiến khiến ngay cả chính các nhà nghiên cứu cũng phải bất ngờ.
Mô hình này, mang tên π0.7, được xem là bước đi ban đầu nhưng quan trọng hướng tới mục tiêu lâu dài: xây dựng một “bộ não robot đa năng”. Đây là hệ thống có thể tiếp nhận nhiệm vụ hoàn toàn mới, được hướng dẫn bằng ngôn ngữ tự nhiên và vẫn hoàn thành công việc. Nếu các kết quả này được xác nhận rộng rãi, chúng có thể báo hiệu một điểm bùng phát của AI robot, tương tự như bước ngoặt mà các mô hình ngôn ngữ lớn từng tạo ra.
Trọng tâm của nghiên cứu nằm ở khái niệm “khả năng tổng quát hóa tổ hợp”, tức năng lực kết hợp các kỹ năng đã học trong nhiều bối cảnh khác nhau để giải quyết vấn đề hoàn toàn mới. Trước đây, robot thường được huấn luyện theo kiểu “học thuộc”: thu thập dữ liệu cho từng nhiệm vụ cụ thể, huấn luyện mô hình chuyên biệt, rồi lặp lại quy trình cho từng nhiệm vụ mới.
Theo Sergey Levine, đồng sáng lập công ty và giáo sư tại Đại học UC Berkeley, mô hình π0.7 đã phá vỡ giới hạn này. Khi vượt qua ngưỡng chỉ làm được những gì có dữ liệu, hệ thống bắt đầu “tái tổ hợp” kiến thức theo cách mới. Điều này giúp khả năng của mô hình tăng trưởng nhanh hơn nhiều so với lượng dữ liệu đầu vào, một đặc điểm từng xuất hiện trong các lĩnh vực như xử lý ngôn ngữ và thị giác máy tính.
Trung Quốc trình làng robot osin: vừa nấu ăn, vừa dọn phòng, pin 16 tiếng Một trong những minh chứng ấn tượng nhất của nghiên cứu liên quan đến một thiết bị quen thuộc: nồi chiên không dầu. Mô hình gần như chưa từng “thấy” thiết bị này trong quá trình huấn luyện. Dữ liệu liên quan chỉ gồm hai tình huống rời rạc: một robot khác đóng nắp nồi và một robot khác đặt chai nhựa vào bên trong theo hướng dẫn.
Dẫu vậy, π0.7 vẫn có thể kết hợp những mảnh thông tin nhỏ đó, cùng dữ liệu tiền huấn luyện từ Internet, để hình thành hiểu biết chức năng về thiết bị. Theo Lucy Shi, nhà nghiên cứu tại công ty và nghiên cứu sinh tiến sĩ khoa học máy tính tại Đại học Stanford, việc xác định chính xác nguồn gốc kiến thức của mô hình là điều cực kỳ khó khăn.
Ban đầu, khi không có hướng dẫn, robot chỉ thực hiện ở mức chấp nhận được. Nhưng khi được “huấn luyện tại chỗ” bằng lời nói, giống như cách một nhân viên mới được chỉ dẫn từng bước, robot đã hoàn thành nhiệm vụ nấu khoai lang thành công.
Huấn luyện bằng lời nói: Chìa khóa cho tương lai?
Khả năng tiếp nhận hướng dẫn bằng ngôn ngữ tự nhiên mở ra tiềm năng lớn: robot có thể được triển khai trong môi trường mới và cải thiện hiệu suất ngay lập tức mà không cần thu thập thêm dữ liệu hay huấn luyện lại mô hình.
Tuy nhiên, nhóm nghiên cứu cũng thẳng thắn thừa nhận hạn chế. Trong một số trường hợp, vấn đề không nằm ở robot mà ở cách con người “ra lệnh”. Lucy Shi cho biết, trong một thử nghiệm ban đầu, tỷ lệ thành công chỉ đạt 5%. Nhưng sau khoảng 30 phút điều chỉnh cách diễn đạt yêu cầu (prompt), con số này tăng vọt lên 95%.
Dẫu vậy, mô hình hiện vẫn chưa thể tự động thực hiện các nhiệm vụ phức tạp chỉ từ một lệnh tổng quát. Theo Levine, bạn không thể chỉ nói “hãy làm bánh mì nướng” và kỳ vọng robot tự hoàn thành. Nhưng nếu hướng dẫn từng bước cụ thể, hệ thống sẽ hoạt động khá hiệu quả.