Đây là lần đầu tiên một cỗ máy - giải được 5 trong số 6 bài toán tại kỳ thi IMO 2025 diễn ra ở Úc trong tháng 7 - đạt được thành tích ở cấp độ này, theo bài đăng trên blog của Google hôm thứ 21/7.
Cột mốc là minh chứng mới cho thấy các công ty hàng đầu đang không ngừng cải tiến hệ thống AI trong các lĩnh vực như toán học, khoa học và lập trình máy tính. Những công nghệ này có thể đẩy nhanh tiến trình nghiên cứu của các nhà toán học và khoa học, cũng như giúp đơn giản hóa công việc của các lập trình viên giàu kinh nghiệm.
Hai ngày trước khi Google công bố thành tựu, một nhà nghiên cứu của OpenAI đã đăng trên mạng xã hội rằng startup đã phát triển một công nghệ đạt điểm số tương tự với bộ đề năm nay, dù không chính thức tham dự cuộc thi.
Đại diện của Google DeepMind tại Olympic Toán học Quốc tế ở Sunshine Coast của Úc. Từ trái sang: Junehyuk Jung, Thang Luong, Dawsen Hwang và Yuri Chervonyi. Ảnh: Google DeepMind Cả hai hệ thống đều là chatbot, tiếp nhận và trả lời câu hỏi tương tự như con người. Trước đây, các hệ thống AI khác từng tham gia Olympic Toán học Quốc tế, nhưng chỉ có thể trả lời sau khi chuyên gia con người chuyển đổi bài toán sang một ngôn ngữ lập trình đặc biệt dành cho giải toán.
“Chúng tôi đã giải những bài toán này hoàn toàn bằng ngôn ngữ tự nhiên”, Thang Luong, nhà nghiên cứu cấp cao tại Google DeepMind, chia sẻ trong một cuộc phỏng vấn. “Điều đó có nghĩa hoàn toàn không có sự can thiệp từ con người.”
Kể từ khi OpenAI khơi mào làn sóng AI với việc ra mắt ChatGPT cuối năm 2022, các chatbot hàng đầu đã có thể trả lời câu hỏi, sáng tác thơ, tóm tắt tin tức, thậm chí lập trình. Tuy nhiên, chúng thường gặp khó khăn với toán học.
Trong hai năm qua, các công ty như Google và OpenAI đã phát triển những hệ thống AI phù hợp hơn với toán học, bao gồm cả các bài toán phức tạp mà người bình thường không thể giải được.
Năm 2024, Google DeepMind công bố hai hệ thống chuyên biệt cho toán học là AlphaGeometry và AlphaProof. Khi tham gia IMO, các hệ thống này đạt mức “huy chương bạc”, giải được 4 trong 6 bài toán - đánh dấu lần đầu tiên máy móc đạt cấp độ này. Một số công ty khác, như startup Harmonic, cũng đã xây dựng các hệ thống tương tự.
Tuy nhiên, AlphaProof và Harmonic không phải là chatbot. Chúng chỉ có thể trả lời sau khi các nhà toán học chuyển bài toán sang Lean - một ngôn ngữ lập trình được thiết kế riêng cho giải toán.
Năm nay, Google đã tham gia IMO với một chatbot có khả năng đọc và trả lời câu hỏi bằng tiếng Anh. Hệ thống này hiện chưa được công bố rộng rãi.
Có tên gọi Gemini Deep Think, công nghệ được các nhà khoa học gọi là hệ thống “lý luận”. Loại hệ thống này được thiết kế để suy luận qua các tác vụ liên quan đến toán học, khoa học và lập trình máy tính. Khác với các chatbot trước đây, công nghệ này có thể dành thời gian để suy nghĩ kỹ lưỡng trước khi đưa ra câu trả lời.
Các công ty khác như OpenAI, Anthropic và DeepSeek của Trung Quốc cũng phát triển các công nghệ tương tự.
Việt Nam vượt nhiều cường quốc trên Bảng Chỉ số AI thế giớiViệt Nam xếp hạng 6/40 quốc gia trong Bảng Chỉ số AI Thế giới 2025, vượt qua hàng loạt nền kinh tế phát triển, cho thấy người Việt không chỉ cởi mở với công nghệ mới mà còn sẵn sàng đóng vai trò nổi bật trong kỷ nguyên trí tuệ nhân tạo. Cũng giống như các chatbot khác, hệ thống lý luận học các kỹ năng ban đầu bằng cách phân tích lượng văn bản khổng lồ thu thập từ Internet. Sau đó, nó học thêm hành vi qua quá trình thử – sai chuyên sâu, gọi là học tăng cường (reinforcement learning).
Hệ thống lý luận có thể rất đắt đỏ vì nó phải dành thêm thời gian để suy nghĩ cho từng câu trả lời. Google cho biết Deep Think đã sử dụng đúng khoảng thời gian như thí sinh con người tại IMO: 4 tiếng rưỡi. Tuy nhiên, công ty không tiết lộ chi phí, năng lượng điện hay tài nguyên tính toán đã được dùng để hoàn thành bài thi.
Vào tháng 12, một hệ thống của OpenAI đã vượt qua mức điểm trung bình của con người trong một bài kiểm tra lý luận được theo dõi sát sao, mang tên ARC-AGI. Nhưng công ty này đã bị cho là vi phạm quy định của cuộc thi vì chi khoảng 1,5 triệu USD vào điện và chi phí tính toán, theo ước tính giá thị trường.
(Theo NYT)