DeepSeek ra biến thể R1 'có thể chạy trên một GPU'

31/5

329

DeepSeek ra biến thể R1 có thể chạy trên một GPU

DeepSeek triển khai bản nâng cấp đầu tiên cho R1 sau 5 tháng ra mắt, với khả năng suy luận tốt hơn, giảm "ảo giác" và bản tùy biến có thể chạy trên một GPU.

Thông qua nền tảng dành cho nhà phát triển Hugging Face, DeepSeek cho biết bản R1-0528 là "nâng cấp nhỏ" nhưng cải thiện đáng kể khả năng suy luận và suy diễn sâu sắc, gồm xử lý tốt hơn tác vụ phức tạp. Startup của Trung Quốc khẳng định hiệu suất mô hình mới chỉ thấp hơn mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google.

DeepSeek ban đầu không nêu chi tiết tính năng mới của R1-0528, khác với bản R1 vào tháng 1. Khi đó, công ty đăng kèm theo một bài báo học thuật có sự tham gia của nhiều học giả AI hàng đầu Trung Quốc, nhấn mạnh hàng loạt tính năng nổi bật.

Vài giờ sau đó, DeepSeek đăng một bài viết trên X về R1-0528, cho biết "hiệu suất được cải thiện". Tiếp đó, trên WeChat, công ty cho biết tỷ lệ "ảo giác", đầu ra sai hoặc gây hiểu lầm của bản cập nhật mới giảm khoảng 45-50% trong tình huống như viết lại và tóm tắt. Nó cũng cho phép "viết bài luận, tiểu thuyết và các thể loại khác một cách sáng tạo", đồng thời cải thiện khả năng trong các lĩnh vực như viết code giao diện phần mềm hay "nhập vai" dưới dạng tác nhân AI (AI agent).

R1-0528 có kích thước 685 tỷ tham số, là bản cập nhật khá "nặng". Mô hình được cấp phép theo giấy phép MIT, nghĩa là có thể sử dụng cho mục đích thương mại. Tuy nhiên, kho lưu trữ Hugging Face không chứa mô tả về mô hình, chỉ có các tệp cấu hình và trọng số, cũng như một số hướng dẫn. "Mô hình chứng minh hiệu suất vượt trội qua nhiều đánh giá chuẩn mực khác nhau, gồm toán học, lập trình và logic chung", DeepSeek viết trên WeChat ngày 30/5.

Adina Yakefu, nhà nghiên cứu AI của Hugging Face, cũng đánh giá cao bản nâng cấp của R1. "Mô hình mới sắc nét hơn về mặt lý luận, mạnh hơn về toán học và mã, và gần đạt đến trình độ của các mô hình hàng đầu như Gemini và OpenAI o3", Yakefu nói với CNBC.

Bên cạnh bản tiêu chuẩn, DeepSeek tạo một biến thể "được tinh chế" của R1-0528 có tên DeepSeek-R1-0528-Qwen3-8B, xây dựng dựa trên mô hình Qwen3-8B với 8 tỷ tham số của Alibaba ra mắt vào tháng 5 thông qua quá trình "chưng cất". Kết quả là hiệu suất mô hình mới cao hơn Qwen-3 ban đầu hơn 10%.

Công ty đào tạo DeepSeek-R1-0528-Qwen3-8B bằng cách lấy văn bản được tạo ra bởi R1-0528 và sử dụng nó để tinh chỉnh Qwen3-8B. Việc "chưng cất" đó giúp mô hình mới mạnh mẽ hơn và sử dụng ít tài nguyên hơn. Theo NodeShift, mô hình chỉ yêu cầu một GPU có RAM 40-80 GB là đủ để chạy, như Nvidia A100. Trong khi đó, R1-0528 tiêu chuẩn cần khoảng 16 GPU A100 80 GB.

DeepSeek cho biết mô hình nhỏ gọn hoạt động tốt hơn Gemini 2.5 Flash của Google trong bài kiểm tra AIME 2025 - tập hợp câu hỏi toán học thử thách, cũng như sức mạnh tương đương mô hình lý luận Phi 4 của Microsoft trong bài kiểm tra kỹ năng toán học HMMT.

Trên Hugging Face, DeepSeek mô tả DeepSeek-R1-0528-Qwen3-8B "dành cho cả nghiên cứu học thuật, lý luận, phát triển công nghiệp quy mô nhỏ". Mô hình cũng có giấy phép MIT. Một số máy chủ như LM Studio đã được cung cấp qua API.

Theo ghi nhận của Reuters, sau thông báo cập nhật R1 của DeepSeek, cổ phiếu của nhiều công ty AI giảm 5-15%.

DeepSeek thu hút sự chú ý cuối năm ngoái khi ra mắt mô hình V3 và sau đó là R1 đầu năm nay. Cả hai đều được đánh giá có sức mạnh tương đương những sản phẩm hàng đầu từ OpenAI hay Google dù sử dụng ít GPU để đào tạo hơn, trái ngược với các công ty như Google, OpenAI, Meta... đổ hàng tỷ USD cho AI trong thời gian ngắn. Để đối phó với DeepSeek, nhiều công ty đã có chiến lược để tăng sức hút. Chẳng hạn, Google giới thiệu một số gói dịch vụ Gemini với giá phải chăng, OpenAI giảm giá và phát hành mô hình o3-mini sử dụng ít năng lực tính toán hơn.

Hồi tháng 3, DeepSeek cập nhật mô hình V3 nhưng chưa nhận nhiều chú ý. Công ty được cho là đã lên kế hoạch ra mô hình R2 kế nhiệm R1 vào tháng 5, nhưng đến nay chưa xuất hiện.

Bảo Lâm (theo Reuters, CNBC, TechCrunch)

Jensen Huang: 'DeepSeek R1 là món quà cho ngành AI'
DeepSeek vượt ChatGPT về lượt truy cập mới hàng tháng
DeepSeek đang len lỏi trong đời sống thế nào
Tham vọng đưa AI vào cuộc sống của Trung Quốc
Ứng dụng DeepSeek bị 'hạ bệ' trên App Store Trung Quốc
Phong cách DeepSeek 'tương đồng đáng kinh ngạc' với ChatGPT

DeepSeek ra bien the R1 'co the chay tren mot GPU'

DeepSeek trien khai ban nang cap dau tien cho R1 sau 5 thang ra mat, voi kha nang suy luan tot hon, giam "ao giac" va ban tuy bien co the chay tren mot GPU.

DeepSeek ra biến thể R1 'có thể chạy trên một GPU'

By www.tincongnghe.net

DeepSeek triển khai bản nâng cấp đầu tiên cho R1 sau 5 tháng ra mắt, với khả năng suy luận tốt hơn, giảm "ảo giác" và bản tùy biến có thể chạy trên một GPU.