Ngày 10 tháng 4, blog chính thức của DeepSeek đã đăng bài giới thiệu DeepSeek V4, mẫu flagship sẽ được công ty DeepSeek ra mắt. Mẫu này không chỉ vượt qua giới hạn về quy mô tham số mà còn hứa hẹn hiệu quả chưa từng có. Dự kiến, DeepSeek V4 có thể xử lý 1 nghìn tỷ (1T) tham số, hỗ trợ đa phương thức dữ liệu bao gồm văn bản, hình ảnh, video và âm thanh một cách tự nhiên, và có cửa sổ ngữ cảnh rộng 1 triệu token 1Mương đương 15-20 tiểu thuyết đầy đủ(, khiến nó trở thành đối thủ trực tiếp của các ông lớn phương Tây như GPT-5.4 của OpenAI và Claude Opus 4.5 của Anthropic. Giá API của DeepSeek V4 rẻ hơn 10-50 lần so với GPT-5.4 và Claude Opus 4.5; dự kiến, DeepSeek V4 sẽ được phát hành mã nguồn mở dưới giấy phép Apache 2.0. DeepSeek V4 có thể chạy cục bộ trên các hệ thống với hai RTX 4090 hoặc một RTX 5090. Ngoài ra, DeepSeek đã giới thiệu ba đổi mới cách mạng cho DeepSeek V4: 1. Bộ nhớ engram; 2. Siêu liên kết hạn chế đa dạng )mHC(; 3. Cơ chế chú ý th sparse )DSA( và chỉ mục Lightning. Hơn nữa, trong tuyên bố chính thức, DeepSeek lưu ý rằng do các hạn chế xuất khẩu nghiêm ngặt của Mỹ đối với các GPU chất lượng cao của NVIDIA )như B300 và H200(, DeepSeek đã tối ưu hóa V4 để chủ yếu dựa vào các chip sản xuất tại Trung Quốc để xuất ra. Mặc dù ban đầu việc đào tạo vẫn có thể sử dụng thiết bị NVIDIA )ví dụ như H800(, nhưng mô hình đã được tối ưu hóa cao cho các chip Huawei Ascend 950PR và Cambricon MLU.

Xem bản gốc
post-image
post-image
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim