ĐANG XẢY RA: Google giới thiệu TurboQuant, một kỹ thuật nhằm nén bộ nhớ làm việc của các mô hình ngôn ngữ mà không mất mát.


Nếu nó được triển khai như nghiên cứu đề xuất, nó có thể giảm bớt một trong những nút thắt chính của AI hiện tại: chi phí và sự khan hiếm của bộ nhớ cần thiết để xử lý các ngữ cảnh dài, các tác nhân, và khối lượng công việc suy luận lớn.
TurboQuant nhằm giảm sử dụng bộ đệm KV lên tới sáu lần và tăng tốc xử lý trên chip lên tới tám lần mà không mất dữ liệu.
Xem bản gốc
post-image
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim