Chất lượng hiệu suất của LLM di động: Hiểu về Kích hoạt thưa thớt và Hạn chế lưu trữ

2025-12-20 11:25:14

Thách Thức Lưu Trữ Trên Điện Thoại Thông Minh

Điện thoại thông minh hiện đại đối mặt với giới hạn cơ bản khi chạy các mô hình ngôn ngữ lớn: dung lượng DRAM không đủ để lưu trữ toàn bộ trọng số của mô hình. Giới hạn này buộc hệ thống phải phân phối các tham số mô hình qua các giải pháp lưu trữ bên ngoài như UFS 4.0 được tìm thấy trong các bộ xử lý Snapdragon 8gen3. Hiểu rõ đặc điểm hiệu suất của lưu trữ di động là điều cần thiết để tối ưu hóa suy luận AI trên các thiết bị biên.

Phân Tích Hiệu Suất I/O Lưu Trữ

Kích Thước Khối và Băng Thông Đọc

Lưu trữ di động thể hiện một mô hình hiệu suất phản trực giác liên quan đến kích thước khối đọc. Khi truy cập dữ liệu theo thứ tự hoặc ngẫu nhiên, các khối đọc lớn hơn mang lại hiệu quả băng thông cao hơn. Một kích thước khối 512KB đạt hiệu suất tối đa 4 GB/s cho các lượt đọc theo thứ tự và 3.5 GB/s cho các lượt đọc ngẫu nhiên. Tuy nhiên, giảm kích thước khối xuống còn 4KB làm giảm đáng kể hiệu suất—băng thông đọc ngẫu nhiên giảm xuống chỉ còn 450 MB/s. Điều này tạo ra một yếu tố thiết kế quan trọng cho các triển khai bảng thưa và chiến lược truy xuất trọng số.

Ảnh Hưởng của Phạm Vi Truy Cập Ngẫu Nhiên

Thú vị thay, phạm vi của các lượt đọc ngẫu nhiên ảnh hưởng đáng kể đến thông lượng. Các phạm vi đọc nhỏ hơn luôn vượt trội so với phạm vi lớn hơn. Khi thực hiện các lượt đọc ngẫu nhiên 4KB, phạm vi 128MB đạt khoảng 1 GB/s, trong khi mở rộng lên 512MB giảm băng thông xuống dưới 850 MB/s. Khoảng cách hiệu suất này trở nên ít rõ ràng hơn với các kích thước khối lớn hơn, cho thấy rằng các mẫu truy cập bảng thưa phải cân nhắc cẩn thận việc tối ưu hóa phạm vi đọc.

Phụ Thuộc Vào Nhân CPU

Nhân xử lý thực thi lệnh I/O ảnh hưởng trực tiếp đến hiệu suất lưu trữ. Các nhân CPU có tần số cao hơn đạt được thông lượng I/O vượt trội hơn. Các nhân lớn hoạt động ở 3.3GHz đạt 1 GB/s cho các lượt đọc ngẫu nhiên 4KB, trong khi các nhân nhỏ ở 2.2GHz chỉ đạt 760 MB/s. Sự khác biệt này bắt nguồn từ việc trình điều khiển UFS cần xử lý ngắt và quản lý hàng đợi—tốc độ xung nhịp cao hơn cho phép xử lý nhanh hơn các tác vụ liên quan đến I/O.

Giới Hạn Kiến Trúc Hàng Đợi Đơn

Khác với các giải pháp NVMe, lưu trữ UFS di động hoạt động với một hàng đợi lệnh duy nhất thiếu khả năng đồng bộ nội tại. Việc sử dụng nhiều nhân cho các hoạt động I/O thực tế làm giảm hiệu suất lên tới 40% do tranh chấp hàng đợi lệnh. Giới hạn kiến trúc cơ bản này có nghĩa là các phương pháp I/O đồng thời không mang lại lợi ích trên các thiết bị di động.

Kiến Trúc Suy Luận LLM và Xử Lý Hai Giai Đoạn

Suy luận mô hình ngôn ngữ hoạt động qua hai giai đoạn tính toán riêng biệt với đặc điểm hiệu suất cơ bản khác nhau, mỗi giai đoạn đòi hỏi chiến lược tối ưu hóa phù hợp.

Giai Đoạn Tiền Đầy: Xử Lý Prompt

Giai đoạn tiền đầy xử lý toàn bộ prompt của người dùng trong một vòng lặp để tạo token đầu tiên. Khối lượng công việc tập trung này tạo ra yêu cầu tính toán lớn, khiến thời gian đến token đầu tiên (TTFT) trở thành chỉ số hiệu suất quan trọng. Toàn bộ prompt như một đầu vào đặc, được xử lý tập trung qua các lớp transformer của mô hình.

Giai Đoạn Giải Mã: Tạo Dữ Liệu Theo Thứ Tự

Sau giai đoạn tiền đầy, giai đoạn giải mã tạo ra các token đầu ra theo thứ tự tự hồi quy. Mỗi token mới sinh ra làm đầu vào cho vòng lặp tiếp theo, tiếp tục cho đến khi hoàn thành chuỗi hoặc sinh ra token EOS. Vì mỗi vòng lặp chỉ xử lý một token, tải tính toán nhẹ hơn nhưng thông lượng bị giới hạn bởi thời gian giữa các token (TBT). Giai đoạn này phản ánh trải nghiệm tốc độ phản hồi của người dùng.

Kích Hoạt Thưa: Cơ Hội Hiệu Quả

Tại Sao Sự Thưa Quan Trọng

Các transformer hiện đại như GPT-4 và Llama-2 sử dụng kiến trúc chỉ gồm bộ giải mã với các khối lặp lại: cơ chế attention và Mạng Feed-Forward (FFN). Các biến thể gần đây sử dụng Group Query Attention chuyển trọng số tính toán nặng về các khối FFN, hiện chiếm khoảng 80% tham số của mô hình.

Các khối FFN dùng các hàm kích hoạt từ họ ReLU tạo ra các mẫu thưa tự nhiên: hầu hết các neuron (được biểu diễn dưới dạng hàng và cột trong ma trận trọng số) tạo ra đóng góp đầu ra tối thiểu. Các neuron không hoạt động này có thể bỏ qua mà không ảnh hưởng đáng kể đến kết quả cuối cùng. Tạo ra một bảng thưa các hoạt động neuron dự đoán cho phép giảm đáng kể tính toán.

Tối Ưu Hóa Dựa Trên Dự Đoán

Tình trạng hoạt động của neuron có thể được dự đoán chính xác trước khi tính toán FFN. Các nghiên cứu trước đây bao gồm PowerInfer và DejaVu chứng minh rằng các mạng MLP nhẹ dự đoán hoạt động neuron trước mỗi khối FFN đạt độ chính xác cao. Phương pháp dự đoán này biến các hoạt động thưa vốn có thành một cơ hội tối ưu hóa có thể khai thác, giảm lượng tính toán cần thiết và tăng tốc suy luận.

Thách Thức Tích Hợp

Phức tạp thực sự xuất hiện khi kết hợp khai thác hoạt động thưa với giới hạn lưu trữ di động. Các cấu trúc bảng thưa dự đoán phải phù hợp với mẫu truy cập I/O của lưu trữ—tận dụng các phạm vi đọc nhỏ, tập trung trong các cửa sổ 128MB để duy trì ngưỡng băng thông 1 GB/s trong khi giảm thiểu tranh chấp trên kiến trúc UFS hàng đợi đơn.

Ảnh Hưởng Thực Tiễn Cho AI Trên Thiết Bị

Các hệ thống LLM di động hiệu quả phải đồng thời giải quyết hai chiều tối ưu hóa: khai thác các mẫu neuron thưa qua các cơ chế dự đoán trong khi tôn trọng đặc điểm I/O độc đáo của lưu trữ di động. Tương tác giữa các mẫu tính toán thưa và mẫu truy cập lưu trữ quyết định hiệu suất thực tế—không thể tối ưu hóa riêng lẻ mà không làm tổn hại đến hiệu quả tổng thể của hệ thống.

Nhóm Nghiên Cứu: Zhenliang Xue và Yixin Song (Các tác giả đồng chính), cùng với Zeyu Mi, Le Chen, Yubin Xia, và Haibo Chen từ Viện Hệ Thống Song Song và Phân Tán (IPADS), Đại học Giao thông Thượng Hải

Phân tích này dựa trên các nghiên cứu học thuật có sẵn theo giấy phép CC BY 4.0, tập trung vào đặc điểm hiệu suất đọc trọng số.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.