Các nhà phát triển đang khiến Claude nói như một người hang động để cắt giảm chi phí—Và nó hoạt động

Decrypt

Tóm tắt ngắn gọn

  • Một nhà phát triển phát hiện rằng việc ép Claude nói như một người hang động khiến số token đầu ra giảm mạnh, và do đó chi phí cũng giảm, lên tới 75%.
  • Internet ngay lập tức biến điều đó thành một kỹ năng trên GitHub.
  • Với Anthropic tính phí cao đến vậy cho token đầu ra, chế độ grunt-mode không còn là trò đùa và thực sự trở thành một chiến lược tiết kiệm ngân sách.

Nằm đâu đó giữa kỹ thuật viết prompt và nghệ thuật trình diễn, một nhà phát triển đã đăng một phát hiện lên Reddit khiến cộng đồng AI bật cười trước khi chịu chú ý: dạy Claude giao tiếp như một con người thời tiền sử và xem hóa đơn token của bạn giảm đi tới 75%. Bài đăng đã xuất hiện trên r/ClaudeAI tuần trước và kể từ đó đã tích lũy hơn 400 bình luận và 10K lượt bình chọn—một tổ hợp hiếm giữa hiểu biết kỹ thuật chân chính và hài hước kiểu phi lý mà internet thường thưởng.

Cơ chế rất đơn giản. Thay vì để Claude khởi động bằng những lời xã giao, hãy thuật lại từng bước nó thực hiện, và kết thúc bằng một lời mời giúp đỡ thêm, nhà phát triển sẽ ép mô hình chỉ dùng các câu ngắn gọn, đã được lược bỏ. Ưu tiên công cụ trước, ưu tiên kết quả trước, không giải thích. Một tác vụ tìm kiếm web thông thường vốn chạy khoảng 180 token đầu ra đã giảm xuống khoảng 45. Người đăng bài gốc tuyên bố mức giảm đầu ra lên tới 75%, đạt được bằng cách khiến mô hình nghe như thể nó vừa mới phát hiện ra lửa.

Nói theo kiểu người thời hang động, như một người dùng Reddit đã nói: “Sao phí thời gian nói nhiều chữ khi vài chữ cũng làm được trò đó?” Thứ mà kỹ thuật này không đụng tới là ngữ cảnh đầu vào: toàn bộ lịch sử cuộc hội thoại, các tệp đính kèm và các chỉ dẫn hệ thống mà mô hình đọc lại ở mọi lượt. Thông thường, phần đầu vào này vượt xa phần đầu ra, đặc biệt trong các buổi lập trình dài hơn. Các buổi thực tế tính toàn bộ phần đầu vào này cho thấy mức tiết kiệm khoảng 25%, chứ không phải 75%. Vẫn có ý nghĩa, chỉ là không phải con số giật tít.  Cũng nên cho mô hình ăn những chỉ dẫn bình thường. Đừng đưa cho nó phần “nói chuyện kiểu người hang động”, vì nó có thể trượt xuống tình huống “rác vào, rác ra”.

Ngoài ra còn có câu hỏi về sự suy giảm trí tuệ. Một vài nhà nghiên cứu trong cuộc thảo luận cho rằng việc ép một AI sống trong một nhân vật ít tinh vi hơn có thể chủ động làm giảm chất lượng suy luận của nó—rằng các ràng buộc bằng lời có thể rò rỉ sang các khía cạnh nhận thức. Mối lo này vẫn chưa được giải quyết dứt khoát, nhưng đáng cân nhắc khi đánh giá kết quả. Kỹ năng hay, kỹ năng lan virally Bất chấp các lưu ý, kỹ thuật này đã tìm được một cuộc sống thứ hai trên GitHub gần như ngay lập tức. Nhà phát triển Shawnchee đã đóng gói các quy tắc thành một kỹ năng độc lập tương thích với Claude Code, Cursor, Windsurf, Copilot và hơn 40 tác nhân khác. Kỹ năng cô đọng cách tiếp cận thành 10 quy tắc: không dùng cụm đệm, thực thi trước khi giải thích, không bình luận kiểu meta, không lời mở đầu, không lời kết, không thông báo công cụ, chỉ giải thích khi cần, để mã nói thay, và coi lỗi là những thứ cần sửa thay vì kể lại. Các benchmark trong repo, được xác minh bằng tiktoken, cho thấy giảm token đầu ra 68% cho các tác vụ tìm kiếm web, 50% cho các chỉnh sửa mã, và 72% cho các trao đổi hỏi-đáp—mức giảm trung bình 61% trên bốn tác vụ chuẩn.

Một repo song song của nhà phát triển Julius Brussee đã áp dụng một cách tiếp cận hơi khác, đóng khung cùng ý tưởng dưới dạng tệp SKILL.md với 562 ngôi sao trên GitHub. Đề bài: phản hồi như một người hang động thông minh, cắt bỏ bài viết (article), cụm đệm và lời xã giao, giữ nguyên toàn bộ phần cốt lõi kỹ thuật. Khối mã không thay đổi. Thông báo lỗi được trích dẫn y nguyên. Thuật ngữ kỹ thuật vẫn giữ nguyên. Người hang động chỉ nói phần “vỏ bọc” tiếng Anh quanh các sự thật.

Phiên bản này thậm chí còn có các chế độ khác nhau để ảnh hưởng đến mức độ bạn muốn lược bỏ, chuyển giữa Normal, Lite và Ultra. Các mô hình làm đúng cùng một công việc nhưng trả lời ngắn hơn nhiều, từ đó tạo ra một khoản tiết kiệm lớn theo thời gian.

Bối cảnh chi phí rộng hơn khiến trò đùa sắc cạnh hơn. Anthropic nằm trong số các mô hình đắt nhất xét theo giá trên mỗi token. Với các nhà phát triển chạy quy trình làm việc kiểu agentic có hàng chục lượt cho mỗi phiên, độ dài dòng đầu ra không phải là một lời phàn nàn về phong cách. Nó là một khoản mục chi phí. Nếu một “grunt” kiểu người hang động có thể thay thế bản tóm tắt năm câu về những gì mô hình vừa làm, thì các token được tiết kiệm sẽ cộng dồn qua hàng nghìn lượt gọi API. Kỹ năng người hang động có thể cài đặt chỉ bằng một lệnh thông qua skills.sh và hoạt động toàn cầu trên nhiều dự án. Dù nó có làm Claude bớt diễn đạt đôi chút hay không, nó đã khiến rất nhiều nhà phát triển ít bực mình hơn đáng kể.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận