5 Dấu Hiệu Lớn Nhất Chứng Tỏ Một Thứ Được Viết Bằng AI

Decrypt

2025-11-17 19:03:00

Tóm tắt

Các nghiên cứu phong cách học mới xác định các mô hình lặp đi lặp lại trong văn xuôi AI, bao gồm nhịp điệu có thể dự đoán, cảm xúc đồng nhất và sự đa dạng từ vựng thấp.
Một phân tích của Washington Post về 328,744 tin nhắn ChatGPT cho thấy sự phụ thuộc nặng nề vào biểu tượng cảm xúc, những từ ưa thích và cụm từ sáo rỗng “Không chỉ X, mà còn Y.”
Từ vựng phát triển nhanh chóng, nhưng thói quen cấu trúc như sự đối xứng, sự gọn gàng và sự song song tiêu cực vẫn tồn tại qua các thế hệ mô hình.

Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.

Khám phá SCENE

Ngày nay, mọi thứ có phải đều được viết bởi AI không? Bài viết này có phải không?

Sự lan rộng của các mô hình ngôn ngữ lớn đã thúc đẩy một loại chữ viết mới, đầy thận trọng: mọi người giờ đây có thể đọc một đoạn văn và tự hỏi ai—hoặc cái gì—đã viết nó. Mối lo lắng đó tồn tại với lý do chính đáng.

Các nghiên cứu gần đây tiếp tục cho thấy rằng dòng chảy ngày càng tăng của văn bản do máy tạo ra khác với văn viết của con người theo những cách ngày càng không tinh tế, từ việc chọn từ cụ thể đến những đặc điểm cấu trúc dễ nhận diện. Những mô hình này quan trọng vì chúng ảnh hưởng đến nhiều hơn chỉ là bài luận ở trường và luận văn nghiên cứu; chúng định hình các thông điệp doanh nghiệp, báo chí và email cá nhân theo những cách có thể làm mờ đi sự tin tưởng hoặc tính xác thực.

Các nhà nghiên cứu khảo sát các kỹ thuật phát hiện stylometric đã phát hiện ra các mẫu nhất quán, có thể đo lường được trong sự đa dạng từ vựng, cấu trúc mệnh đề và phân phối chức năng từ—một dấu vân tay thống kê tồn tại qua các nhiệm vụ và gợi ý. Trong khi những dấu hiệu này đang thu hẹp với mỗi lần cải tiến mô hình—OpenAI vừa sửa lỗi sự phụ thuộc quá mức vào dấu gạch nối dài, chẳng hạn—thì sự khác biệt giữa tác phẩm AI và những gì được viết bởi con người vẫn đủ lớn để thông báo cách mà độc giả và biên tập viên tiếp cận với những văn bản được trau chuốt đáng ngờ.

Một phân tích gần đây của Washington Post về 328.744 tin nhắn ChatGPT củng cố điểm này bằng dữ liệu thực tế. Nó phát hiện ra rằng mô hình rất phụ thuộc vào emoji, một bảng màu từ ngữ hạn chế và dấu hiệu được mọi người yêu thích, "song song tiêu cực: “Không phải là X, mà là Y;” hoặc “Ít về X và nhiều hơn về Y.”

Bài Post cũng cảnh báo về sự tự tin thái quá: không có đặc điểm nào trong số này chứng minh việc viết bởi AI; chúng chỉ làm tăng xác suất. Tuy nhiên, khi một tác phẩm viết thể hiện nhiều đặc điểm trong số đó, tín hiệu trở nên khó bỏ qua hơn.

Dưới đây là năm tín hiệu mạnh mẽ nhất cho thấy một văn bản có thể đã được tạo ra bởi máy, mỗi tín hiệu đều dựa trên nghiên cứu hiện tại.

5 dấu hiệu AI phổ biến nhất

Sự đối lập tiêu cực và sự đơn giản hóa quá mức

AI lạm dụng cấu trúc hấp dẫn, kịch tính “Đó không phải là X, mà là Y,” và họ hàng của nó, “không chỉ là X, mà là Y.” Những cấu trúc này tạo ra ảo tưởng về cái nhìn sâu sắc trong khi cung cấp rất ít. Các nghiên cứu stylometric cho thấy rằng đầu ra của LLM có xu hướng nghiêng về các cấu trúc mệnh đề cân bằng, công thức thay vì nhịp điệu không đồng đều, trực giác mà các nhà văn con người sử dụng. Trong tập dữ liệu của Post, các biến thể của “không chỉ là X, mà là Y” đã xuất hiện trong khoảng 6% tất cả các tin nhắn tháng Bảy—một tỷ lệ đáng kinh ngạc cho một đặc điểm tu từ duy nhất. 2. Cấu trúc quá ngăn nắp và nhịp điệu rõ ràng đồng nhất

Văn bản được tạo ra bởi LLM thường có cảm giác như được viết bởi một người chỉnh sửa một cách cuồng nhiệt nhưng không bao giờ sáng tác tự do. Các đoạn văn theo các mẫu sách giáo khoa, các chuyển tiếp rất trơn tru, và nhịp điệu gần như đều đặn theo cách toán học, theo một phân tích gần đây trong Nature. Viết của con người—ngay cả khi viết cẩn thận—thường phản ánh những sự lạc đề, gián đoạn, thay đổi âm điệu và nhịp điệu không đối xứng. Công việc phân tích phong cách so sánh đầu ra của LLM với các truyện ngắn của con người cho thấy rằng các mô hình thể hiện sự biến động hẹp hơn nhiều về độ dài câu và hình thức cú pháp. 3. Giọng điệu cảm xúc được làm mượt và sự dè dặt quá lịch sự

AI có xu hướng nghe thân thiện theo cách mà không người lớn nào thực sự nghe giống như vậy trừ khi họ làm việc trong bộ phận nhân sự hoặc hỗ trợ khách hàng. Những cụm từ như “Thật dễ hiểu rằng…” hoặc những kết thúc nhẹ nhàng tóm tắt mọi thứ ( “Cuối cùng…” ) xuất hiện với tần suất không tự nhiên. Các đánh giá định lượng về các phương pháp phát hiện lưu ý rằng văn bản do LLM tạo ra thể hiện cảm xúc đồng nhất hơn và ít biến động cảm xúc đột ngột hơn so với văn bản của con người. 4. Khái niệm mơ hồ và từ vựng “an toàn” đang phát triển

Các mô hình phụ thuộc nhiều vào danh từ chung—“hệ sinh thái,” “khung,” “động”—và các động từ như “tận dụng,” “mở khóa,” hoặc “naviGate” khi họ thiếu thông tin cụ thể. Các nghiên cứu nhất quán cho thấy sự đa dạng từ vựng thấp hơn và sự danh từ hóa nặng hơn trong văn bản AI. Các phân tích của Washington Post và Nature cũng phát hiện rằng một số cụm từ sáo rỗng của AI không tĩnh: từ “đào sâu” nổi tiếng đã phần nào phai nhạt, được thay thế bởi những từ ưa thích mới như “cốt lõi” và “hiện đại.” Điều này quan trọng vì từ vựng phát triển nhanh; cấu trúc thì đáng tin cậy hơn bất kỳ danh sách từ cố định nào. 5. Các điều khoản cân bằng và cách diễn đạt cẩn thận rõ ràng

Các mô hình ngôn ngữ lớn (LLMs) thích sự đối xứng: “Trong khi X là đúng, Y cũng quan trọng,” hoặc “Cho dù bạn là người mới bắt đầu hay là một chuyên gia…” Những cấu trúc này cảm thấy an toàn vì chúng tránh né sự cam kết. Các nghiên cứu về phong cách cho thấy rằng văn bản AI sử dụng quá mức một số mẫu từ chức năng và cấu trúc mệnh đề với tỷ lệ khác biệt rõ rệt so với các cơ sở của con người. Con người có xu hướng hoặc là đột ngột hơn hoặc là diễn giải hơn; máy móc luôn hướng tới sự cân bằng ngoại giao mỗi lần.

Nhân tiện, hầu hết bài viết này được viết bởi AI.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.