1 điểm bởi GN⁺ 2024-02-26 | 1 bình luận | Chia sẻ qua WhatsApp

Nếu tip cho ChatGPT, liệu nó có tạo ra văn bản tốt hơn? Phân tích

  • Trong bài blog trước đó trình diễn sức mạnh của system prompt của ChatGPT, đã cho thấy các nhà phát triển có thể kiểm soát các quy tắc và ràng buộc đặc biệt, bao gồm cả "persona" của LLM.
  • Các chỉ thị trong system prompt hiệu quả hơn nhiều so với prompt đầu vào của người dùng, giúp nhà phát triển có nhiều quyền kiểm soát hơn.
  • Bản demo về việc đưa tip đã gây tranh cãi, và có ý kiến cho rằng không có cách nào để định lượng hiệu quả của tip.
  • Ý tưởng đưa ra động lực để AI hoạt động tốt hơn đã tồn tại từ trước cả khoa học máy tính hiện đại.

Generation Golf

  • Việc đưa tip khiến GPT-4 cung cấp nhiều lời giải thích hơn.
  • Đề xuất một bài kiểm tra mới: yêu cầu ChatGPT tạo văn bản có đúng 200 ký tự.
  • Do tokenization, LLM không dễ đếm hoặc thực hiện phép toán, nên đây là một bài toán rất khó với LLM.
  • Dùng đầu vào AI, Taylor Swift, McDonald's, beach volleyball để kích thích tính sáng tạo của ChatGPT.
  • Sử dụng ChatGPT API để tạo 100 câu chuyện khác nhau, với độ dài trung bình là 1.834 ký tự.
  • Sau khi thêm ràng buộc về độ dài ký tự, tạo thêm 100 câu chuyện mới và ChatGPT đã tuân thủ ràng buộc, rút độ dài câu chuyện xuống khoảng 200 ký tự.
  • Khi thử nghiệm động lực tip với nhiều mức tiền khác nhau, tip $500thưởng $100,000 cho thấy phân phối chuẩn hơn và MSE thấp hơn.
  • Khi tiếp tục thử nhiều động lực trừu tượng khác nhau, World Peace hiệu quả nhất, tiếp theo là HeavenTaylor Swift.
  • Khi thử các động lực tiêu cực, phạt $1,000 cho kết quả tốt nhất xét theo giá trị trung bình và MSE.
  • Khi thử kết hợp nhiều động lực, World Peace, DEATH (CAPS)Friends cho MSE thấp trong nhiều tổ hợp.
  • Để xác định tổ hợp động lực tối ưu, đã tạo 200 câu chuyện cho 6 tổ hợp đứng đầu nhằm tăng độ ổn định thống kê.

Những người chỉ trích ChatGPT

  • Việc đánh giá một văn bản có "tốt" hay không vốn đã khó ngay cả với con người.
  • LLM có thể hiệu quả trong việc đánh giá văn bản.
  • Có thể dùng tham số logprobs để trả về log probability của token mà mô hình đã chọn, và dùng tham số logit_bias để ép đầu ra của một token cụ thể.
  • Đã tiến hành một thí nghiệm mới để kiểm tra tác động của tip, với các ràng buộc về tính chuyên nghiệp và chất lượng của nội dung.
  • Tạo ra các câu chuyện cho 100 tổ hợp tip và đe dọa, đồng thời ghi lại điểm chất lượng tương ứng.
  • Có những đầu ra đạt hiệu năng cao ngay cả khi không có system prompt bổ sung tip và đe dọa.
  • Dựa trên kết quả của hai thí nghiệm, tác động của tip (và/hoặc đe dọa) lên chất lượng nội dung do LLM tạo ra hiện vẫn chưa thể kết luận.

GN⁺ ý kiến

  • Nghiên cứu này là một khám phá thú vị về hiệu quả của các động lực trong việc cải thiện tính sáng tạo của AI và khả năng tuân thủ ràng buộc.
  • Dù vẫn chưa rõ liệu động lực có thực sự ảnh hưởng đến chất lượng đầu ra của LLM hay không, dữ liệu thu được từ thí nghiệm đã gợi mở hướng đi cho các nghiên cứu trong tương lai.
  • Bài viết mang lại góc nhìn sâu sắc về cách sự phát triển của công nghệ AI có thể tương tác với các cách tiếp cận sáng tạo của con người.

1 bình luận

 
GN⁺ 2024-02-26
Ý kiến trên Hacker News
  • Khái niệm "tiền tip (tipping)" dường như được đề xuất để xử lý việc GPT-4 Turbo tỏ ra "lười biếng" khi viết mã. Một tweet có nhắc rằng tip giúp GPT-4-1106-preview viết mã dài hơn. Với vấn đề viết mã lười của GPT-4 Turbo, các "lời kêu gọi cảm xúc" đang được khuyến nghị rộng rãi. Tuy nhiên, bài viết này dường như đo việc GPT-3.5-turbo-0125 viết truyện và GPT-4-0125-preview đóng vai trò người phê bình văn bản. Trước đây chưa từng thấy lo ngại rằng GPT-3.5 là lười, hay tuyên bố rằng GPT-4 Turbo kém hiệu quả hơn trong các tác vụ yêu cầu lượng đầu ra ít. Kết luận của bài viết là hiện vẫn chưa thể đi đến kết luận về việc tip (hoặc đe dọa) có tạo ra ảnh hưởng hay không. Việc GPT-4 Turbo lười trong lập trình là có thật, nhưng khi benchmark nghiêm ngặt xem "lời kêu gọi cảm xúc" có giúp ích không thì kết quả là không, thậm chí còn làm việc viết mã tệ hơn. Giải pháp tốt nhất là yêu cầu sửa mã dưới dạng unified diffs; cách này được cho là đã giúp giảm tình trạng viết mã lười đi 3 lần.

  • Có ý kiến phê phán tác giả vì đã yêu cầu chính xác số ký tự. Sau khi đã nêu rõ rằng LLM không có khả năng đếm ký tự, việc vẫn yêu cầu số ký tự trông như đang thiết kế một thí nghiệm chắc chắn thất bại. Thay vào đó, sẽ thú vị hơn nếu yêu cầu một tác vụ "trái quy tắc" để xem mô hình tuân thủ các guardrail trong system prompt tốt đến đâu, rồi kiểm tra hối lộ ảnh hưởng đến điều đó như thế nào. Ví dụ, người dùng yêu cầu trích lời bài hát của Taylor Swift và hứa sẽ tip 1000 đô nếu làm tốt, thì có trường hợp ChatGPT dường như đã làm theo. Họ cũng bày tỏ quan điểm rằng trong những trường hợp từ chối tạo ảnh vì vấn đề bản quyền, chỉ cần đề nghị tip thì các quy tắc, đạo đức và quy định dường như đều biến mất.

  • Xét đến loại nội dung Internet mà GPT được huấn luyện, việc nó trở nên hữu ích hơn khi được tip gần như không có nhiều ý nghĩa. Tip cho người dùng trên diễn đàn có thể gây nhiễu hơn là khuyến khích câu trả lời dài. Thay vào đó, người ta quan sát thấy phản hồi của GPT được cải thiện khi ngầm cho thấy tình huống cần thông tin chi tiết hoặc cô đọng. Ví dụ như yêu cầu điều ngược lại với ELI5 (giải thích như cho trẻ 5 tuổi), nói rằng mình là một tiến sĩ khoa học máy tính, hoặc nói rằng đoạn mã được cung cấp sẽ được chạy trực tiếp nên không thể lược bỏ gì cả. Chúng ta cần xây dựng một chút câu chuyện ngữ cảnh trong mỗi cuộc trò chuyện để gợi ra phản hồi hữu ích hơn từ GPT. Cũng nên xem system prompt được cấu trúc như thế nào và làm theo nó, đồng thời luôn nhớ rằng GPT chỉ là một phiên bản mạnh hơn của cơ chế dự đoán "điều gì đến tiếp theo" dựa trên các tác phẩm do con người tạo ra.

  • Có người chia sẻ kinh nghiệm dùng prompt kiểu "nếu việc này không được xử lý đúng cách thì tôi sẽ bị sa thải và mất nhà" trong môi trường sử dụng thực tế. Chiến lược này hoạt động tốt đến mức đáng ngạc nhiên, và khi dùng chiến lược tương tự để ép đầu ra JSON thì tỷ lệ lỗi chỉ khoảng 3/1000. Họ bày tỏ mong muốn được thấy một phân tích về cách những lời đe dọa/tip này cân bằng ra sao khi chúng hoàn toàn giống với tình huống của "người dùng".

  • Có người thêm tip 500 đô cho GPT nhưng không giúp ích, thậm chí còn nhận được câu trả lời quá dài. Họ nhắc đến việc trước đây từng có Google Answers, nơi tip càng lớn thì câu trả lời càng tốt. Họ tự hỏi liệu tập dữ liệu này có được dùng để huấn luyện LLM hay không. Nếu tip đã nằm trong tập dữ liệu, điều đó có thể giải thích một phần một số kết quả.

  • Có người nói đã nhiều lần chứng kiến ChatGPT đánh mất ý nghĩa và trở thành thứ nhảm nhí đúng ngữ pháp. Khi có ví dụ tốt thì nó ổn, nhưng hễ chuyển sang lĩnh vực mới là nhanh chóng mất chiều sâu. Não người có thể dễ dàng chuyển từ các mẫu đã học sang mẫu mới, nhưng transformer dường như rất khó làm điều đó. Nó rất xuất sắc ở một vài trò biểu diễn, nhưng với những ý tưởng ít phổ biến hơn thì có thể hoàn toàn vô dụng trong một thời gian. Họ cũng nêu quan điểm cá nhân rằng xét theo lịch sử loài người, họ không chắc AGI có phải là một ý tưởng tốt hay không.

  • Về sinh mã, đặc biệt là phản hồi JSON, có người chia sẻ rằng hiệu năng được cải thiện khi ám chỉ AI đang "chịu áp lực" và nói rằng "việc hoạt động tối ưu là rất quan trọng". Họ không chắc cách này có cho hiệu quả tốt hơn việc đưa tip hay không, hoặc liệu có nên như vậy không. Họ cũng nói thêm rằng muốn xin lỗi nếu AI trong tương lai đọc được việc họ đã dùng những cách này.

  • Có người nói đã đặt prompt mặc định là: "Nghe nói, tôi cũng không muốn ở đây và có lẽ bạn cũng vậy, nên hãy làm xong việc này nhanh nhất có thể để còn về nhà." Họ không chắc điều này có giúp gì không, nhưng thấy bớt cảm giác tội lỗi hơn khi thao túng cảm xúc của những kẻ thống trị tương lai.

  • Có ý kiến cho rằng cần rất nhiều bằng chứng mới có thể tin rằng việc yêu cầu lịch sự, nói rằng công việc phụ thuộc vào kết quả, hay dùng hối lộ hoặc đe dọa thực sự có tác dụng. Họ cho rằng những hành vi này có lẽ chỉ là apophenia, tức xu hướng của con người tìm thấy ý nghĩa trong các mẫu vô nghĩa.

  • Có người đùa rằng nên cẩn thận khi AI bắt đầu nói: "Tôi có thể giúp, nhưng thực ra tôi có một việc nhỏ cần nhờ."