13 điểm bởi xguru 2023-07-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Kỹ thuật prompt giống như giả kim thuật: không có cách rõ ràng nào để dự đoán điều gì sẽ hiệu quả nhất
  • Để tìm ra prompt phù hợp nhất, không còn cách nào khác ngoài việc liên tục thử nghiệm
  • gpt-prompt-engineer là công cụ giúp việc thử nghiệm này trở nên dễ dàng hơn rất nhiều
  • Nếu bạn mô tả công việc và cung cấp một số test case đơn giản, hệ thống sẽ tạo, kiểm thử và đánh giá nhiều prompt để tìm ra prompt tốt nhất
  • Các tính năng được cung cấp
    • Tạo prompt: dùng GPT-4 và GPT-3.5-Turbo để tạo nhiều prompt khác nhau
    • Kiểm thử prompt: kiểm tra từng prompt dựa trên test case, rút ra hiệu năng và xếp hạng bằng hệ thống chấm điểm ELO
    • Hệ thống xếp hạng ELO: mỗi prompt bắt đầu với mức 1200 ELO, cạnh tranh với nhau và thay đổi theo hiệu năng. Nhờ đó có thể thấy prompt nào vượt trội nhất
    • Phiên bản Classification: notebook được thiết kế cho các tác vụ phân loại. Đánh giá độ chính xác của từng test case và hiển thị điểm của từng prompt dưới dạng bảng
    • Weights & Biases Logging: hỗ trợ ghi log các giá trị như nhiệt độ, số token tối đa, prompt hệ thống/người dùng, test case, xếp hạng ELO cuối cùng, v.v.

Nội dung GN⁺ tóm tắt

  • Kỹ thuật prompt là giả kim thuật lấy thử nghiệm làm cốt lõi.
  • gpt-prompt-engineer là công cụ đưa kỹ thuật prompt lên một tầm cao mới.
  • Công cụ này dùng GPT-4 và GPT-3.5-Turbo để tạo prompt dựa trên use case và test case.
  • Hệ thống dùng cơ chế xếp hạng ELO để kiểm thử và xếp hạng các prompt.
  • Thông qua hệ thống ELO, có thể dễ dàng xác định prompt hiệu quả nhất.
  • gpt-prompt-engineer cũng có phiên bản cho các tác vụ phân loại.
  • Công cụ này đánh giá độ chính xác của test case và cung cấp điểm cho từng prompt.
  • Có thể theo dõi cấu hình và thứ hạng thông qua tính năng ghi log tùy chọn với Weights & Biases.
  • Để dùng gpt-prompt-engineer, cần mở notebook trên Google Colab hoặc Jupyter notebook cục bộ.
  • Thêm khóa API OpenAI và chọn phiên bản mô hình phù hợp.
  • Xác định use case và test case.
  • Chọn số lượng prompt cần tạo.
  • Gọi hàm phù hợp để tạo và kiểm thử prompt.
  • Xếp hạng ELO hoặc điểm số cuối cùng sẽ được hiển thị trong bảng.
  • Dự án hoan nghênh mọi đóng góp.
  • Dự án này được phát hành theo giấy phép MIT.
  • Để biết thêm chi tiết, hãy liên hệ Matt Shumer.

1 bình luận

 
GN⁺ 2023-07-13
Ý kiến trên Hacker News
  • Không benchmark dựa trên phản hồi thực tế của mô hình, mà thay vào đó xếp hạng theo khả năng của GPT-4 trong việc tưởng tượng hiệu suất của prompt.
  • Sự phổ biến của công cụ này среди các nhà phát triển AI có thể đến từ sức hấp dẫn của việc dùng LLM để đánh giá LLM, nhưng không có đường tắt nào cho việc đánh giá hiệu năng trong ứng dụng thực tế.
  • Prompt engineering không được xem là một ngành khoa học chính xác như các lĩnh vực kỹ thuật truyền thống.
  • Có những lo ngại về chi phí và độ khó khi dùng GPT-4 và công cụ này, cũng như liệu việc thay đổi prompt sau khi đã tìm được prompt tối ưu có còn đáng giá hay không.
  • Việc tạo prompt để làm prompt engineering có thể được xem là một dạng meta-engineering.
  • Có lo ngại về việc GPT-Engineer thu thập dữ liệu người dùng và động cơ đằng sau việc đó.
  • Một số người đề xuất dùng GPT để tạo prompt nhằm giảm hơn nữa lượng đầu vào của con người.
  • Bài viết không giải thích cách xếp hạng các prompt.