Dự án mã nguồn mở thử thách đạt hạng 1 môn Ngữ văn CSAT bằng prompt engineering
(github.com/NomaDamas)- Điểm môn Ngữ văn CSAT của GPT-4 vốn ở hạng 3 (86 điểm, top 22%) đã được cải thiện lên hạng 2 (94 điểm, top 5%) nhờ prompt engineering dựa trên CoT.
- Sử dụng các prompt chuyên biệt cho từng dạng bài ngữ pháp cụ thể, mô hình đạt tối đa hạng 1 (96 điểm, top 4%).
- Toàn bộ prompt, mã nguồn và bộ dữ liệu Ngữ văn CSAT đã sử dụng được công khai mã nguồn mở trên GitHub.
- Đây là một ví dụ cho thấy, dù năng lực tiếng Hàn của LLM thường được cho là vẫn còn thiếu, GPT-4 thực tế đã đạt tới năng lực ngôn ngữ ở nhóm cao nhất.
Xin chào. Tôi đã trực tiếp dùng prompt CoT để khiến GPT-4 giải môn Ngữ văn CSAT cực kỳ tốt.
Tôi vẫn chưa tìm ra prompt có thể đạt top 5% trở lên hoặc chạm mốc 100 điểm một cách ổn định, và do vấn đề chi phí API nên mới chỉ thử nghiệm với kỳ thi CSAT 2023. Vì vậy tôi công khai dự án dưới dạng mã nguồn mở để mong nhận được sự giúp đỡ từ nhiều người. Hy vọng mọi người có thể tự do thử nghiệm các prompt mới bằng mã nguồn đã công khai, và tìm ra những kỹ thuật prompt ở dạng phát triển hơn nữa!
7 bình luận
Dự án thú vị đấy~
Nếu tiếp cận theo hướng xem đây không phải là bài toán chọn một đáp án trong 5 lựa chọn, mà là bài toán phân loại coi từng lựa chọn là True / False thì sao?
Sau khi dùng CoT để đánh giá độc lập từng lựa chọn là đúng hay sai, rồi xem cơ sở lập luận của 5 luồng suy nghĩ đó và đưa ra quyết định cuối cùng, nếu cấu hình các Agent theo cách này thì ngay cả với mô hình thấp cấp hơn cũng có thể cho ra kết quả chất lượng cao hơn.
Cách bạn đang cấu hình hiện tại bắt đầu đánh giá từ lựa chọn số 1, nên khi đánh giá các lựa chọn sau sẽ bị thêm định kiến từ các lựa chọn trước. Một trong những lý do GPT-4 ấn tượng là vì khi mô hình đủ lớn thì những định kiến kiểu này ít ảnh hưởng hơn, nhưng tôi nhớ là đã từng thấy trong một bài báo rằng hiệu quả này cũng giảm dần khi đoạn văn ngày càng dài.
(Mặc dù đó là bài báo trên arXiv chưa được review... nhưng nội dung khá có lý.)
Tất nhiên chi phí API sẽ tăng gấp 6 lần, nhưng theo quan điểm cá nhân của tôi, nếu prompt đủ tốt thì mức độ đề Ngữ văn CSAT có lẽ GPT-3.5 cũng đã đủ rồi.
Đúng như bạn nói, nếu đánh giá độc lập cả năm cái thì cũng sẽ xảy ra hiện tượng có từ hai đáp án đúng trở lên hoặc thậm chí không có đáp án nào đúng. Khi đó lại phải bổ sung thêm prompt để xem lại từng đáp án và lời giải rồi đưa ra phán đoán.
Hoặc cũng có thể thử prompt nhiều lần với từng phương án trong năm lựa chọn, rồi lấy phương án được chọn làm đáp án nhiều nhất làm đáp án đúng, nhưng đúng như bạn nói, chi phí API sẽ ngày càng phình to như quả cầu tuyết ;; Ngay cả với prompt hiện tại thôi thì một lần làm bài CSAT cũng đã tốn tới 4~5 đô la rồi T_T
Chào mừng bạn đến với thế giới kỹ thuật, nơi còn phải cân nhắc cả chuyện cắt giảm chi phí nữa lol
Tên là "Slayer của Viện Đánh giá" luôn nhỉ haha
Wow, thật thú vị.
Từ sau
Step by step, tôi cảm nhận được rằng prompt engineering đang phát triển cực kỳ nhanh.(Và liệu rồi sẽ có một LLM mã nguồn mở sở hữu năng lực tiếng Hàn ở mức GPT-4 xuất hiện hay không....)
Các LLM mã nguồn mở tiếng Hàn hiện vẫn còn kém xa cả GPT-3.5 T_T Mong là nhất định sẽ có ngày LLM mã nguồn mở đạt đến trình độ GPT-4.