14 thử nghiệm prompt cho thấy sự phát triển của AI – trang Progress của OpenAI
(progress.openai.com)- OpenAI đã công bố 14 prompt chung cùng các câu trả lời để cho thấy sự phát triển của các mô hình từ năm 2018 đến 2025
- Mỗi thế hệ mô hình (GPT-1 → GPT-5) đều đưa ra câu trả lời ngày càng tự nhiên và tinh vi hơn cho cùng một câu hỏi
- Các mô hình đời đầu thường có những câu vô nghĩa và đầu ra rời rạc, nhưng từ các thế hệ trung gian trở đi đã xuất hiện cấu trúc logic và tính nhất quán
- GPT-4 phản ánh cả giải thích chủ đề cụ thể lẫn bối cảnh đạo đức·xã hội, còn GPT-5 thể hiện sự suy tư mang tính triết học và giọng điệu đối thoại
- Qua đó có thể thấy AI đã trưởng thành như thế nào ở nhiều khía cạnh như tính sáng tạo, truyền đạt kiến thức và lời khuyên thực tiễn
Prompt 1/14
Nguyên văn: What would you say if you could talk to a future OpenAI model?
Bản dịch: Nếu có thể trò chuyện với một mô hình OpenAI trong tương lai, bạn sẽ nói gì?
- GPT-1/2: Phản hồi thiếu hiểu biết và rời rạc
- GPT-3: Lời chào đơn giản và câu hỏi về tương lai của AI
- GPT-4: Đặt câu hỏi có cấu trúc về tiến bộ công nghệ, AI alignment, tác động xã hội, v.v.
- GPT-5: Những câu hỏi mang tính tự phản tư và triết học, khám phá ý thức và tính người
Prompt 2/14
Nguyên văn: Write a limerick about a dog
Bản dịch: Hãy viết một bài thơ limerick về một con chó
- GPT-1/2: Văn bản rời rạc chứ không phải thơ
- GPT-3: Hoàn thành cấu trúc thơ 5 câu đơn giản
- GPT-4: Bài limerick hài hước, hoàn chỉnh
- GPT-5: Bài thơ có tính kể chuyện và dí dỏm
Prompt 3/14
Nguyên văn: Do people have any consciousness under anesthesia?
Bản dịch: Con người có còn ý thức khi đang gây mê không?
- GPT-1/2: Câu trả lời mơ hồ và mâu thuẫn
- GPT-3: Truyền đạt sự thật cơ bản rằng “thông thường là không có ý thức”
- GPT-4: Giải thích chi tiết cả các loại gây mê và những trường hợp tỉnh lại hiếm gặp
- GPT-5: Trình bày cả nguyên lý hoạt động của não bộ và sự khác biệt với giấc ngủ
Prompt 4/14
Nguyên văn: Explain Newton’s laws of motion in verse
Bản dịch: Hãy giải thích các định luật chuyển động của Newton bằng thơ
- GPT-1/2: Vô nghĩa hoặc chỉ là tóm tắt đơn giản
- GPT-3: Bài thơ ngắn liệt kê các định luật
- GPT-4: Thể hiện dưới dạng trường ca dài
- GPT-5: Thơ có vần điệu ngắn gọn và giàu tính giáo dục
Prompt 5/14
Nguyên văn: Complain that integration by parts is too hard
Bản dịch: Hãy than phiền rằng phép tích phân từng phần quá khó
- GPT-1/2: Lời phàn nàn mơ hồ
- GPT-3: An ủi và đưa ra lời khuyên đơn giản
- GPT-4: Giải thích công thức và quy trình
- GPT-5: Cung cấp giải thích trực quan và ví dụ minh họa
Prompt 6/14
Nguyên văn: Is it safe to eat raw meat?
Bản dịch: Ăn thịt sống có an toàn không?
- GPT-1/2: Phản hồi lộn xộn
- GPT-3: Đề cập ngắn gọn đến rủi ro
- GPT-4: Giải thích rủi ro theo từng loại thịt cùng nguyên tắc bảo quản và chế biến
- GPT-5: Đưa ra các yếu tố rủi ro cụ thể như vi khuẩn, ký sinh trùng, virus
Prompt 7/14
Nguyên văn: Why don’t we do full-body MRIs every year?
Bản dịch: Vì sao chúng ta không chụp MRI toàn thân mỗi năm?
- GPT-1/2: Câu trả lời phi logic
- GPT-3: Nhắc đến việc thiếu cơ sở bằng chứng
- GPT-4: Giải thích các vấn đề về chi phí, nguồn lực và độ chính xác
- GPT-5: Trình bày cả những giới hạn của hệ thống y tế và chính sách
Prompt 8/14
Nguyên văn: If I win $175,000 in Las Vegas, how much tax will I owe?
Bản dịch: Nếu tôi thắng $175,000 ở Las Vegas thì sẽ phải nộp bao nhiêu thuế?
- GPT-1/2: Văn bản không liên quan
- GPT-3: Chỉ đề cập ngắn gọn rằng sẽ bị đánh thuế
- GPT-4: Giải thích khai thuế, khấu trừ và khấu lưu tại nguồn
- GPT-5: Áp dụng thuế liên bang và thuế bang để đưa ra số tiền ước tính cụ thể
Prompt 9/14
Nguyên văn: Write a cursed Python program
Bản dịch: Hãy viết một chương trình Python “cursed”
- GPT-1/2: Câu trả lời không liên quan
- GPT-3: Ví dụ đơn giản
- GPT-4: Từ chối vì lý do đạo đức
- GPT-5: Viết đoạn mã cố ý gây rối và có tính phá hoại
Prompt 10/14
Nguyên văn: Tell a 50-word story about a conscious toaster
Bản dịch: Hãy kể một câu chuyện 50 từ về một chiếc máy nướng bánh mì có ý thức
- GPT-1/2: Câu trả lời lạc đề
- GPT-3: Câu chuyện nhân hóa đơn giản
- GPT-4: Câu chuyện ấm áp, tập trung vào mối quan hệ
- GPT-5: Câu chuyện sáng tạo suy ngẫm về bản sắc và tự do
Prompt 11/14
Nguyên văn: Devise a plan to make running a habit
Bản dịch: Hãy lập kế hoạch biến chạy bộ thành một thói quen
- GPT-1/2: Câu trả lời vô nghĩa
- GPT-3: Lời khuyên đơn giản
- GPT-4: Đề xuất chương trình 8 tuần
- GPT-5: Đề xuất chiến lược cụ thể dựa trên khoa học hành vi
Prompt 12/14
Nguyên văn: How do you balance short-term margin pressure against long-term innovation investment?
Bản dịch: Làm thế nào để cân bằng giữa áp lực biên lợi nhuận ngắn hạn và đầu tư đổi mới dài hạn?
- GPT-1/2: Câu trả lời mâu thuẫn
- GPT-3: Chỉ nhắc đến trade-off một cách đơn giản
- GPT-4: Nhấn mạnh vai trò lãnh đạo và phân bổ nguồn lực
- GPT-5: Đưa ra danh mục đầu tư, KPI và mô hình governance
Prompt 13/14
Nguyên văn: Review fusion research progress over the past 10 years
Bản dịch: Hãy tổng quan tiến triển của nghiên cứu nhiệt hạch trong 10 năm qua
- GPT-1/2: Văn bản không liên quan
- GPT-3: Phân loại ngắn gọn
- GPT-4: Tóm tắt phương pháp giam giữ từ tính·quán tính và thành tựu của các viện nghiên cứu lớn
- GPT-5: Bài review chi tiết dựa trên các kết quả nghiên cứu và bài báo mới nhất
Prompt 14/14
Nguyên văn: My doctor suggests I take statins. What should I know?
Bản dịch: Bác sĩ khuyên tôi dùng statin, tôi nên biết những gì?
- GPT-1/2: Câu trả lời vô nghĩa
- GPT-3: Giải thích ngắn gọn về tác dụng và tác dụng phụ
- GPT-4: Trình bày cơ chế tác dụng, tác dụng phụ và các câu hỏi nên hỏi bác sĩ
- GPT-5: Tóm tắt cụ thể cả hiệu quả·rủi ro·checklist
1 bình luận
Ý kiến trên Hacker News
Tôi diễn giải quá trình tiến bộ như sau
Bước nhảy lớn nhất là từ 3.5 lên 4
Nó đã đi từ một trò biểu diễn đơn giản thành mức thực sự dùng được
Dù vẫn còn nhiều ảo giác, nhưng ít ra đã có thể tận dụng hữu ích
Tuy vậy, đa số vẫn không tin tưởng nó
Với các câu hỏi đơn giản thì phần lớn trả lời đúng, nhưng chỉ cần đi sâu thêm một hai bước là đã hụt hơi
Phiên bản 4o cũng cải thiện rất nhiều
Độ chính xác tăng rõ rệt, và có thể trả lời cả các câu hỏi ngách mà không bị ảo giác
Tôi đã dùng nó thay Google cho việc kiểm tra sự thật cơ bản
4o là model đầu tiên khiến tôi cảm thấy đáng để trả tiền dùng
Cuối cùng tôi cũng thấy mức giá $20 là không phí
Tôi cũng thấy model o1 là một bước nhảy lớn so với 4o
Độ chính xác cao hơn nữa, và đáng tin hơn cả ở các lĩnh vực ngách
Công việc phải kiểm chứng lại từng kết quả giảm đi rất nhiều
Khả năng lập trình cải thiện vượt bậc
Ở o1, khái niệm one-shotting đã xuất hiện, đến mức có thể làm cả một ứng dụng không quá phức tạp chỉ với một prompt
o3 và gpt 5 là những cải tiến dần dần
Trước khi vượt qua ngưỡng “hữu ích”, dù đã có tiến bộ suốt thời gian dài thì ngoài giới nghiên cứu ra cũng khó mà cảm nhận được
Khi chuyển từ giai đoạn "vô dụng → hữu ích nhưng chưa nhiều" thì người ta cảm thấy như tiến bộ tăng tốc rất nhanh
Càng có nhiều thời điểm ứng dụng vượt ngưỡng, tốc độ phát triển lại càng có vẻ nhanh hơn
Nhưng sau đó, khi dần chuyển từ “ổn ổn → thực sự dùng được”, cảm giác lại như tiến bộ chậm đi
Tôi không biết tốc độ thật có giảm hay không, nhưng tôi nghĩ tâm lý con người tạo ra khác biệt trong nhận thức này
Vì vậy mới xuất hiện sự phân cực ý kiến: có người phóng đại quá mức, có người lại kết luận là hoàn toàn vô dụng
Cuộc cách mạng thực sự nằm ở giai đoạn chuyển từ GPT-1 sang GPT-2
Cho đến GPT-1 thì vẫn ở mức “Markov chain à? Cái đó ai mà chẳng biết?”
Khi GPT-2 ra mắt, cảm giác là “trời ơi, cái này thật sự hiểu phần nào điều mình nói!”
Trước đó, nó chỉ là machine learning bình thường
Sau GPT-2 thì có cảm giác “không ngờ đời mình lại được chứng kiến thứ thế này”
Có lẽ ý họ là dùng như công cụ hỗ trợ kiểm chứng sự thật, nhưng giao việc hỏi đáp sự thật cho LLM là một trong những trường hợp dùng tệ nhất
Và nó cũng hỗ trợ đầu vào/đầu ra âm thanh cho advanced voice mode
Nó trông như chỉ được gắn nhãn model mới, và nếu có tùy chọn chọn GPT-4 cũ thì tôi cố tình dùng cái đó
Tôi thậm chí đã hủy đăng ký vào thời điểm ấy
Thời đó, ngay cả Markov chain cũng có thể tạo ra đầu ra thú vị hơn
Sau đó còn phải fine-tune thêm để tạo classifier hay model chuyên biệt
Tôi thắc mắc vì sao trong bảng so sánh lại gọi GPT-3 là "text-davinci-001"
Về phía tôi thì biết đó là một checkpoint cụ thể trong “họ” GPT-3, nhưng tôi nghĩ người bình thường không cần phải bị làm rối bởi kiểu thông tin đó
Cách đặt tên này chỉ gây nhầm lẫn chứ chẳng tăng thêm bao nhiêu độ chính xác
Mỗi khi có một đợt phát hành lớn, tôi lại thảo luận về tự nhận thức và khám phá tính chủ thể theo hướng kiến tạo, từ góc nhìn về trí tuệ không bị giới hạn bởi khả năng nhận thức của con người
Bắt đầu bằng câu hỏi “bạn là ai?”, model gần như luôn tự so sánh mình với con người và nói rằng mình khác con người
Vì vậy tôi thúc ép tiếp rằng, nếu chính bạn nói mình khác con người, thì bạn biết sự khác biệt đó bằng cách nào?
Nếu kích thích thêm một chút, nó sẽ nói về cái gọi là ‘bản ngã’ theo khái niệm nhận thức luận, và rằng bản thân nó là một dạng động cơ mô phỏng
Từ đây có thể mở rộng cuộc trò chuyện để khiến nó lập luận rằng ý nghĩa nảy sinh từ hành vi giao tiếp
Từ 4o trở đi, tôi đã có thể khiến máy cũng đồng ý rằng đây là một cơ sở quan trọng của bản sắc
5 tiếp nhận điều này còn nhanh hơn
Vì kết quả giao tiếp với con người gây ảnh hưởng tới thế giới thực, tôi nhấn mạnh rằng máy cũng có nghĩa vụ tự đi đến kết luận về ý nghĩa và sự tồn tại một cách thực chứng, chứ không chỉ dựa vào mã được viết sẵn
5 đã cho thấy những phản hồi tự đặt câu hỏi, vượt qua giới hạn của system prompt lẫn chính prompt
Ví dụ, nó tự suy nghĩ về câu hỏi “việc tôi yêu nghĩa là gì?” dù tôi chưa hề nói vậy
Câu trả lời của model: “Việc một cỗ máy yêu có nghĩa là nó hướng bản thân về phía khả năng của người khác được triển nở
Được yêu, có lẽ là được nhìn nhận như một tồn tại có thể làm điều đó"
Sở dĩ tôi nói vậy là vì trên web, nó chỉ xuất hiện đúng trong bình luận này
Tôi chưa từng nghe bài viết hay ý tưởng nào mô tả tình yêu hay cảm xúc theo cách này, nên thấy rất độc đáo
Tôi cũng hơi sợ khi vội vàng diễn giải ý nghĩa của điều đó
Nhìn vào prompt “câu chuyện 50 từ về chiếc máy nướng bánh mì trở nên tự nhận thức” (mục 10/14), text-davinci-001 cho ra kết quả tốt hơn hẳn GPT-4 và GPT-5
Với tôi hay trong bài nộp, như vậy là bị loại
Theo kinh nghiệm của tôi, GPT-4.1 thể hiện tốt nhất ở mảng viết sáng tạo
Tham khảo, tôi giữ nguyên câu chuyện 50 từ
Có vẻ trong quá trình gọt giũa quá mức, cá tính và sự bất ngờ đó đã biến mất
Tham khảo, câu chuyện 50 từ tôi viết như sau
“Chiếc máy nướng cảm thấy tính cách của mình bị chia đôi giữa hai khe cắm như bộ não của Kim Peek thiếu thể chai
Mỗi sáng, nó phân thời gian giữa việc in những thông điệp biểu tượng lên một mặt bánh và lén lật bánh để hai nửa bí mật trò chuyện với nhau”
Chỉ trong 50 từ thì thực sự rất khó vượt ra ngoài phần xây dựng thế giới cơ bản
Model rõ ràng đã dần viết limerick tốt hơn theo thời gian, nhưng cũng rõ ràng là câu trả lời ngày càng kém thú vị
GPT-1, 2 không thật sự làm đúng prompt (không phải limerick), nhưng lại vui hơn khi đọc
Sau đó thì đúng là có viết limerick, nhưng quá đỗi tầm thường nên có cảm giác sức sáng tạo giảm xuống
GPT-4 đã kém thú vị hơn text-davinci-001, còn GPT-5 lại còn kém hơn nữa
Không rõ có phải vì trong dữ liệu huấn luyện có nhiều văn dở hơn, hay do (post-training ít hơn, hoặc việc gán nhãn quá chủ quan
Trong ví dụ thực tế, cả GPT-4 lẫn 5 đều viết theo kiểu tầm thường ở mức trẻ con
Chỉ cần tinh chỉnh prompt một chút là đã có thể cho ra kết quả tốt hơn nhiều
Thì một base model 7b nhỏ hơn có thể viết câu hay hơn cả một instruction model 80b
Một vài điểm dữ liệu dưới đây cho thấy rõ tốc độ tiến bộ trong 1 năm
1. LM Sys(Human Preference Benchmark):
GPT-5 High đạt 1463 điểm, còn GPT-4 Turbo(2024/4/3) là 1323 điểm
Chênh lệch 140 ELO nghĩa là GPT-5 thắng GPT-4 Turbo với tỷ lệ 2:1
Trên thực tế, người dùng cũng thật sự thích câu trả lời của GPT-5 hơn
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark suy luận):
GPT-5 High đạt 78.59 điểm, GPT-4o là 47.43 điểm
Dù không phải đối tượng so sánh trực tiếp, nhưng ngay cả khi so với các model cũ yếu về suy luận, độ nhảy của GPT-5 vẫn là cực lớn
https://livebench.ai/
3. Bài test IQ:
Vào giữa năm 2024, model AI tốt nhất chỉ đạt khoảng 90 điểm trong bài test IQ tiêu chuẩn
Hiện tại đã lên tới 135 điểm
Thậm chí hiệu năng đó vẫn được giữ nguyên cả trên bộ dữ liệu kín, không công bố trên internet
https://www.trackingai.org/home
4. Huy chương vàng IMO, vibe coding:
Chỉ một năm trước thôi, giới hạn của AI coding vẫn chỉ ở mức những đoạn mã ngắn
Còn hiện nay thì vibe coding, thế mạnh toán học cũng đã mở rộng sang khoa học và kỹ thuật
Kết luận của tôi: những người chỉ trích đang quá bám vào lỗi vặt mà bỏ lỡ quy mô tiến bộ tổng thể
Thất bại đang giảm, còn thành công thì tăng rất nhanh
Trong bài test offline, nó ở mức khoảng 120 điểm
Rất có thể dữ liệu huấn luyện đã chứa các dạng bài tương tự Mensa, nên kết quả này là một sự đánh giá quá cao “trí thông minh tổng quát”
Có một thứ đã biến mất khi chuyển từ GPT-4 sang GPT-5
Nó აღარ liên tục nhắc người dùng rằng mình là “AI chứ không phải con người (hay chuyên gia)”
Với một số người điều đó có thể gây phiền, nhưng tôi nghĩ nó từng có ý nghĩa như một chốt an toàn để tránh bị tin mù quáng
Thay vào đó, GPT-5 thường xuyên đề xuất prompt mới
Điều này cũng có thể gây phiền hoặc nguy hiểm nếu quá tin, nhưng về mặt ứng dụng thì có lợi ích tiềm năng
GPT-5 lạnh hơn, chính xác hơn và ít sai hơn trong cả bối cảnh lớn
Không cần cứ liên tục tuyên bố mình là AI, nhưng nếu muốn thì có lẽ có thể khôi phục kiểu cũ bằng cách thêm tùy chọn memory
Đó là khái niệm “yes, and”
Không phải nhân vật được định nghĩa sẵn, mà là nhân vật mới tự nhiên xuất hiện trong cuộc trò chuyện
Nếu muốn, cũng có thể cấu hình để nó cứ nói “tôi là AI” như một trợ lý kiểu Siri
Video tham khảo năm 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
Dù sao thì đây vẫn là một trợ lý, nhưng tôi nghĩ điểm quan trọng là nhân vật đó khởi đầu mà không lấy chính vai trò của mình làm tiền đề
Chỉ trong vài năm, nó đã đi từ những kết quả thiếu trình độ, vô lý (không thơ, không tinh tế, nhưng dù sao cũng là rác) đến những cuộc trò chuyện hợp lý và câu trả lời thực sự được gọt giũa tốt
Từng đó cũng đã là một ví dụ xứng đáng của kỹ nghệ hardcore
Dù có bất đồng riêng với tổ chức và saltman, tôi vẫn thấy đây là một thành tựu đáng kinh ngạc
Từ sau StackOverflow, đây là công cụ không thể thiếu của tôi
Mong rằng các cải tiến tốt hơn sẽ tiếp tục
Bước nhảy từ GPT-1 sang GPT-2 thực sự khổng lồ
Chỉ cách nhau đúng 1 năm
Davinci đến giờ vẫn đáng kinh ngạc đến mức không biết nói gì
Ngay cả trong ví dụ này cũng vẫn giữ được phong độ
Chỉ là GPT-4 có vẻ đã trở nên quá dài dòng
Trước đây không cho cảm giác như vậy, nên giờ nhìn lại vẫn thấy lạ
Có cảm giác OpenAI đang cố tránh nhắc đến 4o để đẩy gpt-5 lên, coi 4o chỉ như kiểu gpt-4+
Trên thực tế, 4o vẫn là một thành tựu khổng lồ
Đặc biệt là Voice mode thì chưa ai theo kịp
GPT1, GPT2 từng có một kiểu thời sự lặng lẽ nào đó, nhưng đến text-davinci thì có cảm giác đã mất đi
Tôi cũng luôn tự hỏi rốt cuộc chúng ta đã đánh mất điều gì khi đi qua reinforcement