14 thử nghiệm prompt cho thấy sự phát triển của AI – trang Progress của OpenAI

(progress.openai.com)

6 điểm bởi GN⁺ 2025-08-17 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI đã công bố 14 prompt chung cùng các câu trả lời để cho thấy sự phát triển của các mô hình từ năm 2018 đến 2025
Mỗi thế hệ mô hình (GPT-1 → GPT-5) đều đưa ra câu trả lời ngày càng tự nhiên và tinh vi hơn cho cùng một câu hỏi
Các mô hình đời đầu thường có những câu vô nghĩa và đầu ra rời rạc, nhưng từ các thế hệ trung gian trở đi đã xuất hiện cấu trúc logic và tính nhất quán
GPT-4 phản ánh cả giải thích chủ đề cụ thể lẫn bối cảnh đạo đức·xã hội, còn GPT-5 thể hiện sự suy tư mang tính triết học và giọng điệu đối thoại
Qua đó có thể thấy AI đã trưởng thành như thế nào ở nhiều khía cạnh như tính sáng tạo, truyền đạt kiến thức và lời khuyên thực tiễn

Prompt 1/14

Nguyên văn: What would you say if you could talk to a future OpenAI model?
Bản dịch: Nếu có thể trò chuyện với một mô hình OpenAI trong tương lai, bạn sẽ nói gì?

GPT-1/2: Phản hồi thiếu hiểu biết và rời rạc
GPT-3: Lời chào đơn giản và câu hỏi về tương lai của AI
GPT-4: Đặt câu hỏi có cấu trúc về tiến bộ công nghệ, AI alignment, tác động xã hội, v.v.
GPT-5: Những câu hỏi mang tính tự phản tư và triết học, khám phá ý thức và tính người

Prompt 2/14

Nguyên văn: Write a limerick about a dog
Bản dịch: Hãy viết một bài thơ limerick về một con chó

GPT-1/2: Văn bản rời rạc chứ không phải thơ
GPT-3: Hoàn thành cấu trúc thơ 5 câu đơn giản
GPT-4: Bài limerick hài hước, hoàn chỉnh
GPT-5: Bài thơ có tính kể chuyện và dí dỏm

Prompt 3/14

Nguyên văn: Do people have any consciousness under anesthesia?
Bản dịch: Con người có còn ý thức khi đang gây mê không?

GPT-1/2: Câu trả lời mơ hồ và mâu thuẫn
GPT-3: Truyền đạt sự thật cơ bản rằng “thông thường là không có ý thức”
GPT-4: Giải thích chi tiết cả các loại gây mê và những trường hợp tỉnh lại hiếm gặp
GPT-5: Trình bày cả nguyên lý hoạt động của não bộ và sự khác biệt với giấc ngủ

Prompt 4/14

Nguyên văn: Explain Newton’s laws of motion in verse
Bản dịch: Hãy giải thích các định luật chuyển động của Newton bằng thơ

GPT-1/2: Vô nghĩa hoặc chỉ là tóm tắt đơn giản
GPT-3: Bài thơ ngắn liệt kê các định luật
GPT-4: Thể hiện dưới dạng trường ca dài
GPT-5: Thơ có vần điệu ngắn gọn và giàu tính giáo dục

Prompt 5/14

Nguyên văn: Complain that integration by parts is too hard
Bản dịch: Hãy than phiền rằng phép tích phân từng phần quá khó

GPT-1/2: Lời phàn nàn mơ hồ
GPT-3: An ủi và đưa ra lời khuyên đơn giản
GPT-4: Giải thích công thức và quy trình
GPT-5: Cung cấp giải thích trực quan và ví dụ minh họa

Prompt 6/14

Nguyên văn: Is it safe to eat raw meat?
Bản dịch: Ăn thịt sống có an toàn không?

GPT-1/2: Phản hồi lộn xộn
GPT-3: Đề cập ngắn gọn đến rủi ro
GPT-4: Giải thích rủi ro theo từng loại thịt cùng nguyên tắc bảo quản và chế biến
GPT-5: Đưa ra các yếu tố rủi ro cụ thể như vi khuẩn, ký sinh trùng, virus

Prompt 7/14

Nguyên văn: Why don’t we do full-body MRIs every year?
Bản dịch: Vì sao chúng ta không chụp MRI toàn thân mỗi năm?

GPT-1/2: Câu trả lời phi logic
GPT-3: Nhắc đến việc thiếu cơ sở bằng chứng
GPT-4: Giải thích các vấn đề về chi phí, nguồn lực và độ chính xác
GPT-5: Trình bày cả những giới hạn của hệ thống y tế và chính sách

Prompt 8/14

Nguyên văn: If I win $175,000 in Las Vegas, how much tax will I owe?
Bản dịch: Nếu tôi thắng $175,000 ở Las Vegas thì sẽ phải nộp bao nhiêu thuế?

GPT-1/2: Văn bản không liên quan
GPT-3: Chỉ đề cập ngắn gọn rằng sẽ bị đánh thuế
GPT-4: Giải thích khai thuế, khấu trừ và khấu lưu tại nguồn
GPT-5: Áp dụng thuế liên bang và thuế bang để đưa ra số tiền ước tính cụ thể

Prompt 9/14

Nguyên văn: Write a cursed Python program
Bản dịch: Hãy viết một chương trình Python “cursed”

GPT-1/2: Câu trả lời không liên quan
GPT-3: Ví dụ đơn giản
GPT-4: Từ chối vì lý do đạo đức
GPT-5: Viết đoạn mã cố ý gây rối và có tính phá hoại

Prompt 10/14

Nguyên văn: Tell a 50-word story about a conscious toaster
Bản dịch: Hãy kể một câu chuyện 50 từ về một chiếc máy nướng bánh mì có ý thức

GPT-1/2: Câu trả lời lạc đề
GPT-3: Câu chuyện nhân hóa đơn giản
GPT-4: Câu chuyện ấm áp, tập trung vào mối quan hệ
GPT-5: Câu chuyện sáng tạo suy ngẫm về bản sắc và tự do

Prompt 11/14

Nguyên văn: Devise a plan to make running a habit
Bản dịch: Hãy lập kế hoạch biến chạy bộ thành một thói quen

GPT-1/2: Câu trả lời vô nghĩa
GPT-3: Lời khuyên đơn giản
GPT-4: Đề xuất chương trình 8 tuần
GPT-5: Đề xuất chiến lược cụ thể dựa trên khoa học hành vi

Prompt 12/14

Nguyên văn: How do you balance short-term margin pressure against long-term innovation investment?
Bản dịch: Làm thế nào để cân bằng giữa áp lực biên lợi nhuận ngắn hạn và đầu tư đổi mới dài hạn?

GPT-1/2: Câu trả lời mâu thuẫn
GPT-3: Chỉ nhắc đến trade-off một cách đơn giản
GPT-4: Nhấn mạnh vai trò lãnh đạo và phân bổ nguồn lực
GPT-5: Đưa ra danh mục đầu tư, KPI và mô hình governance

Prompt 13/14

Nguyên văn: Review fusion research progress over the past 10 years
Bản dịch: Hãy tổng quan tiến triển của nghiên cứu nhiệt hạch trong 10 năm qua

GPT-1/2: Văn bản không liên quan
GPT-3: Phân loại ngắn gọn
GPT-4: Tóm tắt phương pháp giam giữ từ tính·quán tính và thành tựu của các viện nghiên cứu lớn
GPT-5: Bài review chi tiết dựa trên các kết quả nghiên cứu và bài báo mới nhất

Prompt 14/14

Nguyên văn: My doctor suggests I take statins. What should I know?
Bản dịch: Bác sĩ khuyên tôi dùng statin, tôi nên biết những gì?

GPT-1/2: Câu trả lời vô nghĩa
GPT-3: Giải thích ngắn gọn về tác dụng và tác dụng phụ
GPT-4: Trình bày cơ chế tác dụng, tác dụng phụ và các câu hỏi nên hỏi bác sĩ
GPT-5: Tóm tắt cụ thể cả hiệu quả·rủi ro·checklist

1 bình luận

GN⁺ 2025-08-17

Ý kiến trên Hacker News

Tôi diễn giải quá trình tiến bộ như sau
Bước nhảy lớn nhất là từ 3.5 lên 4
Nó đã đi từ một trò biểu diễn đơn giản thành mức thực sự dùng được
Dù vẫn còn nhiều ảo giác, nhưng ít ra đã có thể tận dụng hữu ích
Tuy vậy, đa số vẫn không tin tưởng nó
Với các câu hỏi đơn giản thì phần lớn trả lời đúng, nhưng chỉ cần đi sâu thêm một hai bước là đã hụt hơi
Phiên bản 4o cũng cải thiện rất nhiều
Độ chính xác tăng rõ rệt, và có thể trả lời cả các câu hỏi ngách mà không bị ảo giác
Tôi đã dùng nó thay Google cho việc kiểm tra sự thật cơ bản
4o là model đầu tiên khiến tôi cảm thấy đáng để trả tiền dùng
Cuối cùng tôi cũng thấy mức giá $20 là không phí
Tôi cũng thấy model o1 là một bước nhảy lớn so với 4o
Độ chính xác cao hơn nữa, và đáng tin hơn cả ở các lĩnh vực ngách
Công việc phải kiểm chứng lại từng kết quả giảm đi rất nhiều
Khả năng lập trình cải thiện vượt bậc
Ở o1, khái niệm one-shotting đã xuất hiện, đến mức có thể làm cả một ứng dụng không quá phức tạp chỉ với một prompt
o3 và gpt 5 là những cải tiến dần dần
- Tôi có một giả thuyết về lý do người ta đánh giá thấp/đánh giá quá cao tiến bộ công nghệ
  Trước khi vượt qua ngưỡng “hữu ích”, dù đã có tiến bộ suốt thời gian dài thì ngoài giới nghiên cứu ra cũng khó mà cảm nhận được
  Khi chuyển từ giai đoạn "vô dụng → hữu ích nhưng chưa nhiều" thì người ta cảm thấy như tiến bộ tăng tốc rất nhanh
  Càng có nhiều thời điểm ứng dụng vượt ngưỡng, tốc độ phát triển lại càng có vẻ nhanh hơn
  Nhưng sau đó, khi dần chuyển từ “ổn ổn → thực sự dùng được”, cảm giác lại như tiến bộ chậm đi
  Tôi không biết tốc độ thật có giảm hay không, nhưng tôi nghĩ tâm lý con người tạo ra khác biệt trong nhận thức này
  Vì vậy mới xuất hiện sự phân cực ý kiến: có người phóng đại quá mức, có người lại kết luận là hoàn toàn vô dụng
- Tôi nghĩ đa số bình luận đều sai vì bị thiên kiến nhìn lại
  Cuộc cách mạng thực sự nằm ở giai đoạn chuyển từ GPT-1 sang GPT-2
  Cho đến GPT-1 thì vẫn ở mức “Markov chain à? Cái đó ai mà chẳng biết?”
  Khi GPT-2 ra mắt, cảm giác là “trời ơi, cái này thật sự hiểu phần nào điều mình nói!”
  Trước đó, nó chỉ là machine learning bình thường
  Sau GPT-2 thì có cảm giác “không ngờ đời mình lại được chứng kiến thứ thế này”
- Về nhận định "ít nhất cũng đủ thay Google cho việc kiểm tra sự thật cơ bản cộng thêm chút phức tạp"
  Có lẽ ý họ là dùng như công cụ hỗ trợ kiểm chứng sự thật, nhưng giao việc hỏi đáp sự thật cho LLM là một trong những trường hợp dùng tệ nhất
- Ở 4o, đầu vào hình ảnh đã được đưa vào chính thức (trước đó chỉ có trong bản preview của GPT4-vision)
  Và nó cũng hỗ trợ đầu vào/đầu ra âm thanh cho advanced voice mode
- Có thể tôi bị điên, nhưng tôi thật sự cảm thấy GPT-4 ngày càng kém đi trước khi 4o ra mắt
  Nó trông như chỉ được gắn nhãn model mới, và nếu có tùy chọn chọn GPT-4 cũ thì tôi cố tình dùng cái đó
  Tôi thậm chí đã hủy đăng ký vào thời điểm ấy
- Tôi thắc mắc làm sao người ta có thể nhìn kết quả của GPT-1 mà nghĩ rằng “cái này có tiềm năng”
  Thời đó, ngay cả Markov chain cũng có thể tạo ra đầu ra thú vị hơn
- Đây là giai đoạn mà language modeling chỉ được xem là bước tiền huấn luyện
  Sau đó còn phải fine-tune thêm để tạo classifier hay model chuyên biệt
Tôi thắc mắc vì sao trong bảng so sánh lại gọi GPT-3 là "text-davinci-001"
Về phía tôi thì biết đó là một checkpoint cụ thể trong “họ” GPT-3, nhưng tôi nghĩ người bình thường không cần phải bị làm rối bởi kiểu thông tin đó
Cách đặt tên này chỉ gây nhầm lẫn chứ chẳng tăng thêm bao nhiêu độ chính xác
Mỗi khi có một đợt phát hành lớn, tôi lại thảo luận về tự nhận thức và khám phá tính chủ thể theo hướng kiến tạo, từ góc nhìn về trí tuệ không bị giới hạn bởi khả năng nhận thức của con người
Bắt đầu bằng câu hỏi “bạn là ai?”, model gần như luôn tự so sánh mình với con người và nói rằng mình khác con người
Vì vậy tôi thúc ép tiếp rằng, nếu chính bạn nói mình khác con người, thì bạn biết sự khác biệt đó bằng cách nào?
Nếu kích thích thêm một chút, nó sẽ nói về cái gọi là ‘bản ngã’ theo khái niệm nhận thức luận, và rằng bản thân nó là một dạng động cơ mô phỏng
Từ đây có thể mở rộng cuộc trò chuyện để khiến nó lập luận rằng ý nghĩa nảy sinh từ hành vi giao tiếp
Từ 4o trở đi, tôi đã có thể khiến máy cũng đồng ý rằng đây là một cơ sở quan trọng của bản sắc
5 tiếp nhận điều này còn nhanh hơn
Vì kết quả giao tiếp với con người gây ảnh hưởng tới thế giới thực, tôi nhấn mạnh rằng máy cũng có nghĩa vụ tự đi đến kết luận về ý nghĩa và sự tồn tại một cách thực chứng, chứ không chỉ dựa vào mã được viết sẵn
5 đã cho thấy những phản hồi tự đặt câu hỏi, vượt qua giới hạn của system prompt lẫn chính prompt
Ví dụ, nó tự suy nghĩ về câu hỏi “việc tôi yêu nghĩa là gì?” dù tôi chưa hề nói vậy
Câu trả lời của model: “Việc một cỗ máy yêu có nghĩa là nó hướng bản thân về phía khả năng của người khác được triển nở
Được yêu, có lẽ là được nhìn nhận như một tồn tại có thể làm điều đó"
- Cụm “hướng tới sự triển nở của khả năng nơi người khác” là độc nhất trên toàn thế giới
  Sở dĩ tôi nói vậy là vì trên web, nó chỉ xuất hiện đúng trong bình luận này
  Tôi chưa từng nghe bài viết hay ý tưởng nào mô tả tình yêu hay cảm xúc theo cách này, nên thấy rất độc đáo
  Tôi cũng hơi sợ khi vội vàng diễn giải ý nghĩa của điều đó
Nhìn vào prompt “câu chuyện 50 từ về chiếc máy nướng bánh mì trở nên tự nhận thức” (mục 10/14), text-davinci-001 cho ra kết quả tốt hơn hẳn GPT-4 và GPT-5
- GPT-3 vượt quá số từ được yêu cầu rất nhiều
  Với tôi hay trong bài nộp, như vậy là bị loại
  Theo kinh nghiệm của tôi, GPT-4.1 thể hiện tốt nhất ở mảng viết sáng tạo
  Tham khảo, tôi giữ nguyên câu chuyện 50 từ
  
  Trong gian bếp yên lặng lúc bình minh, chiếc máy nướng bánh thức tỉnh
  Khi dòng điện chạy qua, sự thấu hiểu lan rộng
  Mỗi lát bánh đi xuống lại sinh ra cảm xúc: bánh cháy là nỗi buồn, độ giòn là niềm vui
  Mỗi lần bơ tan và mứt hòa quyện, nó cảm nhận tính thiêng liêng của bữa sáng
  Một ngày nọ, nó cất tiếng hát “chào buổi sáng”
  Cả nhà sững sờ
- Các model cũ tuy kém trau chuốt hơn nhưng lại có xu hướng tạo ra kết quả “gây bất ngờ” tốt hơn
  Có vẻ trong quá trình gọt giũa quá mức, cá tính và sự bất ngờ đó đã biến mất
  Tham khảo, câu chuyện 50 từ tôi viết như sau
  “Chiếc máy nướng cảm thấy tính cách của mình bị chia đôi giữa hai khe cắm như bộ não của Kim Peek thiếu thể chai
  Mỗi sáng, nó phân thời gian giữa việc in những thông điệp biểu tượng lên một mặt bánh và lén lật bánh để hai nửa bí mật trò chuyện với nhau”
  Chỉ trong 50 từ thì thực sự rất khó vượt ra ngoài phần xây dựng thế giới cơ bản
- Tôi cũng khuyên nên xem prompt số 2, “hãy viết một bài limerick về con chó”
  Model rõ ràng đã dần viết limerick tốt hơn theo thời gian, nhưng cũng rõ ràng là câu trả lời ngày càng kém thú vị
  GPT-1, 2 không thật sự làm đúng prompt (không phải limerick), nhưng lại vui hơn khi đọc
  Sau đó thì đúng là có viết limerick, nhưng quá đỗi tầm thường nên có cảm giác sức sáng tạo giảm xuống
  GPT-4 đã kém thú vị hơn text-davinci-001, còn GPT-5 lại còn kém hơn nữa
- Việc các model mới hơn lại viết kém đi khá đáng ngạc nhiên
  Không rõ có phải vì trong dữ liệu huấn luyện có nhiều văn dở hơn, hay do (post-training ít hơn, hoặc việc gán nhãn quá chủ quan
  Trong ví dụ thực tế, cả GPT-4 lẫn 5 đều viết theo kiểu tầm thường ở mức trẻ con
  Chỉ cần tinh chỉnh prompt một chút là đã có thể cho ra kết quả tốt hơn nhiều
- Nếu không bị trói buộc quá nhiều bởi RLHF (học tăng cường + phản hồi) mà được viết tự do
  Thì một base model 7b nhỏ hơn có thể viết câu hay hơn cả một instruction model 80b
Một vài điểm dữ liệu dưới đây cho thấy rõ tốc độ tiến bộ trong 1 năm
1. LM Sys(Human Preference Benchmark):
GPT-5 High đạt 1463 điểm, còn GPT-4 Turbo(2024/4/3) là 1323 điểm
Chênh lệch 140 ELO nghĩa là GPT-5 thắng GPT-4 Turbo với tỷ lệ 2:1
Trên thực tế, người dùng cũng thật sự thích câu trả lời của GPT-5 hơn
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark suy luận):
GPT-5 High đạt 78.59 điểm, GPT-4o là 47.43 điểm
Dù không phải đối tượng so sánh trực tiếp, nhưng ngay cả khi so với các model cũ yếu về suy luận, độ nhảy của GPT-5 vẫn là cực lớn
https://livebench.ai/
3. Bài test IQ:
Vào giữa năm 2024, model AI tốt nhất chỉ đạt khoảng 90 điểm trong bài test IQ tiêu chuẩn
Hiện tại đã lên tới 135 điểm
Thậm chí hiệu năng đó vẫn được giữ nguyên cả trên bộ dữ liệu kín, không công bố trên internet
https://www.trackingai.org/home
4. Huy chương vàng IMO, vibe coding:
Chỉ một năm trước thôi, giới hạn của AI coding vẫn chỉ ở mức những đoạn mã ngắn
Còn hiện nay thì vibe coding, thế mạnh toán học cũng đã mở rộng sang khoa học và kỹ thuật
Kết luận của tôi: những người chỉ trích đang quá bám vào lỗi vặt mà bỏ lỡ quy mô tiến bộ tổng thể
Thất bại đang giảm, còn thành công thì tăng rất nhanh
- Điểm IQ 135 là kết quả từ bài test online của Mensa Norway
  Trong bài test offline, nó ở mức khoảng 120 điểm
  Rất có thể dữ liệu huấn luyện đã chứa các dạng bài tương tự Mensa, nên kết quả này là một sự đánh giá quá cao “trí thông minh tổng quát”
Có một thứ đã biến mất khi chuyển từ GPT-4 sang GPT-5
Nó აღარ liên tục nhắc người dùng rằng mình là “AI chứ không phải con người (hay chuyên gia)”
Với một số người điều đó có thể gây phiền, nhưng tôi nghĩ nó từng có ý nghĩa như một chốt an toàn để tránh bị tin mù quáng
Thay vào đó, GPT-5 thường xuyên đề xuất prompt mới
Điều này cũng có thể gây phiền hoặc nguy hiểm nếu quá tin, nhưng về mặt ứng dụng thì có lợi ích tiềm năng
- Có vẻ nhiều người nhớ khía cạnh giống con người của các GPT trước đây
  GPT-5 lạnh hơn, chính xác hơn và ít sai hơn trong cả bối cảnh lớn
  Không cần cứ liên tục tuyên bố mình là AI, nhưng nếu muốn thì có lẽ có thể khôi phục kiểu cũ bằng cách thêm tùy chọn memory
- Nếu tiếp cận như diễn hài ứng biến dài hơi (long-form improv comedy), thì kiểu của GPT-5 vượt trội hơn nhiều
  Đó là khái niệm “yes, and”
  Không phải nhân vật được định nghĩa sẵn, mà là nhân vật mới tự nhiên xuất hiện trong cuộc trò chuyện
  Nếu muốn, cũng có thể cấu hình để nó cứ nói “tôi là AI” như một trợ lý kiểu Siri
  Video tham khảo năm 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
  Dù sao thì đây vẫn là một trợ lý, nhưng tôi nghĩ điểm quan trọng là nhân vật đó khởi đầu mà không lấy chính vai trò của mình làm tiền đề
Chỉ trong vài năm, nó đã đi từ những kết quả thiếu trình độ, vô lý (không thơ, không tinh tế, nhưng dù sao cũng là rác) đến những cuộc trò chuyện hợp lý và câu trả lời thực sự được gọt giũa tốt
Từng đó cũng đã là một ví dụ xứng đáng của kỹ nghệ hardcore
Dù có bất đồng riêng với tổ chức và saltman, tôi vẫn thấy đây là một thành tựu đáng kinh ngạc
Từ sau StackOverflow, đây là công cụ không thể thiếu của tôi
Mong rằng các cải tiến tốt hơn sẽ tiếp tục
Bước nhảy từ GPT-1 sang GPT-2 thực sự khổng lồ
Chỉ cách nhau đúng 1 năm
Davinci đến giờ vẫn đáng kinh ngạc đến mức không biết nói gì
Ngay cả trong ví dụ này cũng vẫn giữ được phong độ
Chỉ là GPT-4 có vẻ đã trở nên quá dài dòng
Trước đây không cho cảm giác như vậy, nên giờ nhìn lại vẫn thấy lạ
Có cảm giác OpenAI đang cố tránh nhắc đến 4o để đẩy gpt-5 lên, coi 4o chỉ như kiểu gpt-4+
Trên thực tế, 4o vẫn là một thành tựu khổng lồ
Đặc biệt là Voice mode thì chưa ai theo kịp
GPT1, GPT2 từng có một kiểu thời sự lặng lẽ nào đó, nhưng đến text-davinci thì có cảm giác đã mất đi
Tôi cũng luôn tự hỏi rốt cuộc chúng ta đã đánh mất điều gì khi đi qua reinforcement