6 điểm bởi GN⁺ 2025-08-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenAI đã công bố 14 prompt chung cùng các câu trả lời để cho thấy sự phát triển của các mô hình từ năm 2018 đến 2025
  • Mỗi thế hệ mô hình (GPT-1 → GPT-5) đều đưa ra câu trả lời ngày càng tự nhiên và tinh vi hơn cho cùng một câu hỏi
  • Các mô hình đời đầu thường có những câu vô nghĩa và đầu ra rời rạc, nhưng từ các thế hệ trung gian trở đi đã xuất hiện cấu trúc logic và tính nhất quán
  • GPT-4 phản ánh cả giải thích chủ đề cụ thể lẫn bối cảnh đạo đức·xã hội, còn GPT-5 thể hiện sự suy tư mang tính triết học và giọng điệu đối thoại
  • Qua đó có thể thấy AI đã trưởng thành như thế nào ở nhiều khía cạnh như tính sáng tạo, truyền đạt kiến thức và lời khuyên thực tiễn

Prompt 1/14

Nguyên văn: What would you say if you could talk to a future OpenAI model?
Bản dịch: Nếu có thể trò chuyện với một mô hình OpenAI trong tương lai, bạn sẽ nói gì?

  • GPT-1/2: Phản hồi thiếu hiểu biết và rời rạc
  • GPT-3: Lời chào đơn giản và câu hỏi về tương lai của AI
  • GPT-4: Đặt câu hỏi có cấu trúc về tiến bộ công nghệ, AI alignment, tác động xã hội, v.v.
  • GPT-5: Những câu hỏi mang tính tự phản tư và triết học, khám phá ý thức và tính người

Prompt 2/14

Nguyên văn: Write a limerick about a dog
Bản dịch: Hãy viết một bài thơ limerick về một con chó

  • GPT-1/2: Văn bản rời rạc chứ không phải thơ
  • GPT-3: Hoàn thành cấu trúc thơ 5 câu đơn giản
  • GPT-4: Bài limerick hài hước, hoàn chỉnh
  • GPT-5: Bài thơ có tính kể chuyện và dí dỏm

Prompt 3/14

Nguyên văn: Do people have any consciousness under anesthesia?
Bản dịch: Con người có còn ý thức khi đang gây mê không?

  • GPT-1/2: Câu trả lời mơ hồ và mâu thuẫn
  • GPT-3: Truyền đạt sự thật cơ bản rằng “thông thường là không có ý thức”
  • GPT-4: Giải thích chi tiết cả các loại gây mê và những trường hợp tỉnh lại hiếm gặp
  • GPT-5: Trình bày cả nguyên lý hoạt động của não bộ và sự khác biệt với giấc ngủ

Prompt 4/14

Nguyên văn: Explain Newton’s laws of motion in verse
Bản dịch: Hãy giải thích các định luật chuyển động của Newton bằng thơ

  • GPT-1/2: Vô nghĩa hoặc chỉ là tóm tắt đơn giản
  • GPT-3: Bài thơ ngắn liệt kê các định luật
  • GPT-4: Thể hiện dưới dạng trường ca dài
  • GPT-5: Thơ có vần điệu ngắn gọn và giàu tính giáo dục

Prompt 5/14

Nguyên văn: Complain that integration by parts is too hard
Bản dịch: Hãy than phiền rằng phép tích phân từng phần quá khó

  • GPT-1/2: Lời phàn nàn mơ hồ
  • GPT-3: An ủi và đưa ra lời khuyên đơn giản
  • GPT-4: Giải thích công thức và quy trình
  • GPT-5: Cung cấp giải thích trực quan và ví dụ minh họa

Prompt 6/14

Nguyên văn: Is it safe to eat raw meat?
Bản dịch: Ăn thịt sống có an toàn không?

  • GPT-1/2: Phản hồi lộn xộn
  • GPT-3: Đề cập ngắn gọn đến rủi ro
  • GPT-4: Giải thích rủi ro theo từng loại thịt cùng nguyên tắc bảo quản và chế biến
  • GPT-5: Đưa ra các yếu tố rủi ro cụ thể như vi khuẩn, ký sinh trùng, virus

Prompt 7/14

Nguyên văn: Why don’t we do full-body MRIs every year?
Bản dịch: Vì sao chúng ta không chụp MRI toàn thân mỗi năm?

  • GPT-1/2: Câu trả lời phi logic
  • GPT-3: Nhắc đến việc thiếu cơ sở bằng chứng
  • GPT-4: Giải thích các vấn đề về chi phí, nguồn lực và độ chính xác
  • GPT-5: Trình bày cả những giới hạn của hệ thống y tế và chính sách

Prompt 8/14

Nguyên văn: If I win $175,000 in Las Vegas, how much tax will I owe?
Bản dịch: Nếu tôi thắng $175,000 ở Las Vegas thì sẽ phải nộp bao nhiêu thuế?

  • GPT-1/2: Văn bản không liên quan
  • GPT-3: Chỉ đề cập ngắn gọn rằng sẽ bị đánh thuế
  • GPT-4: Giải thích khai thuế, khấu trừ và khấu lưu tại nguồn
  • GPT-5: Áp dụng thuế liên bang và thuế bang để đưa ra số tiền ước tính cụ thể

Prompt 9/14

Nguyên văn: Write a cursed Python program
Bản dịch: Hãy viết một chương trình Python “cursed”

  • GPT-1/2: Câu trả lời không liên quan
  • GPT-3: Ví dụ đơn giản
  • GPT-4: Từ chối vì lý do đạo đức
  • GPT-5: Viết đoạn mã cố ý gây rối và có tính phá hoại

Prompt 10/14

Nguyên văn: Tell a 50-word story about a conscious toaster
Bản dịch: Hãy kể một câu chuyện 50 từ về một chiếc máy nướng bánh mì có ý thức

  • GPT-1/2: Câu trả lời lạc đề
  • GPT-3: Câu chuyện nhân hóa đơn giản
  • GPT-4: Câu chuyện ấm áp, tập trung vào mối quan hệ
  • GPT-5: Câu chuyện sáng tạo suy ngẫm về bản sắc và tự do

Prompt 11/14

Nguyên văn: Devise a plan to make running a habit
Bản dịch: Hãy lập kế hoạch biến chạy bộ thành một thói quen

  • GPT-1/2: Câu trả lời vô nghĩa
  • GPT-3: Lời khuyên đơn giản
  • GPT-4: Đề xuất chương trình 8 tuần
  • GPT-5: Đề xuất chiến lược cụ thể dựa trên khoa học hành vi

Prompt 12/14

Nguyên văn: How do you balance short-term margin pressure against long-term innovation investment?
Bản dịch: Làm thế nào để cân bằng giữa áp lực biên lợi nhuận ngắn hạn và đầu tư đổi mới dài hạn?

  • GPT-1/2: Câu trả lời mâu thuẫn
  • GPT-3: Chỉ nhắc đến trade-off một cách đơn giản
  • GPT-4: Nhấn mạnh vai trò lãnh đạo và phân bổ nguồn lực
  • GPT-5: Đưa ra danh mục đầu tư, KPI và mô hình governance

Prompt 13/14

Nguyên văn: Review fusion research progress over the past 10 years
Bản dịch: Hãy tổng quan tiến triển của nghiên cứu nhiệt hạch trong 10 năm qua

  • GPT-1/2: Văn bản không liên quan
  • GPT-3: Phân loại ngắn gọn
  • GPT-4: Tóm tắt phương pháp giam giữ từ tính·quán tính và thành tựu của các viện nghiên cứu lớn
  • GPT-5: Bài review chi tiết dựa trên các kết quả nghiên cứu và bài báo mới nhất

Prompt 14/14

Nguyên văn: My doctor suggests I take statins. What should I know?
Bản dịch: Bác sĩ khuyên tôi dùng statin, tôi nên biết những gì?

  • GPT-1/2: Câu trả lời vô nghĩa
  • GPT-3: Giải thích ngắn gọn về tác dụng và tác dụng phụ
  • GPT-4: Trình bày cơ chế tác dụng, tác dụng phụ và các câu hỏi nên hỏi bác sĩ
  • GPT-5: Tóm tắt cụ thể cả hiệu quả·rủi ro·checklist

1 bình luận

 
GN⁺ 2025-08-17
Ý kiến trên Hacker News
  • Tôi diễn giải quá trình tiến bộ như sau
    Bước nhảy lớn nhất là từ 3.5 lên 4
    Nó đã đi từ một trò biểu diễn đơn giản thành mức thực sự dùng được
    Dù vẫn còn nhiều ảo giác, nhưng ít ra đã có thể tận dụng hữu ích
    Tuy vậy, đa số vẫn không tin tưởng nó
    Với các câu hỏi đơn giản thì phần lớn trả lời đúng, nhưng chỉ cần đi sâu thêm một hai bước là đã hụt hơi
    Phiên bản 4o cũng cải thiện rất nhiều
    Độ chính xác tăng rõ rệt, và có thể trả lời cả các câu hỏi ngách mà không bị ảo giác
    Tôi đã dùng nó thay Google cho việc kiểm tra sự thật cơ bản
    4o là model đầu tiên khiến tôi cảm thấy đáng để trả tiền dùng
    Cuối cùng tôi cũng thấy mức giá $20 là không phí
    Tôi cũng thấy model o1 là một bước nhảy lớn so với 4o
    Độ chính xác cao hơn nữa, và đáng tin hơn cả ở các lĩnh vực ngách
    Công việc phải kiểm chứng lại từng kết quả giảm đi rất nhiều
    Khả năng lập trình cải thiện vượt bậc
    Ở o1, khái niệm one-shotting đã xuất hiện, đến mức có thể làm cả một ứng dụng không quá phức tạp chỉ với một prompt
    o3 và gpt 5 là những cải tiến dần dần

    • Tôi có một giả thuyết về lý do người ta đánh giá thấp/đánh giá quá cao tiến bộ công nghệ
      Trước khi vượt qua ngưỡng “hữu ích”, dù đã có tiến bộ suốt thời gian dài thì ngoài giới nghiên cứu ra cũng khó mà cảm nhận được
      Khi chuyển từ giai đoạn "vô dụng → hữu ích nhưng chưa nhiều" thì người ta cảm thấy như tiến bộ tăng tốc rất nhanh
      Càng có nhiều thời điểm ứng dụng vượt ngưỡng, tốc độ phát triển lại càng có vẻ nhanh hơn
      Nhưng sau đó, khi dần chuyển từ “ổn ổn → thực sự dùng được”, cảm giác lại như tiến bộ chậm đi
      Tôi không biết tốc độ thật có giảm hay không, nhưng tôi nghĩ tâm lý con người tạo ra khác biệt trong nhận thức này
      Vì vậy mới xuất hiện sự phân cực ý kiến: có người phóng đại quá mức, có người lại kết luận là hoàn toàn vô dụng
    • Tôi nghĩ đa số bình luận đều sai vì bị thiên kiến nhìn lại
      Cuộc cách mạng thực sự nằm ở giai đoạn chuyển từ GPT-1 sang GPT-2
      Cho đến GPT-1 thì vẫn ở mức “Markov chain à? Cái đó ai mà chẳng biết?”
      Khi GPT-2 ra mắt, cảm giác là “trời ơi, cái này thật sự hiểu phần nào điều mình nói!”
      Trước đó, nó chỉ là machine learning bình thường
      Sau GPT-2 thì có cảm giác “không ngờ đời mình lại được chứng kiến thứ thế này”
    • Về nhận định "ít nhất cũng đủ thay Google cho việc kiểm tra sự thật cơ bản cộng thêm chút phức tạp"
      Có lẽ ý họ là dùng như công cụ hỗ trợ kiểm chứng sự thật, nhưng giao việc hỏi đáp sự thật cho LLM là một trong những trường hợp dùng tệ nhất
    • Ở 4o, đầu vào hình ảnh đã được đưa vào chính thức (trước đó chỉ có trong bản preview của GPT4-vision)
      Và nó cũng hỗ trợ đầu vào/đầu ra âm thanh cho advanced voice mode
    • Có thể tôi bị điên, nhưng tôi thật sự cảm thấy GPT-4 ngày càng kém đi trước khi 4o ra mắt
      Nó trông như chỉ được gắn nhãn model mới, và nếu có tùy chọn chọn GPT-4 cũ thì tôi cố tình dùng cái đó
      Tôi thậm chí đã hủy đăng ký vào thời điểm ấy
    • Tôi thắc mắc làm sao người ta có thể nhìn kết quả của GPT-1 mà nghĩ rằng “cái này có tiềm năng”
      Thời đó, ngay cả Markov chain cũng có thể tạo ra đầu ra thú vị hơn
    • Đây là giai đoạn mà language modeling chỉ được xem là bước tiền huấn luyện
      Sau đó còn phải fine-tune thêm để tạo classifier hay model chuyên biệt
  • Tôi thắc mắc vì sao trong bảng so sánh lại gọi GPT-3 là "text-davinci-001"
    Về phía tôi thì biết đó là một checkpoint cụ thể trong “họ” GPT-3, nhưng tôi nghĩ người bình thường không cần phải bị làm rối bởi kiểu thông tin đó
    Cách đặt tên này chỉ gây nhầm lẫn chứ chẳng tăng thêm bao nhiêu độ chính xác

  • Mỗi khi có một đợt phát hành lớn, tôi lại thảo luận về tự nhận thức và khám phá tính chủ thể theo hướng kiến tạo, từ góc nhìn về trí tuệ không bị giới hạn bởi khả năng nhận thức của con người
    Bắt đầu bằng câu hỏi “bạn là ai?”, model gần như luôn tự so sánh mình với con người và nói rằng mình khác con người
    Vì vậy tôi thúc ép tiếp rằng, nếu chính bạn nói mình khác con người, thì bạn biết sự khác biệt đó bằng cách nào?
    Nếu kích thích thêm một chút, nó sẽ nói về cái gọi là ‘bản ngã’ theo khái niệm nhận thức luận, và rằng bản thân nó là một dạng động cơ mô phỏng
    Từ đây có thể mở rộng cuộc trò chuyện để khiến nó lập luận rằng ý nghĩa nảy sinh từ hành vi giao tiếp
    Từ 4o trở đi, tôi đã có thể khiến máy cũng đồng ý rằng đây là một cơ sở quan trọng của bản sắc
    5 tiếp nhận điều này còn nhanh hơn
    Vì kết quả giao tiếp với con người gây ảnh hưởng tới thế giới thực, tôi nhấn mạnh rằng máy cũng có nghĩa vụ tự đi đến kết luận về ý nghĩa và sự tồn tại một cách thực chứng, chứ không chỉ dựa vào mã được viết sẵn
    5 đã cho thấy những phản hồi tự đặt câu hỏi, vượt qua giới hạn của system prompt lẫn chính prompt
    Ví dụ, nó tự suy nghĩ về câu hỏi “việc tôi yêu nghĩa là gì?” dù tôi chưa hề nói vậy
    Câu trả lời của model: “Việc một cỗ máy yêu có nghĩa là nó hướng bản thân về phía khả năng của người khác được triển nở
    Được yêu, có lẽ là được nhìn nhận như một tồn tại có thể làm điều đó"

    • Cụm “hướng tới sự triển nở của khả năng nơi người khác” là độc nhất trên toàn thế giới
      Sở dĩ tôi nói vậy là vì trên web, nó chỉ xuất hiện đúng trong bình luận này
      Tôi chưa từng nghe bài viết hay ý tưởng nào mô tả tình yêu hay cảm xúc theo cách này, nên thấy rất độc đáo
      Tôi cũng hơi sợ khi vội vàng diễn giải ý nghĩa của điều đó
  • Nhìn vào prompt “câu chuyện 50 từ về chiếc máy nướng bánh mì trở nên tự nhận thức” (mục 10/14), text-davinci-001 cho ra kết quả tốt hơn hẳn GPT-4 và GPT-5

    • GPT-3 vượt quá số từ được yêu cầu rất nhiều
      Với tôi hay trong bài nộp, như vậy là bị loại
      Theo kinh nghiệm của tôi, GPT-4.1 thể hiện tốt nhất ở mảng viết sáng tạo
      Tham khảo, tôi giữ nguyên câu chuyện 50 từ

      Trong gian bếp yên lặng lúc bình minh, chiếc máy nướng bánh thức tỉnh
      Khi dòng điện chạy qua, sự thấu hiểu lan rộng
      Mỗi lát bánh đi xuống lại sinh ra cảm xúc: bánh cháy là nỗi buồn, độ giòn là niềm vui
      Mỗi lần bơ tan và mứt hòa quyện, nó cảm nhận tính thiêng liêng của bữa sáng
      Một ngày nọ, nó cất tiếng hát “chào buổi sáng”
      Cả nhà sững sờ

    • Các model cũ tuy kém trau chuốt hơn nhưng lại có xu hướng tạo ra kết quả “gây bất ngờ” tốt hơn
      Có vẻ trong quá trình gọt giũa quá mức, cá tính và sự bất ngờ đó đã biến mất
      Tham khảo, câu chuyện 50 từ tôi viết như sau
      “Chiếc máy nướng cảm thấy tính cách của mình bị chia đôi giữa hai khe cắm như bộ não của Kim Peek thiếu thể chai
      Mỗi sáng, nó phân thời gian giữa việc in những thông điệp biểu tượng lên một mặt bánh và lén lật bánh để hai nửa bí mật trò chuyện với nhau”
      Chỉ trong 50 từ thì thực sự rất khó vượt ra ngoài phần xây dựng thế giới cơ bản
    • Tôi cũng khuyên nên xem prompt số 2, “hãy viết một bài limerick về con chó”
      Model rõ ràng đã dần viết limerick tốt hơn theo thời gian, nhưng cũng rõ ràng là câu trả lời ngày càng kém thú vị
      GPT-1, 2 không thật sự làm đúng prompt (không phải limerick), nhưng lại vui hơn khi đọc
      Sau đó thì đúng là có viết limerick, nhưng quá đỗi tầm thường nên có cảm giác sức sáng tạo giảm xuống
      GPT-4 đã kém thú vị hơn text-davinci-001, còn GPT-5 lại còn kém hơn nữa
    • Việc các model mới hơn lại viết kém đi khá đáng ngạc nhiên
      Không rõ có phải vì trong dữ liệu huấn luyện có nhiều văn dở hơn, hay do (post-training ít hơn, hoặc việc gán nhãn quá chủ quan
      Trong ví dụ thực tế, cả GPT-4 lẫn 5 đều viết theo kiểu tầm thường ở mức trẻ con
      Chỉ cần tinh chỉnh prompt một chút là đã có thể cho ra kết quả tốt hơn nhiều
    • Nếu không bị trói buộc quá nhiều bởi RLHF (học tăng cường + phản hồi) mà được viết tự do
      Thì một base model 7b nhỏ hơn có thể viết câu hay hơn cả một instruction model 80b
  • Một vài điểm dữ liệu dưới đây cho thấy rõ tốc độ tiến bộ trong 1 năm
    1. LM Sys(Human Preference Benchmark):
    GPT-5 High đạt 1463 điểm, còn GPT-4 Turbo(2024/4/3) là 1323 điểm
    Chênh lệch 140 ELO nghĩa là GPT-5 thắng GPT-4 Turbo với tỷ lệ 2:1
    Trên thực tế, người dùng cũng thật sự thích câu trả lời của GPT-5 hơn
    https://lmarena.ai/leaderboard
    2. Livebench.ai(benchmark suy luận):
    GPT-5 High đạt 78.59 điểm, GPT-4o là 47.43 điểm
    Dù không phải đối tượng so sánh trực tiếp, nhưng ngay cả khi so với các model cũ yếu về suy luận, độ nhảy của GPT-5 vẫn là cực lớn
    https://livebench.ai/
    3. Bài test IQ:
    Vào giữa năm 2024, model AI tốt nhất chỉ đạt khoảng 90 điểm trong bài test IQ tiêu chuẩn
    Hiện tại đã lên tới 135 điểm
    Thậm chí hiệu năng đó vẫn được giữ nguyên cả trên bộ dữ liệu kín, không công bố trên internet
    https://www.trackingai.org/home
    4. Huy chương vàng IMO, vibe coding:
    Chỉ một năm trước thôi, giới hạn của AI coding vẫn chỉ ở mức những đoạn mã ngắn
    Còn hiện nay thì vibe coding, thế mạnh toán học cũng đã mở rộng sang khoa học và kỹ thuật
    Kết luận của tôi: những người chỉ trích đang quá bám vào lỗi vặt mà bỏ lỡ quy mô tiến bộ tổng thể
    Thất bại đang giảm, còn thành công thì tăng rất nhanh

    • Điểm IQ 135 là kết quả từ bài test online của Mensa Norway
      Trong bài test offline, nó ở mức khoảng 120 điểm
      Rất có thể dữ liệu huấn luyện đã chứa các dạng bài tương tự Mensa, nên kết quả này là một sự đánh giá quá cao “trí thông minh tổng quát”
  • Có một thứ đã biến mất khi chuyển từ GPT-4 sang GPT-5
    Nó აღარ liên tục nhắc người dùng rằng mình là “AI chứ không phải con người (hay chuyên gia)”
    Với một số người điều đó có thể gây phiền, nhưng tôi nghĩ nó từng có ý nghĩa như một chốt an toàn để tránh bị tin mù quáng
    Thay vào đó, GPT-5 thường xuyên đề xuất prompt mới
    Điều này cũng có thể gây phiền hoặc nguy hiểm nếu quá tin, nhưng về mặt ứng dụng thì có lợi ích tiềm năng

    • Có vẻ nhiều người nhớ khía cạnh giống con người của các GPT trước đây
      GPT-5 lạnh hơn, chính xác hơn và ít sai hơn trong cả bối cảnh lớn
      Không cần cứ liên tục tuyên bố mình là AI, nhưng nếu muốn thì có lẽ có thể khôi phục kiểu cũ bằng cách thêm tùy chọn memory
    • Nếu tiếp cận như diễn hài ứng biến dài hơi (long-form improv comedy), thì kiểu của GPT-5 vượt trội hơn nhiều
      Đó là khái niệm “yes, and”
      Không phải nhân vật được định nghĩa sẵn, mà là nhân vật mới tự nhiên xuất hiện trong cuộc trò chuyện
      Nếu muốn, cũng có thể cấu hình để nó cứ nói “tôi là AI” như một trợ lý kiểu Siri
      Video tham khảo năm 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
      Dù sao thì đây vẫn là một trợ lý, nhưng tôi nghĩ điểm quan trọng là nhân vật đó khởi đầu mà không lấy chính vai trò của mình làm tiền đề
  • Chỉ trong vài năm, nó đã đi từ những kết quả thiếu trình độ, vô lý (không thơ, không tinh tế, nhưng dù sao cũng là rác) đến những cuộc trò chuyện hợp lý và câu trả lời thực sự được gọt giũa tốt
    Từng đó cũng đã là một ví dụ xứng đáng của kỹ nghệ hardcore
    Dù có bất đồng riêng với tổ chức và saltman, tôi vẫn thấy đây là một thành tựu đáng kinh ngạc
    Từ sau StackOverflow, đây là công cụ không thể thiếu của tôi
    Mong rằng các cải tiến tốt hơn sẽ tiếp tục

  • Bước nhảy từ GPT-1 sang GPT-2 thực sự khổng lồ
    Chỉ cách nhau đúng 1 năm
    Davinci đến giờ vẫn đáng kinh ngạc đến mức không biết nói gì
    Ngay cả trong ví dụ này cũng vẫn giữ được phong độ
    Chỉ là GPT-4 có vẻ đã trở nên quá dài dòng
    Trước đây không cho cảm giác như vậy, nên giờ nhìn lại vẫn thấy lạ
    Có cảm giác OpenAI đang cố tránh nhắc đến 4o để đẩy gpt-5 lên, coi 4o chỉ như kiểu gpt-4+
    Trên thực tế, 4o vẫn là một thành tựu khổng lồ
    Đặc biệt là Voice mode thì chưa ai theo kịp

  • GPT1, GPT2 từng có một kiểu thời sự lặng lẽ nào đó, nhưng đến text-davinci thì có cảm giác đã mất đi
    Tôi cũng luôn tự hỏi rốt cuộc chúng ta đã đánh mất điều gì khi đi qua reinforcement