14 điểm bởi GN⁺ 2025-08-08 | 5 bình luận | Chia sẻ qua WhatsApp
  • GPT-5 mang lại hiệu năng vượt trội hơn các mô hình trước đây trên mọi lĩnh vực như lập trình, toán học, viết lách, sức khỏe và nhận thức thị giác, đồng thời là một hệ thống tích hợp kết hợp phản hồi nhanh với suy luận sâu tùy theo ngữ cảnh
  • ‘GPT-5 Thinking’ áp dụng chuỗi suy luận dài hơn cho các vấn đề phức tạp để tăng độ chính xác, và người dùng gói Pro có thể sử dụng GPT-5 Pro — phiên bản mở rộng của nó — để đạt hiệu năng ở mức cao nhất
  • Trong sử dụng thực tế, tỷ lệ hallucination (tạo ra thông tin sai) đã giảm đáng kể, đồng thời khả năng hiểu đa phương thức, thực hiện chỉ thị và xử lý các tác vụ liên kết công cụ phức tạp được cải thiện
  • Hỗ trợ cho nhà phát triển được tăng cường với các khả năng như tạo UI frontendgỡ lỗi quy mô lớn; trong lĩnh vực sức khỏe, mô hình đạt điểm cao nhất trên HealthBench và đóng vai trò như một đối tác sức khỏe chủ động
  • Về an toàn, mô hình áp dụng huấn luyện “safe completion” để giảm các từ chối không cần thiết, đồng thời có hệ thống phòng vệ nhiều lớp ở mức cao đối với các lĩnh vực sinh học và hóa học

Tổng quan GPT-5

Hệ thống tích hợp

  • Trong một hệ thống duy nhất có mô hình thông minh và hiệu quả, mô hình suy luận sâu (GPT-5 Thinking), cùng bộ định tuyến thời gian thực chọn mô hình phù hợp theo tình huống, độ phức tạp, nhu cầu công cụ và ý định người dùng
  • Khi vượt quá giới hạn sử dụng, phiên bản mini của từng mô hình sẽ xử lý các truy vấn còn lại
  • Trong tương lai, các tính năng này sẽ được hợp nhất thành một mô hình duy nhất

Cải thiện hiệu năng và tính hữu dụng

  • Hiệu năng vượt trội rõ rệt so với GPT-4o trên hầu hết các benchmark
  • Giảm hallucination, cải thiện khả năng làm theo chỉ thị, giảm thiểu phản hồi mang tính xu nịnh (sycophancy)
  • Cải thiện ở ba lĩnh vực cốt lõi
    • Lập trình: tăng cường khả năng tạo frontend phức tạp, gỡ lỗi kho mã quy mô lớn, và tạo UI/UX có tính thẩm mỹ
    • Viết lách: có thể xử lý tính mơ hồ về cấu trúc và diễn đạt với chiều sâu văn chương cùng nhịp điệu, đồng thời tăng cường hỗ trợ viết và biên tập tài liệu hằng ngày
    • Sức khỏe: lập kỷ lục cao nhất trên HealthBench, cung cấp câu trả lời an toàn và chính xác phù hợp với bối cảnh, mức độ hiểu biết và khu vực

Kết quả đánh giá

  • Đạt SOTA với toán học 94.6% (AIME 2025), lập trình SWE-bench Verified 74.9%, đa phương thức MMMU 84.2%, sức khỏe HealthBench Hard 46.2%
  • Trên GPQA, GPT-5 Pro đạt mức cao nhất là 88.4%
  • Khả năng xử lý đa phương thức, liên kết công cụ và tác vụ nhiều bước được cải thiện mạnh

Suy luận hiệu quả

  • Giảm 50~80% lượng token sử dụng cho cùng mức hiệu năng
  • Với các bài toán phức tạp và khó, GPT-5 Thinking giảm rõ rệt tỷ lệ lỗi và hallucination so với o3

Tăng cường độ tin cậy và tính đúng sự thật

  • Trong bài kiểm tra tính xác thực mở, tỷ lệ hallucination giảm 6 lần
  • Giải thích rõ ràng giới hạn khi gặp tác vụ bất khả thi hoặc thiếu thông tin
  • Tỷ lệ sycophantic giảm từ 14.5% xuống dưới 6%
Quảng cáo

Cải thiện an toàn

  • Huấn luyện “safe completion” cho phép đưa ra câu trả lời an toàn và hữu ích ngay cả với các yêu cầu có khả năng rủi ro
  • Áp dụng hệ thống phòng vệ nhiều lớp cho các kịch bản rủi ro cao trong lĩnh vực sinh học và hóa học

GPT-5 Pro

  • Mô hình suy luận mở rộng dành cho các tác vụ khó nhất
  • Trong đánh giá của chuyên gia, được ưa chuộng hơn GPT-5 Thinking 67.8% và giảm 22% các lỗi quan trọng
  • Hiệu năng cao nhất trong các lĩnh vực sức khỏe, khoa học, toán học và lập trình

Cách sử dụng và quyền truy cập

  • GPT-5 được áp dụng làm mô hình mặc định của ChatGPT, thay thế các mô hình trước đó như GPT-4o, o3...
  • Có thể ép buộc chế độ suy luận bằng cách nhập think hard about this
  • Được triển khai lần lượt cho Plus·Pro·Team·Free, còn Enterprise·Edu sẽ được áp dụng sau 1 tuần
  • Người dùng miễn phí sẽ chuyển sang GPT-5 mini khi vượt quá giới hạn

Nội dung chính cho nhà phát triển về GPT-5

Hiệu năng và đặc điểm

  • Hiệu năng lập trình:

    • SWE-bench Verified 74.9% (o3: 69.1%), số token sử dụng giảm 22%, số lần gọi công cụ giảm 45%
    • Aider polyglot đạt 88%, giảm một phần ba tỷ lệ lỗi khi chỉnh sửa mã
    • Khi tạo mã frontend, được ưa chuộng hơn o3 tới 70%
  • Tác vụ agent:

    • τ 2-bench telecom 96.7%, độ ổn định của gọi nhiều công cụ và gọi song song được cải thiện
    • Có thể xuất thông điệp mở đầu để hiển thị tiến độ và kế hoạch cho người dùng một cách trực quan
    Quảng cáo
  • Ngữ cảnh dài:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Xử lý tối đa ngữ cảnh 400 nghìn token

Tính năng API mới

  • reasoning_effort: điều chỉnh thời gian suy luận trong phạm vi minimal~high
  • verbosity: đặt mặc định độ dài câu trả lời từ low~high
  • Công cụ tùy chỉnh: có thể gọi bằng plaintext thay vì JSON, hỗ trợ ràng buộc regex/ngữ pháp
  • Tích hợp sẵn các công cụ cơ bản như gọi công cụ song song, tìm kiếm web, tìm kiếm tệp, tạo ảnh
  • Hỗ trợ các tính năng tiết kiệm chi phí như prompt caching và Batch API

Độ ổn định và độ tin cậy

  • Trên các benchmark LongFact và FactScore, tỷ lệ hallucination giảm khoảng 80% so với o3
  • Tăng cường khả năng nhận thức giới hạn của bản thân và ứng phó với tình huống bất ngờ
  • Phù hợp cho các tác vụ rủi ro cao hoặc đòi hỏi độ chính xác cao (mã, dữ liệu, ra quyết định)

Availability & pricing

Các kích cỡ và endpoint được cung cấp

  • Các phiên bản kích cỡ: gpt-5·gpt-5-mini·gpt-5-nano
  • Giao diện được hỗ trợ: có thể dùng dưới dạng mặc định trong Responses API, Chat Completions API, Codex CLI
  • Đặc tính mô hình: dòng GPT‑5 trong API là reasoning model, còn non‑reasoning model của ChatGPT được cung cấp bằng ID riêng

Bảng giá và đơn vị tính phí

  • gpt-5: đầu vào $1.25/triệu token, đầu ra $10/triệu token
  • gpt-5-mini: đầu vào $0.25/triệu, đầu ra $2/triệu
  • gpt-5-nano: đầu vào $0.05/triệu, đầu ra $0.40/triệu
  • gpt-5-chat-latest (không suy luận): đầu vào $1.25/triệu, đầu ra $10/triệu, giống gpt-5
Quảng cáo

Tóm tắt tính năng hỗ trợ

  • Điều khiển suy luận: chỉ định reasoning_effort với minimal·low·medium·high để điều chỉnh đánh đổi tốc độ ↔ độ chính xác
  • Độ dài phản hồi: dùng verbosity để đặt xu hướng mặc định ngắn / mặc định / dài
  • Tooling: custom tools hỗ trợ gọi bằng đối số plaintext và có thể áp dụng ràng buộc regex/CFG
  • Khả năng thực thi: hỗ trợ gọi công cụ song song, công cụ tích hợp sẵn (web search, file search, image generation...), streaming, Structured Outputs
  • Tối ưu chi phí: giảm chi phí token và độ trễ bằng prompt cachingBatch API
  • Kênh triển khai: GPT‑5 được áp dụng trên toàn bộ Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry

Ví dụ chi phí đơn giản

  • Với gpt-5, khi xử lý 50k token đầu vào + 5k token đầu ra, tổng chi phí ≈ $0.1125
    • Công thức: đầu vào 0.05M × $1.25 = $0.0625, đầu ra 0.005M × $10 = $0.05, tổng $0.1125
  • Với cùng tác vụ bằng gpt-5-mini, tổng chi phí ≈ $0.0175
    • 0.05M đầu vào × $0.25 = $0.0125, 0.005M đầu ra × $2 = $0.01, tổng đúng ra là $0.0225, nhưng khi xét đơn giá đầu ra thì khối lượng công việc thiên về đầu vào sẽ cho thấy chênh lệch lớn hơn
  • Các pipeline có khối lượng đầu ra tạo sinh lớn có động lực chọn mô hình có đơn giá đầu ra thấp

Ghi chú hướng dẫn lựa chọn

  • Nếu độ chính xác là ưu tiên hàng đầu và cần chuỗi công cụ phức tạp cho backend agent, hãy cân nhắc gpt-5
  • Với chỉnh sửa mã hằng ngày, agent nhẹ và xử lý batch số lượng lớn, gpt-5-mini có lợi thế hơn về cân bằng chi phí/chất lượng
  • Với các tác vụ tiền xử lý, kiểm tra quy tắc, tóm tắt đơn giản đòi hỏi độ trễ cực thấp và chi phí cực thấp, gpt-5-nano là lựa chọn phù hợp

Tham khảo

  • Nếu muốn tiếp tục dùng mô hình mặc định non‑reasoning của ChatGPT, hãy chọn gpt-5-chat-latest trong API
  • chỉ thị tường minh về độ dài được ưu tiên, nên bất kể verbosity, nếu chỉ định độ dài cụ thể như “bài luận 5 đoạn”, mô hình sẽ tuân theo chỉ thị

5 bình luận

 
shakespeares 2025-08-08

Cá nhân tôi thấy claude-code có vẻ tốt hơn cho việc refactoring.
Khi dùng cursor + GPT5 để làm các tác vụ refactoring như xóa các phương thức không cần thiết, claude-code tìm và xóa khá tốt, trong khi GPT5 cho tôi cảm giác là chưa nắm được toàn cảnh của dự án.

 
cgl00 2025-08-08

Có thể cảm nhận rõ là tính hữu dụng đã tăng vọt, nhưng phản ứng kiểu như nó đã tiến gần đến AGI như người ta từng ầm ĩ nói trước đó thì đúng là vẫn bị thổi phồng thôi.

 
laeyoung 2025-08-08

Nếu chỉ nhìn phía lập trình (SWE-bench) thì là 74.9% (thinking), 52.8% (without thinking), còn Claude là 74.5% (Opus 4.1), 72.5% (Opus 4.0), 62.3% (Sonnet 3.7).

Nếu không dùng Thinking mode thì còn kém hơn Sonnet, còn nếu dùng thì cũng chỉ nhỉnh hơn Opus 4.1 một chút xíu.

 
xguru 2025-08-08

Video công bố chính thức của OpenAI (1 giờ 17 phút) https://www.youtube.com/watch?v=0Uu_VJeVVfo

 
GN⁺ 2025-08-08
Ý kiến trên Hacker News
  • Trước đây có nhiều ý kiến cho rằng nếu một công ty AI nào đó vượt qua ngưỡng AGI (trí tuệ nhân tạo tổng quát) thì sẽ một mình bứt lên dẫn đầu, nhưng điều thú vị là trên thực tế hiệu năng của mọi mô hình đang ngày càng trở nên giống nhau hơn; hiện tại GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro đều cho thấy hiệu năng tổng thể tốt, và từ góc nhìn người dùng, cảm giác cạnh tranh đang khốc liệt hơn bao giờ hết; khá tò mò muốn biết các nhà nghiên cứu nghĩ rằng dịch vụ của các đối thủ AI rồi sẽ ngày càng giống nhau hơn hay sẽ khác biệt hóa rõ hơn trong tương lai

    • Đáng chú ý là sau một ngưỡng nhất định, từ góc nhìn người dùng có thể sẽ khó phân biệt mô hình nào tốt hơn; ví dụ như một người chơi cờ có ELO 1000 nếu trực tiếp đấu với Magnus Carlsen và một đại kiện tướng khác thì cũng không dễ nhận ra ai mạnh hơn, nên hiện tượng các mô hình bị gom cụm theo tiêu chí đánh giá của con người thực ra có thể chỉ là một ảo giác

    • Lý do AGI được cho là sẽ tạo ra điểm kỳ dị là vì nó có thể tự học; hiện tại vẫn còn rất xa mới đạt tới điều đó, và cá nhân tôi nghĩ khả năng nhìn thấy AGI trong đời mình gần như không có; khoảng cách giữa mainframe thập niên 1970 và LLM có lẽ tương tự khoảng cách từ hiện tại tới AGI

    • Tôi cho rằng có thể hoàn toàn không thể mô phỏng mức trí tuệ cao hơn chỉ bằng các mô hình dự đoán văn bản theo xác suất; những người bạn làm nghiên cứu AI của tôi cũng không lo AGI dựa trên LLM vì giới hạn tăng hiệu năng theo dữ liệu (lợi ích cận biên giảm dần); trí tuệ con người có thể khái quát hóa rất tốt chỉ từ ít ví dụ, còn LLM chủ yếu tái tạo những lời giải thường xuất hiện trong dữ liệu huấn luyện; tuy vậy, ngay cả khi chưa phải AGI, công nghệ AI/ML/SL hiện có vẫn sẽ có những điểm đủ để thay đổi thế giới, đặc biệt ở các lĩnh vực như tìm kiếm, nơi khả năng tái hiện tri thức rộng là điều quan trọng

    • Trước đây tôi khá bi quan về AI, nhưng giờ cũng thấy may vì mình đã nghiêng khoảng 70% về phía cho rằng mô hình công nghệ hiện tại khó có thể dẫn đến ngày tận thế AI trong ngắn hạn; việc AI hiện nay chuyên giỏi “bắt chước chúng ta” và không thể vượt ra ngoài mức đầu ra trung bình của con người, vào lúc này lại là một điều may mắn; dù vậy, về mặt nguyên tắc, tôi vẫn cho rằng các lập luận của phe “AI doom” có lý và các mối đe dọa này cần được xem xét nghiêm túc

    • Tôi không thể đồng ý với lập luận rằng chỉ cần tạo ra một bộ bách khoa toàn thư phức tạp hơn cùng một giao diện tìm kiếm thú vị hơn, tạo cảm giác giống con người, là sẽ tiến gần AGI; thực tế là chẳng ai có bằng chứng hay hiểu được phần trí tuệ tổng quát (GI) đó bắt nguồn từ đâu; tất cả chỉ là cường điệu thiếu cơ sở và những lời phóng đại để gọi vốn, và tôi xem những người quảng bá AGI như thứ gì đó khả thi là lang băm; thật ngạc nhiên khi quá nhiều kỹ sư trong ngành đã hoàn toàn tin theo logic này, và điều đó khiến tôi nghi ngờ về độ lành mạnh của cả ngành

  • Mốc cắt kiến thức của GPT-5 là ngày 30 tháng 9 năm 2024 (khoảng 10 tháng trước khi phát hành), Gemini 2.5 Pro là tháng 1 năm 2025 (3 tháng trước), Claude Opus 4.1 là tháng 3 năm 2025 (4 tháng trước); liên kết liên quan: So sánh mô hình OpenAI, DeepMind Gemini Pro, Tổng quan mô hình Claude của Anthropic

    • Giờ đây khi đã có thể tìm kiếm web, tôi tự hỏi mốc cắt kiến thức còn mang nhiều ý nghĩa hay không; có lẽ đúng hơn nó là chỉ số cho thấy hậu huấn luyện đã mất bao lâu

    • Gemini dường như cố lấp khoảng trống thông tin sau mốc cắt kiến thức bằng các lượt tìm kiếm web đơn giản ở gần như mọi truy vấn

    • GPT-5 nano và mini có mốc cắt sớm hơn, là ngày 30 tháng 5 năm 2024

    • Vì mô hình có thể tìm kiếm web nên bản thân mốc cắt kiến thức không còn quá quan trọng

    • Thậm chí điều này còn có thể cho thấy OpenAI không cho phép bất kỳ đường tắt nào về mặt an toàn

  • Theo system card của GPT-5, GPT-5 là một hệ thống tích hợp kết hợp nhiều mô hình (cho câu trả lời nhanh, cho suy luận sâu) và một router; trong lúc trò chuyện, router sẽ chọn mô hình dựa trên các prompt như “hãy suy nghĩ nghiêm túc về việc này”; nhìn bề ngoài thì là một hệ thống duy nhất, nhưng thực chất là cấu trúc gồm nhiều mô hình con được ghép lại; có vẻ họ chọn cách này vì việc huấn luyện một mô hình khổng lồ duy nhất (end-to-end) đã trở nên quá đắt đỏ

    • Có thể chỉ là khác biệt về ngữ nghĩa, nhưng nếu các thành phần tự động vận hành và người dùng chỉ dùng một giao diện duy nhất thì có thể gọi đó là một “hệ thống tích hợp”; tất nhiên không phải là một “mô hình tích hợp”

    • Điều này một lần nữa xác nhận lý thuyết tương ứng với “bitter lesson”: trong cùng một phạm vi ngân sách nhất định, các hệ thống chuyên biệt được thiết kế thủ công có thể cho hiệu năng vượt trội hơn hẳn so với một hệ thống khổng lồ đa dụng

    • Theo GPT-5 cho nhà phát triển, GPT-5 trong ChatGPT là hệ thống kết hợp nhiều mô hình (suy luận, không suy luận, router, v.v.); còn GPT-5 trên API chỉ cung cấp riêng mô hình suy luận có hiệu năng tối đa; một số mô hình không suy luận của ChatGPT được cung cấp qua gpt-5-chat-latest và được tinh chỉnh theo hướng dành cho nhà phát triển

    • Nếu tổ hợp của nhiều mô hình nhỏ chuyên biệt thực sự là hướng đi đúng, thì chiến lược này là đáng mong muốn

    • Có thể vấn đề không phải là chi phí, mà là dữ liệu huấn luyện có thể dùng đang cạn dần nên khó học hiệu quả, hoặc dữ liệu mới đã bị ô nhiễm bởi dữ liệu do AI tạo ra nên không còn dùng được

  • Đã có cả những sai sót lớn trong benchmark và các demo cũng không ấn tượng như kỳ vọng, nên ngay cả trên các thị trường cá cược về việc ai sẽ là AI tốt nhất vào cuối năm nay cũng đã có thay đổi lớn; tôi kỳ vọng hơn vào Gemini 3.0 hay mô hình mới của Google, và nghĩ rằng trong cuộc đua LLM, bên “xuất hiện sau cùng” có thể lại có lợi thế hơn

    • Tôi đã thử đem các tác vụ từng thất bại trên Opus 4.1 sang GPT-5, và nó không chỉ xử lý thành công mà còn sửa luôn cả những lỗi mà Opus gây ra; thực sự cảm nhận được đây là hàng thật

    • Tôi không muốn một doanh nghiệp độc quyền đã có vốn hóa hàng nghìn tỷ USD lại sở hữu mọi thứ trên thế giới

  • Qua thử nghiệm thực tế, tôi thấy đây là một mô hình rất xuất sắc; khi trả lời câu hỏi, nó chủ động cố tận dụng công cụ nhiều hơn hẳn 4.1 hay o3, điều đó rất dễ nhận ra; ví dụ ngay ở câu trả lời đầu tiên nó đã gọi công cụ tới 6 lần chỉ để lấy thông tin, ví dụ: Ví dụ dùng công cụ

  • Cách lập luận trong khẩu hiệu marketing và livestream mang tính lặp lại kiểu “tốt hơn vì nó tốt hơn”; vẫn còn thiếu một lời giải thích rõ ràng vì sao GPT-5 lại cần một bản nâng cấp major; như mọi khi, cảm nhận từ chính chất lượng đầu ra (“vibe check”) rồi sẽ quyết định mức độ tin cậy của mô hình

    • Trong 6 tháng gần đây, nhiều thư viện JS phổ biến đã được đưa vào tập huấn luyện mới nhất nên giờ họ nói mô hình “mạnh hơn trong lập trình”, nhưng tôi lo cách này có bền vững hay không

    • Quảng bá thì nhiều nhưng dữ liệu/benchmark thực tế lại ít, nên tôi đành chờ cả những cảm nhận ngắn từ người dùng thực chiến như simonw

    • Tôi đã thử cả các bài toán chạm tới giới hạn của LLM như refactor code độ khó cao, nhưng khó cảm nhận được cải thiện chất lượng mang tính nền tảng so với các mô hình trước; ở thời điểm hiện tại, có vẻ mức cải thiện chất lượng đã chạm tới giới hạn, tức đoạn giảm tốc của đường cong S; việc cung cấp cùng một chất lượng với giá rẻ hơn vẫn có ý nghĩa, nhưng trong sử dụng hằng ngày thì thay đổi về chất lượng không mấy rõ rệt

    • Trang giới thiệu GPT-5 có kèm nhiều kết quả benchmark khác nhau như AIME 2025, SWE-bench, v.v.; không có gì thật sự mang tính bứt phá

    • Bây giờ có cảm giác như đã bước vào “thời đại smartphone mới nhất nên muốn sở hữu”

  • Theo livestream, mức cải thiện benchmark so với các mô hình hiện có là rất nhỏ; tôi hiểu vì sao trước khi ra mắt họ cố hạ kỳ vọng, nhưng trên thực tế mức cải thiện còn nhỏ hơn nhiều so với dự đoán

    • Trước ngày ra mắt, Sam Altman đã tweet hình Death Star khiến mọi người nảy sinh kỳ vọng

    • Các công ty AI big tech đang cạnh tranh quanh những vùng rất giống nhau mà không tạo được khác biệt rõ rệt, và có vẻ OpenAI giờ sẽ tập trung nhiều hơn vào tối ưu chi phí cùng các use case trợ lý đời sống/thương mại thay vì siêu trí tuệ; ngược lại, Anthropic và Google có dư địa tăng trưởng lớn hơn nên có thể đầu tư vào mức trí tuệ cao hơn; kết quả là có thể rồi sẽ xuất hiện các mô hình thông minh hơn trong dòng o series, nhưng rốt cuộc doanh thu và thực tế thị trường vẫn là giới hạn

    • GPT-5 hiện đứng số 1 trên WebDev Arena, hơn Gemini 2.5 Pro 75 điểm và hơn Claude Opus 4 100 điểm; tham khảo: bảng xếp hạng lmarena.ai

    • Các demo code hầu hết được thực hiện bằng GPT-5 MAX trên Cursor, trong khi đa số người dùng không thể thường xuyên dùng chế độ MAX như vậy; giá mà họ cũng trình diễn trên bản thường

    • Điều này khiến tôi nhớ lại phát biểu của Sam cách đây 2 năm rằng ông sẽ chọn phát triển dần dần thay vì các màn công bố gây sốc một lần; giờ mới là ngày đầu nên trong vài tháng tới vẫn còn dư địa tối ưu thêm 10~20%

  • Tôi thấy khó hiểu trục y trong tài liệu thuyết trình này là gì tranh cãi về biểu đồ liên quan

    • Ngay từ biểu đồ đầu tiên trong toàn bộ buổi thuyết trình đã thấy khá cẩu thả và quá giống làm gấp; sẽ tốt hơn nếu có cả so sánh với Opus 4.1; tham khảo thêm, điểm của Opus 4.1 là 74.5% tin về Anthropic Opus 4.1, điều này cho thấy ngay cả sau nâng cấp thì ở chỉ số đó Anthropic vẫn đang dẫn đầu
  • Trong ví dụ demo ChatGPT5, họ đưa ra lời giải thích sai về nguyên lý hoạt động của “cánh máy bay (airfoil)”: họ nói rằng không khí phía trên phải đi quãng đường xa hơn nên đi nhanh hơn và áp suất thấp hơn, còn phía dưới chậm hơn và áp suất cao hơn nên sinh ra lực nâng; nhưng thật ra không có cơ sở vật lý nào buộc luồng khí trên và dưới phải đến đích cùng lúc; bài liên quan: Cambridge, Anh; thật lạ khi ngay từ demo đầu tiên đã dùng một lời giải thích sai

    • Đây là lời giải thích hoàn toàn sai; nếu điều đó đúng thì airfoil dạng tấm phẳng đã không thể tạo lực nâng, nhưng thực tế thì khác; tôi nói điều này từ kinh nghiệm có bằng tiến sĩ về thiết kế máy bay

    • Đây là một ngộ nhận rất nổi tiếng, tức “equals transit time fallacy”, nên ngay cả khi không phải chuyên gia hàng không cũng từng nghe tới lỗi này

    • Cách diễn đạt “cấp độ PhD” nghe khá kỳ; một tiến sĩ thực thụ phải tạo ra khoa học mới vượt ngoài tri thức sẵn có, nhưng cho tới nay tôi chưa từng thấy LLM nào tự tạo ra khoa học mới; về cơ bản LLM chỉ là một bộ phân tích từ ngữ cực giỏi mà thôi

    • NASA cũng có một trang riêng giải thích về lời giải thích sai

    • Bartosz là người giải thích chủ đề này hay nhất

  • GPT-5 có cửa sổ ngữ cảnh 400k, đầu ra tối đa 128k token, giá đầu vào $1.25, đầu ra $10.00, tài liệu chính thức; nếu với hiệu năng này mà còn được đánh giá cao ở bài toán needle-in-haystack, thì nó sẽ có sức cạnh tranh vượt trội so với Gemini 2.5 Pro và Claude Opus 4.1; và nếu cả bản mini/nano cũng làm được tốt thì đây thậm chí là một bước nhảy vọt rất lớn

    • gpt-5 có cutoff là ngày 1 tháng 10 năm 2024, còn mini/nano là ngày 31 tháng 5 năm 2024; dòng 4.1 trước đó hỗ trợ 1M/32k token, giá token đầu vào rẻ hơn 37% nhưng token đầu ra đắt hơn 25%; chỉ riêng dòng nano là đầu vào rẻ hơn 50% còn giá đầu ra giữ nguyên

    • Nếu dùng API thì cũng phải tính cả chi phí xác minh danh tính nữa (thời gian, thủ tục, v.v.)