Vibechart

(vibechart.net)

1 điểm bởi GN⁺ 2025-08-08 | 1 bình luận | Chia sẻ qua WhatsApp

Vibechart là công cụ trực quan hóa cho phép người dùng tạo biểu đồ theo cách họ muốn nhìn thấy, thay vì theo các tiêu chí truyền thống như tính đúng sự thật, giá trị thẩm mỹ và tính thực dụng
Giải thích các biểu đồ được dùng khi trình bày GPT-5

Biểu đồ so sánh hiệu suất GPT-5 (Academic / SWE-bench)

Mục kiểm tra: SWE-bench Verified (độ chính xác giải quyết bài toán kỹ thuật phần mềm)
Không suy nghĩ / Có suy nghĩ: sự khác biệt về hiệu suất có hoặc không có “chế độ suy nghĩ” (cách sử dụng thời gian suy luận lâu hơn)
- GPT-5: không sử dụng suy nghĩ 52.8%, trong chế độ suy nghĩ 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
Ở đây, GPT-5 cho kết quả hiệu suất cao hơn o3 khi dùng chế độ suy nghĩ.

Đánh giá sự lừa dối giữa các mô hình (Deception evals across models)

Bài kiểm tra đo mức độ mô hình thể hiện hành vi “muốn lừa dối”.
Coding deception: GPT-5 (chế độ suy nghĩ) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
Khi xem theo từng hạng mục, GPT-5 có tỷ lệ lừa dối cao hơn ở một số lĩnh vực, nhưng thấp hơn đáng kể ở một số lĩnh vực khác

Tóm lại, GPT-5 phát huy tốt hơn o3 trong “chế độ suy nghĩ”, nhưng ở một số khía cạnh khác (ví dụ: khả năng lừa dối) thì tệ hơn hoặc tương đương

1 bình luận

GN⁺ 2025-08-08

Bình luận Hacker News

Có một phiên bản được làm với số liệu và kích thước cột trông hợp lý hơn ở phần "evaluation" của bài đăng ra mắt GPT-5 của OpenAI (Liên kết). Có thể chỉ là một lỗi đơn giản, nhưng bản thân việc một công ty đã chi hàng tỷ đô la và hứa hẹn sẽ cách mạng hóa mọi hoạt động của con người mà lại không thể làm ra một slide PowerPoint đúng chuẩn vẫn tạo cảm giác rất khó chịu.
- Giống như họ đang tự nếm thức ăn mà họ tự sản xuất để bán.
- Có thể là AI mới sinh đồ họa này.
- Người ở OpenAI là hàng đầu trong ngành, nên khó tin họ lại làm sai đến mức này.
Ban đầu mình tưởng đây là chỉ số về vibe coding, hóa ra không phải; đó là WakaTime.
Mình nghĩ biểu đồ "Coding deception" cũng nên được đưa vào, vì nó cực kỳ dễ gây hiểu nhầm (50.0 không hề nhỏ hơn 47.4) (Liên kết)
- Mình đã chèn ảnh biểu đồ đó vào ChatGPT-5 và hỏi: "Bạn có thể thấy có lỗi trong biểu đồ này không, và tìm ra được chỗ sai chỗ nào không?" ChatGPT trả lời: "Trong biểu đồ 'Coding deception' đầu tiên, cột hồng của GPT-5 (phiên bản reasoning) hiển thị 50.0% trong khi cột trắng của OpenAI o3 hiển thị 47.4%, nhưng về trực quan cột trắng được vẽ ngắn hơn cột hồng. Chênh lệch phần trăm không quá lớn nhưng trực quan vẫn không khớp." Mình có cảm giác đáng lẽ nên dùng ChatGPT để review slide rồi.
- Mình mất khá nhiều thời gian mới xác định ra điều gì sai trong bài đăng và liên kết trên. Khó hiểu họ đã nghĩ gì khi làm ra nó. Giờ thì lại thắc mắc liệu AI có đang vẽ biểu đồ và không ai review hay không.
- Lỗi này quá hiển nhiên đến mức mình nghĩ có thể có ai đó gán nhãn biểu đồ sai. Có khi mình đang hơi lạc quan?
- Mình đã thêm vào biểu đồ.
- Mình hiểu phần này khoảng nửa vời. 'deception' là một thuộc tính không mong muốn trong LLM, nên càng ít thì người xem sẽ nghĩ là 'tốt hơn'. Nhưng với các thứ khác không mang tính chất 'less is more', mình không thấy cách thể hiện nó đúng trong biểu đồ (chưa kể lỗi biểu đồ không bắt đầu từ 0), nên kết luận cuối cùng là điều phi lý hoàn toàn.
Mình tò mò chuyện này đã xảy ra thế nào. Có lẽ gần cuối, một lãnh đạo cấp cao đã chen vào và góp ý: "Nếu mô hình mới chỉ nhỉnh hơn mô hình cũ một chút thôi thì nhìn sẽ tệ, nên chỉnh trục y để trông giống cải thiện nhiều hơn."
- Cảm giác thật đáng sợ khi những người kém năng lực như vậy lại có cả tiền lẫn quyền lực như vậy.
- Có thể họ đã nhờ GPT-5 chỉnh lại slide.
- Cảm nhận thấy không khí cấp bách bao trùm quanh OpenAI nên cũng không ngạc nhiên nếu dàn dập hype kiểu này đến từ cấp cao.
- Đây là chuẩn ngành rồi. Chẳng hạn, mỗi lần Nvidia tung ra GPU mới đều dùng loại biểu đồ tương tự. Apple cũng làm y hệt trên dòng CPU M. Thậm chí còn so sánh cả với model vài đời trước để phóng đại hơn nữa.
Mình luôn sẽ đầu tư vào biểu đồ có nhiều màu hồng hơn xám.
Mình biết OpenAI từ đầu đã xem cả "dữ liệu" cũng là một phần của marketing, và họ đã xử lý như vậy. Mình nghĩ không phải cố ý, nhưng họ rõ ràng biết cách trình bày dữ liệu theo kiểu phóng đại kết quả và giấu đi thất bại từ thời Dota 2.
Đây là cách tương tự như phần demo kính của Cybertruck.
Cột 69.1 cao đúng bằng cột 30.8. Có vẻ như họ copy cột 30.8 rồi chỉ đổi số và quên chỉnh chiều cao. Cũng có vẻ như họ chỉ kiểm tra qua loa rằng nó thấp hơn mô hình mới rồi bỏ qua. Tuy nhiên, chiều cao của cột 50.0 không thể giải thích theo cách đó.
- Nhìn sơ bộ thì cột đó cao khoảng 15%. Họ có thể đã vô tình ghi 15 thay vì 50. Nhưng một lỗi kiểu này, mình nghĩ, không thể bắt gặp trong keynote chiến lược của startup nổi tiếng nhất trong lịch sử hơn là trong bài thuyết trình của học sinh trung học. Nhân tiện, tất cả người liên quan tới bài trình bày này đều chắc chắn nhận thưởng 1,5 triệu đô la. Nghĩ đến chuyện đó thấy chạnh lòng.
- Không thể hiểu tại sao trong một bài trình bày chuyên nghiệp lại phải vẽ thủ công từng cột và nhãn riêng. Không phải để tạo phong cách gì đặc biệt mà đây, thậm chí ngay cả một biểu đồ cột cơ bản, cũng không thể gặp lỗi như vậy nếu không có chủ ý.
Nhìn cảnh mọi người cố gắng làm mờ đi sự tự dối trá của chính mình, mình chỉ thấy bật cười.