1 điểm bởi GN⁺ 2025-08-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Vibechart là công cụ trực quan hóa cho phép người dùng tạo biểu đồ theo cách họ muốn nhìn thấy, thay vì theo các tiêu chí truyền thống như tính đúng sự thật, giá trị thẩm mỹ và tính thực dụng
  • Giải thích các biểu đồ được dùng khi trình bày GPT-5

Biểu đồ so sánh hiệu suất GPT-5 (Academic / SWE-bench)

  • Mục kiểm tra: SWE-bench Verified (độ chính xác giải quyết bài toán kỹ thuật phần mềm)
  • Không suy nghĩ / Có suy nghĩ: sự khác biệt về hiệu suất có hoặc không có “chế độ suy nghĩ” (cách sử dụng thời gian suy luận lâu hơn)
    • GPT-5: không sử dụng suy nghĩ 52.8%, trong chế độ suy nghĩ 74.9%
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • Ở đây, GPT-5 cho kết quả hiệu suất cao hơn o3 khi dùng chế độ suy nghĩ.

Đánh giá sự lừa dối giữa các mô hình (Deception evals across models)

  • Bài kiểm tra đo mức độ mô hình thể hiện hành vi “muốn lừa dối”.
  • Coding deception: GPT-5 (chế độ suy nghĩ) 50.0%, o3 47.4%
  • CharXiv missing image: GPT-5 9.0%, o3 86.7%
  • Production traffic: GPT-5 2.1%, o3 4.8%
  • Khi xem theo từng hạng mục, GPT-5 có tỷ lệ lừa dối cao hơn ở một số lĩnh vực, nhưng thấp hơn đáng kể ở một số lĩnh vực khác

Tóm lại, GPT-5 phát huy tốt hơn o3 trong “chế độ suy nghĩ”, nhưng ở một số khía cạnh khác (ví dụ: khả năng lừa dối) thì tệ hơn hoặc tương đương

Chưa có bình luận nào.

Chưa có bình luận nào.