9 điểm bởi GN⁺ 2025-04-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemini 2.5 Pro vượt trội hơn trong việc viết mã
  • Claude 3.7 Sonnet cũng rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini 2.5 Pro có lợi hơn
  • Cửa sổ ngữ cảnh 1 triệu token và khả năng sử dụng miễn phí là những ưu điểm lớn
  • Trước đây Claude 3.7 Sonnet luôn là mốc so sánh tiêu chuẩn, nhưng giờ điều đó đã thay đổi

Giới thiệu ngắn về Gemini 2.5 Pro

  • Mô hình suy luận thử nghiệm do Google ra mắt vào ngày 26/3/2025
  • Sau khi ra mắt đã tạo ra tiếng vang rất lớn trên Twitter(X), YouTube và nhiều nơi khác
  • Đạt hạng 1 trên LMArena, cho thấy hiệu năng rất xuất sắc trong viết mã, toán học, khoa học, hiểu hình ảnh và nhiều tác vụ khác
  • Cung cấp cửa sổ ngữ cảnh 1 triệu token, và trong tương lai còn được báo trước sẽ có 2 triệu token
  • Theo SWE Bench, độ chính xác đạt 63.8%, cao hơn 62.3% của Claude 3.7 Sonnet
  • Chứng minh hiệu năng vượt trội qua nhiều ví dụ như bản demo trò chơi khủng long do Google cung cấp
  • Nhìn chung được đánh giá là một mô hình đa năng phù hợp không chỉ cho lập trình mà cho mọi công việc trí tuệ

So sánh các bài kiểm tra lập trình

1. Tạo flight simulator

  • Gemini 2.5 Pro
    • Tạo ra một trình mô phỏng hoạt động hoàn hảo
    • Đáp ứng đầy đủ mọi yêu cầu như điều khiển máy bay, tạo thành phố phong cách Minecraft
    • Mức độ hoàn thiện 10/10
  • Claude 3.7 Sonnet
    • Gặp lỗi máy bay bay ngang và đi ra ngoài thành phố
    • Mức độ hoàn thiện về chức năng thấp hơn
  • Tóm tắt: Gemini 2.5 Pro thắng hoàn toàn

2. Trực quan hóa và giải Rubik's Cube

  • Gemini 2.5 Pro
    • Triển khai trực quan hóa và lời giải chính xác ngay trong một lần
    • Sử dụng Three.js, triển khai hoàn chỉnh màu sắc khối lập phương, xáo trộn ngẫu nhiên, hoạt ảnh và nhiều yếu tố khác
  • Claude 3.7 Sonnet
    • Thất bại trong việc hiển thị màu sắc và giải bài toán
    • Có giới hạn tương tự như các LLM khác
  • Tóm tắt: Gemini 2.5 Pro tiếp tục áp đảo ở hạng mục này

3. Trực quan hóa quả bóng nảy bên trong tesseract 4 chiều

  • Gemini 2.5 Pro
    • Đáp ứng mọi yêu cầu như va chạm vật lý, làm nổi bật các mặt
    • Chất lượng mã và trạng thái hoạt động đều rất tốt
  • Claude 3.7 Sonnet
    • Chức năng có hoạt động nhưng thêm màu sắc không cần thiết
    • Dù vậy vẫn đáp ứng được các tính năng được yêu cầu
  • Tóm tắt: Cả hai mô hình đều đáp ứng yêu cầu, Claude cuối cùng cũng thành công

4. Bài toán LeetCode: tìm tổng lớn nhất bằng cách đặt 3 quân xe

  • Gemini 2.5 Pro
    • Viết mã phức tạp hơn nhưng cho lời giải chính xác
    • Cũng cân nhắc hợp lý về độ phức tạp thời gian
  • Claude 3.7 Sonnet
    • Viết mã ngắn gọn nhưng bị quá thời gian (TLE)
    • Dễ hiểu hơn nhưng còn thiếu về mặt hiệu năng
  • Tóm tắt: Gemini 2.5 Pro dẫn trước cả về hiệu năng lẫn độ chính xác

Kết luận

  • Gemini 2.5 Pro có ưu thế rõ ràng
    • Vượt Claude 3.7 Sonnet về cửa sổ ngữ cảnh, độ chính xác và hiệu năng đa nhiệm
  • Claude vẫn là một mô hình rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini hiệu quả hơn
  • Nếu trong tương lai mở rộng lên cửa sổ 2 triệu token, hiệu năng sẽ còn được cải thiện hơn nữa
  • Cùng với mẫu nhẹ Gemma 3 27B gần đây của Google, nó tạo thành một dòng AI rất mạnh

1 bình luận

 
GN⁺ 2025-04-01
Ý kiến trên Hacker News
  • Muốn mở một cuộc thi có giải thưởng tiền mặt cho các bài toán lập trình thực tế. Cần đặt ra luật chơi. Nghi ngờ liệu LLM có thể giải được bài toán này hay không

    • Đó là tạo phiên bản GTK 4 cho Solvespace
    • Có một tệp C++ duy nhất cho mỗi nền tảng
    • Mục tiêu là viết lại tệp GTK3 sang GTK4
    • Nếu muốn chứng minh năng lực của AI, khuyến nghị ghi lại toàn bộ phiên làm việc và biến nó thành video YouTube
    • Bài kiểm tra cuối cùng là liệu PR có được chấp nhận hay không
  • Gemini là mô hình duy nhất cho biết thời điểm cuộc trò chuyện bị ngắt

    • ChatGPT có xu hướng quên cuộc trò chuyện khi ngữ cảnh bị đầy
    • Gemini thiếu công cụ, nhưng về cơ bản cho cảm giác như là mô hình tốt hơn
  • Đã dùng Gemini 2.5 Pro và thấy khá ổn

    • Claude 3.5 có vẻ tốt hơn trong việc tuân theo chỉ thị
    • Thất vọng với các công cụ Cursor và Claude CLI
    • Thích cách Gemini hiển thị cửa sổ ngữ cảnh
    • Nghĩ rằng thị trường không thể chịu nổi các mức định giá của những công ty AI lớn
    • Có lúc mô hình miễn phí lại tốt hơn
  • Trong cuộc cạnh tranh giữa các mô hình AI, người thua có vẻ là Microsoft

    • Khi ChatGPT là lựa chọn duy nhất, Microsoft được xem là bên dẫn đầu
    • Copilot là một sản phẩm thất bại, còn Bing thì không tận dụng được AI
    • Có nhắc tới việc Sundar Pichai của Google muốn so sánh với mô hình của Microsoft
  • Gemini 2.5 Pro đạt điểm cao trên bảng xếp hạng lập trình đa ngôn ngữ của aider

    • Chủ yếu được dùng cho công việc phát hành mới nhất của aider
    • Vấn đề lớn nhất của Gemini hiện tại là giới hạn tốc độ quá nghiêm ngặt
  • Trong ví dụ Rubik's Cube, Gemini 2.5 dùng một chuỗi xáo trộn đã được ghi nhớ

    • Nó giải khối lập phương bằng cách đảo ngược chuỗi xáo trộn
  • Hồi dùng Visual Basic thập niên 90, việc tạo dự án mới từ template từng rất thú vị

    • Lập trình với AI cũng tương tự, nhưng mang cảm giác bị thổi phồng
    • Có nhắc đến việc Claude bị bối rối vì chiếc máy bay nằm ngang
  • Gemini 2.5 không tốt với mã Cython phức tạp

    • Claude và o3 làm tốt việc tuân theo chỉ thị
    • Gemini cố thử các thay đổi không liên quan
  • Có câu hỏi về việc liệu có cần một cuộc thảo luận không thiên vị hay không

    • Liên kết của OP trông như một quảng cáo thiên vị cho Composio
    • Có những mô tả cường điệu về Gemini 2.5 Pro
  • Mọi tác vụ kiểm thử đều là dự án greenfield

    • Để dùng LLM thì cần thay đổi hoặc chỉnh sửa trong các dự án hiện có
    • Nghĩ rằng các bài kiểm thử không có ý nghĩa trong việc đo mức độ hữu ích của mô hình