7 điểm bởi GN⁺ 2026-02-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemini 3 Deep Think, mô hình AI của Google hướng tới giải quyết các bài toán khoa học, nghiên cứu và kỹ thuật, đã được nâng cấp quy mô lớn
  • Phiên bản mới được thiết kế để xử lý các vấn đề phức tạp có dữ liệu không hoàn chỉnh hoặc không có đáp án rõ ràng, thông qua hợp tác với các nhà khoa học và nhà nghiên cứu
  • Đã đạt hiệu năng cấp huy chương vàng tại nhiều kỳ Olympic quốc tế và benchmark trong các lĩnh vực như toán học, lập trình, vật lý, hóa học
  • Hỗ trợ nghiên cứu thực tế và ứng dụng kỹ thuật, đồng thời cung cấp các tính năng thực dụng như tạo mô hình có thể in 3D từ bản phác thảo
  • Có sẵn cho người dùng đăng ký Google AI Ultra và thông qua chương trình truy cập sớm Gemini API, dự kiến sẽ mở rộng cho nhà nghiên cứu và doanh nghiệp

Tổng quan chính về Gemini 3 Deep Think

  • Gemini 3 Deep Think là chế độ suy luận chuyên biệt được thiết kế để giải quyết các thách thức hiện đại trong khoa học, nghiên cứu và kỹ thuật
    • Google đã hợp tác chặt chẽ với các nhà khoa học và nhà nghiên cứu để tăng cường khả năng xử lý những bài toán không có đáp án rõ ràng hoặc có dữ liệu chưa đầy đủ
    • Kết hợp tri thức lý thuyết và tính ứng dụng kỹ thuật thực tiễn để phát triển thành một mô hình tập trung vào ứng dụng thực tế
  • Bản nâng cấp lần này được cung cấp cho người đăng ký Google AI Ultra thông qua ứng dụng Gemini, đồng thời nhà nghiên cứu, kỹ sư và doanh nghiệp có thể đăng ký truy cập sớm qua Gemini API

Các trường hợp sử dụng ban đầu

  • Nhà toán học Lisa Carbone của Rutgers University đã sử dụng Deep Think để rà soát một bài báo toán học liên quan đến vật lý năng lượng cao và phát hiện lỗi logic đã vượt qua khâu rà soát của con người
  • Wang Lab của Duke University đã tối ưu hóa quy trình tăng trưởng tinh thể phức tạp để khám phá vật liệu bán dẫn, qua đó thiết kế công thức tăng trưởng màng mỏng trên 100μm
  • Anupam Pathak thuộc bộ phận Platforms & Devices của Google đã thử nghiệm Deep Think để tăng tốc thiết kế các linh kiện vật lý

Cải thiện độ chính xác về toán học và thuật toán

  • Deep Think đã ghi nhận thành tích cấp huy chương vàng tại International Mathematical OlympiadInternational Collegiate Programming Contest
  • Phiên bản mới nhất đã đạt mức cao nhất trên các benchmark học thuật sau
    • Humanity’s Last Exam: 48,4% (không dùng công cụ)
    • ARC-AGI-2: 84,6% (được ARC Prize Foundation xác minh)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: hiệu năng cấp huy chương vàng
  • Deep Think cũng được sử dụng để phát triển tác nhân chuyên biệt thực hiện khám phá toán học

Khám phá các lĩnh vực khoa học phức tạp

  • Vượt ra ngoài toán học và lập trình, hiệu năng cũng được cải thiện trong toàn bộ các lĩnh vực khoa học như hóa học và vật lý
    • Ở phần thi viết của Olympic Vật lý và Hóa học Quốc tế 2025, mô hình đạt kết quả ở mức huy chương vàng
    • Ghi 50,5% điểm trên benchmark vật lý lý thuyết CMT-Benchmark
  • Những kết quả này chứng minh sự mở rộng năng lực suy luận khoa học của Deep Think

Tăng tốc kỹ thuật trong thực tế

  • Deep Think hỗ trợ diễn giải dữ liệu phức tạpmô hình hóa hệ thống vật lý, hướng tới phục vụ công việc thực tế của nhà nghiên cứu và kỹ sư
  • Đang mở rộng khả năng tiếp cận trong môi trường nghiên cứu thực tế thông qua Gemini API
  • Ví dụ, người dùng có thể nhập bản phác thảo để tạo mô hình có thể in 3D, và Deep Think sẽ thực hiện từ phân tích, mô hình hóa đến tạo tệp

Truy cập và sử dụng

  • Người đăng ký Google AI Ultra có thể sử dụng Deep Think ngay trong ứng dụng Gemini
  • Nhà nghiên cứu, kỹ sư và doanh nghiệp có thể đăng ký tham gia chương trình truy cập sớm thông qua Gemini API
  • Google kỳ vọng Deep Think sẽ thúc đẩy sự lan tỏa của các khám phá khoa học và các trường hợp ứng dụng mới

1 bình luận

 
GN⁺ 2026-02-13
Ý kiến trên Hacker News
  • Thật đáng kinh ngạc khi điểm Arc-AGI-2 là 84.6%
    Xem bài blog chính thức thì có chi tiết về Gemini 3 Deep Think

    • Từ trước đến nay tôi luôn có ấn tượng rằng Gemini 3 đa dụng (general) đến mức khó tin
      Chỉ với mô tả bằng văn bản mà nó đã có thể thắng Balatro (ante 8). Với con người thì không quá khó, nhưng việc một LLM làm được điều đó mà không cần huấn luyện riêng thật đáng ngạc nhiên
      Tôi đã thử trên Balatro Bench, và Deepseek hoàn toàn không chơi được game này
    • Mới chỉ một năm trước, benchmark này còn ở mức 1~10%, mà giờ đã tăng lên đến mức gần như có thể gọi là cấp độ AGI, thật khó tin
    • Việc điểm ARC-AGI tăng là thú vị, nhưng xem đây là một bước nhảy vọt của “trí tuệ tổng quát” thì hơi quá
      Tôi còn đùa rằng chữ G trong ARC-AGI là “graphical”. Trước giờ các model yếu ở suy luận không gian (spatial reasoning), và có vẻ lần này điều đó đã được giải quyết
      Tôi hy vọng ARC-AGI 3 sẽ bổ sung các bài toán dạng trò chơi dựa trên thử-sai
    • Nhìn vào bảng xếp hạng ARC Prize, hiện chi phí khoảng $13.62 cho mỗi bài toán
      Thực tế thì có lẽ phải thêm 5~10 năm nữa chi phí chạy mới xuống mức hợp lý
      Dù vậy, tôi vẫn tự hỏi liệu model có đang quá khớp (fitting) với benchmark hay không
    • Muốn so sánh công bằng thì phải đặt cạnh các model cùng hạng như GPT-5.x Pro
  • Có cảm giác tốc độ phát hành model đang nhanh lên một cách bất thường
    Chỉ riêng hôm nay đã có Gemini 3 Deep Think và GPT 5.3 Codex Spark, còn vài ngày trước thì có Opus 4.6, GLM5, MiniMax M2.5

    • Có vẻ mùa Tết Nguyên đán Trung Quốc đã tác động đến chuyện này
      Các viện nghiên cứu Trung Quốc thường tung model vào thời điểm này, còn các lab Mỹ thì dường như vội công bố model mạnh hơn để tránh bị tạo hiệu ứng như DeepSeek R1 (20 tháng 1 năm 2025)
    • Dạo này có quá nhiều loại model đến mức ngay cả phân biệt cũng khó
      Gemini 3 Deep Think trông không hẳn là một model hoàn toàn mới, mà giống phiên bản Gemini 3 Pro được gắn thêm khả năng suy luận (subagent)
      Nó cũng có thể kết nối với các framework agent bên ngoài như OpenClaw, nên tranh cãi về “agent workflow” có vẻ bị thổi phồng
    • Vài tuần gần đây đúng là một chu kỳ phát hành bùng nổ
    • Tóm gọn trong một câu thì là Fast takeoff
  • Google đang dẫn trước hẳn
    Mọi người nghĩ họ đã tụt lại, nhưng hóa ra đó lại là chiến lược tốt nhất

    • Model thì ấn tượng, nhưng chất lượng sản phẩm thì rất tệ
      Tôi đã dùng Gemini web/CLI hai tháng, và nó hay mất ngữ cảnh giữa cuộc trò chuyện; hỏi về cải thiện chất lượng không khí thì lại đưa ra danh sách máy lọc không khí mà không có ngữ cảnh
      Thậm chí nó còn trích dẫn các trang tuyên truyền của Nga hoặc đang giữa câu thì chuyển sang tiếng Trung
      Với chất lượng như vậy thì 20 euro/tháng thật khó chấp nhận
    • Google lúc bình thường thì chậm chạp và quan liêu, nhưng Google ở chế độ thời chiến thì làm việc với tốc độ đáng kinh ngạc
    • Rồi chỉ vài giờ nữa OpenAI lại sẽ tung ra thứ gì đó, nên cuộc cạnh tranh này rất thú vị
      Những người từng nói ARC-AGI-2 là giới hạn của LLM giờ lại sẽ tiếp tục dời cột mốc
      Có lẽ phần lớn nỗ lực của con người sẽ được dùng để chứng minh rằng “AI vẫn chưa phải AGI”
    • Nhưng xét về khả năng ứng dụng ngoài đời thực, Google vẫn còn tụt lại
      Gemini 3 Pro vẫn còn nhiều vấn đề
  • Tôi đang dùng Gemini 3 Pro cho một dự án số hóa tài liệu lịch sử
    Tôi scan các biên bản họp viết tay bằng tiếng Đức từ 1885~1974, rồi chép lại và dịch từng trang một
    Đã xử lý khoảng 2,370 trang, độ chính xác 95%, chi phí API khoảng $50
    Vẫn cần rà soát thủ công, nhưng hiệu quả tiết kiệm thời gian là cực lớn

    • Có thể chỉ cần một lượt xử lý là đủ, nên sau khi kiểm tra xong cần đánh giá lại hiệu suất tổng thể
  • Theo trực giác của tôi, model hiện có ba phổ chính
    không suy nghĩ, có suy nghĩ, và best-of-N (Deep Think, GPT Pro)
    Độ phức tạp tính toán của chúng tăng gần như tuyến tính, bậc hai và bậc ba
    Loại có suy nghĩ có thể giải các bài toán cần viết scratchpad

    • Bước tiếp theo có lẽ sẽ là agent swarm
      Một model quản lý nhận prompt rồi tạo nhiều agent con để thử song song, sau đó đánh giá và phân phối lại kết quả
    • Với model best-of-N, điểm cốt lõi là khai thác ngữ cảnh dài
      Từ bản 2.5, Google đã xử lý ngữ cảnh dài thực sự khá tốt
      Khái niệm pass@N cũng rất thú vị; nó phù hợp với các công việc tìm kiếm biến thời gian thành tiền, như tìm lỗ hổng bảo mật hay bài toán tối ưu hóa
    • Về câu hỏi liệu một model lớn không suy nghĩ có thể đạt hiệu năng như một model nhỏ có suy nghĩ hay không, thì các model của Anthropic là ví dụ tốt
      Trong hình này, Opus 4.6 cho thấy hiệu năng cao ngay cả khi không suy nghĩ
  • File PDF về phương pháp đánh giá của mọi benchmark đều ở đây
    Điểm ARC-AGI-2 là 84.6% dựa trên bộ semi-private,
    và nếu vượt 85% trên bộ private thì sẽ được xem là “solved” và nhận giải thưởng $700K
    Tham khảo hướng dẫn ARC Prize

    • Nhìn tiêu đề tài liệu là “Gemini 3.1 Pro” thì có vẻ sắp có phiên bản mới
    • Nhưng tôi nghĩ rất khó vượt 85% trên bộ private, vì điều đó có thể đồng nghĩa với rò rỉ dữ liệu
  • Dạo này các model tiến bộ quá nhanh, đến mức tôi cảm thấy công việc của mình có thể biến mất trong 3~5 năm tới
    Có vẻ giờ LLM đã bước vào giai đoạn tự cải thiện chính nó

  • Thật tiếc là nó không có trên OpenRouter
    Dạo này các model Deep Think hàng đầu đều bị khóa chỉ dùng trên nền tảng của chính họ

    • OpenRouter cũng tốt, nhưng litellm là một thư viện Python đơn giản nên gọn gàng hơn
      Xem tài liệu litellm
    • Nhưng giờ tôi có cảm giác thời kỳ hoàng kim (golden age) đã qua rồi
  • Gemini luôn cho tôi cảm giác là một model giàu kiến thức nhưng thiếu linh hoạt
    Nó dễ sụp đổ trước các yêu cầu nằm ngoài kịch bản

    • Thật ra trải nghiệm như vậy cũng có thể là vấn đề về mức độ thích nghi của người dùng
      Tôi dùng model của Google đã lâu nên lại thấy model của OpenAI kém hơn hẳn
      Ngược lại, người dùng OpenAI chắc cũng sẽ cảm thấy model mình dùng là tốt nhất vì lý do tương tự
    • Ở một số khía cạnh, Gemini giống như một model suy nghĩ theo cách riêng của nó
      Tôi vẫn chưa thử kỹ, nhưng có thể khả năng làm theo chỉ dẫn của nó đã được cải thiện
  • Thật ngạc nhiên khi tốc độ phát triển model nhanh đến vậy
    Tôi đã nghĩ sớm muộn cũng sẽ đụng trần, nhưng các model mới lại phá vỡ hoàn toàn các benchmark hiện có

    • Nhưng vì các công ty đang tập trung vào tối ưu điểm benchmark, nên mức độ tương quan với hiệu năng thực tế đang ngày càng giảm đi