2 điểm bởi GN⁺ 2025-08-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemini 2.5 Deep Think đã được đưa vào ứng dụng Gemini dành riêng cho người đăng ký Google AI Ultra
  • Kỹ thuật suy luận song song (parallel thinking) mới và kết quả nghiên cứu mới nhất đã được phản ánh, cải tiến để sử dụng thực tế hơn dựa trên mô hình đạt huy chương vàng tại IMO
  • Thể hiện hiệu năng vượt trội trong nhiều nhiệm vụ phức tạp như giải quyết vấn đề sáng tạo, suy luận toán học và khoa học, cũng như phát triển thuật toán
  • Để nâng cao hiệu năng, thời gian suy luận (Thinking Time) được tăng để cùng lúc khám phá nhiều ý tưởng và lời giải, từ đó tạo ra suy nghĩ sâu hơn và kết quả sáng tạo hơn
  • Đã tăng cường đánh giá và biện pháp cho an toàn và phát triển AI có trách nhiệm, đồng thời công bố kế hoạch mở rộng sử dụng qua API và doanh nghiệp

Ra mắt Gemini 2.5 Deep Think

  • Gemini 2.5 Deep Think được cung cấp cho người đăng ký Google AI Ultra qua ứng dụng Gemini
  • Phiên bản này đã phản ánh phản hồi từ các nhóm thử nghiệm đáng tin cậy và đội ngũ nghiên cứu
  • Dựa trên mô hình cấp huy chương vàng tại Olympic Toán Quốc tế (IMO) gần đây, tốc độ và tính thực dụng đã được tối ưu để phù hợp hơn với trải nghiệm người dùng thực tế
  • Việc công bố này mở rộng khả năng hoạt động của Gemini như một công cụ giải quyết vấn đề sáng tạo, và kế hoạch nâng cấp chức năng dựa trên phản hồi từ các nhà toán học và nhà nghiên cứu sẽ tiếp tục được triển khai

Nguyên lý hoạt động của Deep Think

  • Áp dụng kỹ thuật suy nghĩ song song, Gemini đồng thời dò tìm và so sánh/ghép nối nhiều ý tưởng và lời giải cho các vấn đề phức tạp
  • Tăng thời gian suy luận (Thinking Time) của mô hình để sâu hơn trong việc khám phá nhiều giả thuyết, giúp tìm ra giải pháp sáng tạo hơn
  • Được huấn luyện bằng học tăng cường để tận dụng tích cực các đường dẫn suy luận mở rộng này, tăng cường khả năng giải quyết vấn đề sâu sắc và trực giác hơn

Hiệu năng và ứng dụng chính của Deep Think

  • Phát triển và thiết kế theo từng bước: Đạt hiệu năng cao trong các nhiệm vụ cải tiến hệ thống hoặc thiết kế phức tạp theo từng giai đoạn
  • Khám phá khoa học và toán học: Mạnh trong các nghiên cứu sáng tạo cấp cao như suy luận toán học hoặc diễn giải bài báo khoa học
  • Phát triển thuật toán và viết mã: Đạt hiệu năng hàng đầu trong các bài toán lập trình khó, nơi cần cấu trúc hóa vấn đề cùng xem xét độ phức tạp thời gian và trade-off
  • Chứng minh hiệu năng tốt nhất về mã/kiến thức/suy luận so với các mô hình trước đó trên các benchmark mới nhất (ví dụ: LiveCodeBench V6, Humanity’s Last Exam)

Phát triển có trách nhiệm và an toàn của Gemini

  • Gemini 2.5 Deep Think cho thấy sự an toàn nội dunggiọng điệu khách quan được cải thiện hơn so với mô hình Pro hiện tại trong các đánh giá an toàn
  • Cùng với việc tăng độ phức tạp của nhiệm vụ, mức độ rủi ro cũng được đánh giá tăng cường; các đánh giá Frontier Safety và biện pháp ứng phó cần thiết đã được tăng cường
  • Kết quả an toàn chi tiết có thể xem trong model card

Cách sử dụng Deep Think

  • Người đăng ký Google AI Ultra có thể truy cập tính năng này trên ứng dụng Gemini bằng cách chọn 2.5 Pro trong menu thả xuống mô hình rồi bật Deep Think toggle trên thanh prompt, với số lần sử dụng được giới hạn theo ngày
  • Tự động tích hợp với công cụ như chạy mã, Google Search, v.v., cho phép tạo ra câu trả lời dài hơn đáng kể
  • Sắp tới sẽ có thêm các đợt kiểm thử dành cho Gemini API và doanh nghiệp

1 bình luận

 
GN⁺ 2025-08-02
Ý kiến Hacker News
  • Tôi đã thử agent Deep Think mới ra, nhưng vừa nhập được năm prompt thì đã chạm giới hạn sử dụng hằng ngày. Với mức giá $250 mỗi tháng mà dịch vụ như thế này thì khá thất vọng. Xét về khả năng cạnh tranh giá, nó thua xa o3-pro hay Grok 4 Heavy. Trong cộng đồng AI, tính năng này được chú ý như phần duy nhất có thể phần nào biện minh cho giá thuê bao Google Ultra. Nhưng Google lại cung cấp model tốt nhất miễn phí trên AI Studio, trong khi với người dùng Ultra thực sự trả tiền thì lại áp dụng chính sách tính phí kiểu này, thật sự khó hiểu. Về hiệu năng, khi tôi đưa vào một tình huống vấn đề kinh doanh khó, nó trả ra một giải pháp rõ ràng và thuyết phục, trùng với kết luận từ các cuộc họp nội bộ của chúng tôi. Nhưng cuối cùng o3 cũng đưa ra kết luận tương tự với giá rẻ hơn nhiều. Chỉ là báo cáo của o3 có cảm giác kém gọn gàng hơn. Có lẽ phải dùng thêm mới biết

    • Có thể đây chưa phải thứ đã hoàn toàn sẵn sàng để thương mại hóa/tối ưu hóa, nhưng cũng có thể là chiến lược tung ra trước Đạo luật AI của Liên minh châu Âu (EU AI Act) có hiệu lực vào ngày 2 tháng 8, rồi có 2 năm để đáp ứng tiêu chuẩn. Vì vậy tôi nghĩ nhiều khả năng họ công bố trước nhưng áp giới hạn sử dụng rất chặt cho một nhóm nhỏ người dùng
    • Tôi tò mò về hiệu năng của Deep Think trong các tác vụ cần context lớn. Parallel thinking (tư duy song song) có thể rất hữu ích với một số loại bài toán cụ thể, nên tôi muốn thử xem liệu nó có thể xử lý nhiều ngữ cảnh hơn so với chain of thought truyền thống vốn không bao quát hết được hay không
    • Vài năm trước, thước đo năng lực lập trình là làm được mà không cần tìm kiếm trên internet, hoặc đăng một câu hỏi được trình bày tốt ở nơi như StackOverflow rồi tự quay lại trả lời nó. Đôi khi thấy những bình luận kiểu “Tôi loay hoay 3 ngày rồi, câu trả lời này đã cứu đời tôi” thì rất tự hào. Cả tuần này tôi đang giải một vấn đề khó, nhưng các model AI kiểu Copilot gần như không giúp được gì. Trong lập trình, năng lực chỉ thực sự được cảm nhận khi không ai giúp được bạn cả, kể cả AI, và bạn phải tự mình khái quát hóa, tổng hợp và đưa ra ý tưởng sáng tạo. (Nên tôi đang tự an ủi rằng để bị AI coding agent thay thế hoàn toàn thì chắc vẫn còn cần thêm thời gian)
    • Tôi đã dùng cả Grok 4 và 4 Heavy, và theo trải nghiệm của tôi thì thực sự rất tệ. Dù có cho nhập bao nhiêu truy vấn đi nữa, nếu câu trả lời dở thì cũng vô ích. Đây là khoản chi tệ nhất của tôi cho LLM trong năm nay. Tôi đã đầu tư khá nhiều vào các AI khác nhau, nhưng tiền chi cho Grok là đáng tiếc nhất
    • Nhiều lúc tôi thấy thật ngạc nhiên khi Google cung cấp model cao cấp nhất miễn phí trên AI Studio nhưng lại chỉ cho khách hàng thực trả tiền một chút lợi ích ít ỏi. Nhưng mặt khác điều đó cũng chẳng bất ngờ. Có lẽ Google không kiếm được biên lợi nhuận lớn từ khách hàng AI Ultra, và họ coi khối dữ liệu người dùng khổng lồ từ free tier của AI Studio là quan trọng hơn. Nếu mở model tốt nhất miễn phí, họ sẽ dễ dàng giành được thị phần từ những người dùng có yêu cầu cao nhất. Sau đó về sau họ có thể áp chính sách thu phí lên nhóm này, nên đây cũng là một chiến lược tốt để tận dụng số máy chủ nhàn rỗi mà Google hiện có
  • Mọi người, đây là kết quả khi tôi prompt Gemini Deep Think rằng “hãy vẽ một ảnh SVG con bồ nông đang đi xe đạp” https://www.svgviewer.dev/s/5R5iTexQ Tôi làm trước cả Simon Willison!

    • Thứ gì thành meme trên HN thì số phận là sớm muộn cũng sẽ chui vào dữ liệu huấn luyện. Nghĩ đến cảnh mỗi công ty AI đều có một thực tập sinh đang đổ mồ hôi để vẽ cho ra một SVG con bồ nông thật ngầu thì buồn cười thật
    • Tôi vừa xem kết quả, và khá bất ngờ vì nó đúng là trông như một con bồ nông, khá ổn đấy
    • Mấy benchmark meme kiểu này (ví dụ hình quả dâu) thì vui thật, nhưng vì đã bị đưa vào huấn luyện model quá nhiều gần đây nên đây là kiểu đo lường rất dễ bị đánh lừa
    • Đây đúng là kiểu giá trị khiến bạn cảm thấy mình đang sống trong tương lai
    • Thành thật mà nói, đây là lần đầu tiên tôi cảm thấy “chỉ nhìn SVG mà không cần prompt vẫn có thể nhận ra đó là con bồ nông đi xe đạp”. Trường hợp vocal tower ở đây cũng rất ấn tượng. Xét về nhận thức thị giác/không gian thì tôi nghĩ đây là một thành quả đáng kể
  • Nếu muốn tự chạy thử, bạn có thể dùng LLM cli của simonw và plugin llm-consortiumƯu điểm 1: có thể tự do phối hợp nhiều model với nhau. Có thể cấu hình theo tổ hợp mình muốn bất kể phòng lab nàoƯu điểm 2: dùng plugin llm-model-gateway để nối vào app hay công cụ cộng tác code của mình qua local API chỉ trong một lần https://x.com/karpathy/status/1870692546969735361
    Có cả phần cài đặt, ví dụ lệnh, và cả ví dụ cho thấy còn có thể tạo consortium of consortium nữa.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Tôi thắc mắc vì sao lại gọi đây là phiên bản local của Gemini Deep Think. Cấu trúc multi-agent có thể được triển khai bằng nhiều cách khác nhau chứ nhỉ. Và do covariance giữa nhiều model nên lỗi có thể bị đồng bộ hóa, vì vậy tôi nghĩ tối ưu hiệu năng sẽ phụ thuộc vào việc giữ độ tương quan lỗi thấp giữa các cấu trúc kết hợp khác nhau trong khi vẫn duy trì độ chính xác riêng của từng model. Tôi muốn thử điều này trên các benchmark có nhiều lời giải
    • Tôi tự hỏi liệu Liên minh châu Âu (EU) có phải là consortium of consortiums không
    • Nếu ai biết có plugin OpenWebUI nào hỗ trợ tính năng kiểu này thì mong chỉ giúp
    • Có người nói không thấy lệnh llm serve
  • Đây không phải model đã giành huy chương vàng tại IMO (Olympiad Toán học Quốc tế) vài tuần trước, nhưng là một biến thể rất gần https://x.com/OfficialLoganK/status/1951262261512659430Hiện vẫn chưa được cung cấp qua API

  • Cách tiếp cận lần này giống với Grok 4 Heavy: chạy song song nhiều agent “suy luận”, rồi so sánh câu trả lời với nhau để chọn ra đáp án tốt nhất, mất khoảng 30 phút. Kết quả thì rất tốt, nhưng xét công bằng thì benchmark nên so với Grok 4 Heavy hơn là Grok 4 (single agent, model nhanh hơn)

    • Nếu phân phối cùng một lượng sức mạnh tính toán suy luận cho nhiều agent, kết quả sẽ tốt hơn. Cả vấn đề “nghĩ lâu thì câu trả lời còn tệ hơn” cũng có thể được khắc phục bằng cách suy nghĩ ngắn hơn nhưng theo nhiều nhánh song song
    • Trong bài viết có nói Deep Think đạt lời giải cuối cùng bằng cách tạo ra nhiều ý tưởng cùng lúc theo kiểu tư duy song song, đồng thời xem xét, tích hợp và chỉnh sửa chúng. Theo tôi, mô tả này không làm rõ liệu có dùng multi-agent hay không nên vẫn còn chỗ cho nhiều cách diễn giải
    • Grok-4 heavy dùng tool để giải khá dễ nhiều bài toán xuất hiện trong benchmark, nên việc so sánh trực tiếp có giới hạn
    • Tôi tò mò cách làm của Google khác gì so với Mixture of Experts. Với Mixture of Experts thì mỗi expert được học trọng số khác nhau ngay từ đầu, còn ở đây dường như chỉ điều chỉnh temperature để tạo ra sự đa dạng trong suy nghĩ. Tôi muốn biết liệu đã có tài liệu nào so sánh rõ ràng trong paper giữa việc chạy cùng một model nhiều lần để có đa dạng ý tưởng với việc chạy đồng thời nhiều model có kiến trúc/trọng số khác nhau hay chưa
    • Tôi ngạc nhiên là vẫn chưa có ứng dụng nào chạy các LLM lớn theo kiểu đối đầu trong cùng một chỗ rồi chọn ra câu trả lời cuối cùng
  • OpenAI đã nâng giá lên $200, Anthropic lên $100·$200, Gemini là $250, còn Grok tới $300. Chỉ OpenAI là nói “gần như không giới hạn”, và thực tế tôi chưa từng chạm trần ở gói ChatGPT Pro. Trong khi đó với Claude Max thì tôi đã nhiều lần đụng hạn mức. Nhưng tôi không hiểu vì sao những công ty này lại không công khai rõ các giới hạn

    • Mục đích là tính phí hai lần. Nếu giá cả công bằng thì họ chỉ cần hiển thị chi phí theo từng token cho mỗi truy vấn, và bạn trả đúng phần mình dùng. Nhưng các công ty muốn có doanh thu cố định định kỳ, đồng thời muốn giảm thiểu mức sử dụng thực tế, nên họ bán theo kiểu hằng tháng hoặc hằng năm như thể không giới hạn. Kết quả là một cấu trúc khiến bạn phải trả nhiều hơn mức sử dụng thật
    • Lý do thật sự của việc không công bố trước giới hạn là vì họ cần có khả năng điều chỉnh giới hạn linh hoạt tùy theo tình hình thị trường hoặc gánh nặng hạ tầng. Những lúc lưu lượng tăng đột biến như cơn sốt tạo ảnh ChatGPT trước đây (Ghibli craze), họ sẽ siết hạn mức, còn khi dư dả như hiện tại thì có thể nới ra
    • Nếu minh bạch giới hạn, người dùng sẽ bắt đầu tìm mẹo để vắt đúng đến ngưỡng đó, và rồi cuối cùng hạn mức cho tất cả mọi người sẽ lại bị hạ thêm. Vì vậy không công khai thực tế lại là lựa chọn tốt hơn cho đa số
  • Dùng Gemini trong vài tháng gần đây khiến tôi có cảm giác nó ngày càng tệ hơn. Hallucination xảy ra quá thường xuyên, mà kể cả khi chỉ ra thì AI vẫn bướng bỉnh. Khó mà tin tưởng được

    • Theo trải nghiệm của tôi thì Flash đang tốt dần lên. Dù tôi trả tiền cho Pro, tôi vẫn dùng Flash thường xuyên hơn. Tôi thất vọng vì Pro thường gần như không tìm kiếm thông tin mới mà chỉ lặp lại dữ liệu huấn luyện cũ, trong khi Flash gần như không bị vậy. Tôi đang dùng Pro cho coding qua Gemini CLI, và nó thể hiện năng lực cực tốt không chỉ ở viết code mà còn ở viết tài liệu thiết kế, chia nhỏ công việc theo tuần, quản lý lịch trình, v.v. Kiểu như chỉ cần dựng cho nó một cấu trúc có hệ thống là nó tự lo cả context của mình
    • Tôi cũng có trải nghiệm tương tự. Tôi không còn dùng Gemini Pro nữa. Nó quá dài dòng và nội dung lại mâu thuẫn. Claude Sonnet 4 trả lời tốt. Gần đây tôi có cảm giác Sonnet đã thu hẹp đáng kể khoảng cách với Opus. Từ khi quota mới được áp dụng, tôi lại bắt đầu dùng Sonnet trước. Giờ nó giải được hầu hết các vấn đề khó hoặc phức tạp khá tốt ngay cả khi so với Opus. Chỉ vài tháng trước tôi còn chưa cảm thấy rõ như vậy
    • Tôi cũng cảm thấy Gemini đang ngày càng tệ đi. Chỉ là trên các benchmark như fiction.livebench thì khó lượng hóa khác biệt đó thành con số. Tôi tự hỏi không biết họ có đang quantizing model quá aggressive đến mức làm suy giảm hiệu năng, hay chỉ là kỳ vọng của chúng ta đang tăng lên liên tục
    • Tôi muốn hỏi liệu chủ yếu là vấn đề tích hợp tool không, và bạn dùng trong AI studio hay qua API. Theo trải nghiệm của tôi, nó thường bịa ra các tool không hề tồn tại rồi lại tỏ ra quá tự tin với kết quả
  • Có thông báo rằng nếu là người đăng ký Google AI Ultra thì từ hôm nay có thể dùng tính năng Deep Think (được cấp số prompt cố định) trong ứng dụng Gemini. Nhưng tôi muốn biết rõ hơn “bộ cố định” ở đây nghĩa là số lượng cố định, hay là loại prompt bị giới hạn sẵn

    • Giới hạn là 10 yêu cầu mỗi ngày. Mỗi prompt mất khoảng 30 phút để suy nghĩ, nên nó phù hợp với nghiên cứu hoặc các bài toán tổng hợp nhiều lớp hơn là coding thông thường hay viết fanfic
  • Khi dùng Gemini CLI để lên lịch, dù tôi đã nói rất rõ là đừng tự ý có những hành động bất ngờ nhiều lần và đã can thiệp, nó vẫn cứ tìm cách tự sửa đổi khiến kế hoạch bị rối

    • Dòng agent kiểu này ngược lại thường gây rối khá nhiều. Claude Code (Anthropic) nổi tiếng vì cách nó khai thác tối đa hiệu năng của model. Nhưng Gemini CLI thì ngược lại, nó còn làm giảm hiệu năng vốn có của Gemini Pro 2.5. Vì thế giờ tôi đã bỏ hẳn Gemini CLI rồi, kể cả miễn phí. Nhưng với các công việc thiên về prompt thì nó vẫn rất mạnh, nên tôi vẫn dùng thường xuyên
    • Tôi cũng vậy. Nếu chỉ giao cho Gemini CLI một nhiệm vụ lớn và trừu tượng thì nó cứ liên tục mắc lỗi. Nhưng chỉ cần dựng cho nó một cấu trúc rõ ràng một chút, chẳng hạn tách riêng quá trình tạo context theo từng bước, thì nó cho kết quả thật sự ấn tượng. Ở bước đầu tôi chỉ bảo nó đọc code và viết tài liệu định nghĩa yêu cầu. Sau đó tôi yêu cầu nó dùng kết quả đó để lần lượt tài liệu hóa bản đặc tả yêu cầu chi tiết, thiết kế API, pseudocode cho tricky logic, v.v. Cuối cùng tôi bắt nó chia toàn bộ việc phát triển thành kế hoạch theo tuần, ngày, giờ, rồi sau khi đã bơm đủ thông tin mới cho viết code. Nếu tự động hóa hoàn toàn thì có thể dùng script, nhưng trên thực tế hiệu quả hơn là để con người rà soát, phản hồi và lặp lại brainstorm. Khi nó tự tạo được hơn 90% context bằng chính sức của mình, thì gần đây với cách này nó hầu như không còn mắc sai sót trong đa số trường hợp nữa