Gemini 3.0 bị phát hiện công khai thông qua thử nghiệm A/B

(ricklamers.io)

5 điểm bởi GN⁺ 2025-10-17 | 1 bình luận | Chia sẻ qua WhatsApp

Một số người dùng đã phát hiện mô hình Gemini 3.0 mới đang được cung cấp dưới dạng thử nghiệm A/B trong Google AI Studio
Gemini 3.0 là mô hình thế hệ tiếp theo được kỳ vọng sẽ cải thiện hiệu năng lập trình, và người dùng thực tế đã xác nhận sự khác biệt về chất lượng thông qua bài kiểm tra tạo ảnh SVG
Kết quả thử nghiệm cho thấy đầu ra SVG của tay cầm Xbox 360 được cải thiện rõ rệt, thể hiện bước tiến lớn so với Gemini 2.5 Pro
Định danh mô hình là ecpt50a2y6mpgkcn, nhiều khả năng là phiên bản Gemini 3.0 Pro, đồng thời cũng ghi nhận các thay đổi về hiệu năng như độ dài đầu ra tăng 40% và TTFT tăng 24 giây
Điều này cho thấy Google đã bắt đầu triển khai thử nghiệm mô hình Gemini thế hệ tiếp theo, đồng nghĩa với việc thời điểm công bố chính thức có thể đã cận kề

Việc Gemini 3.0 được hé lộ không chính thức và bối cảnh

Theo các tin đồn gần đây, một số người dùng đã được xác nhận có thể truy cập Gemini 3.0 thông qua thử nghiệm A/B trong Google AI Studio
Gemini 3.0 hiện là mô hình đang thu hút nhiều sự chú ý trong lĩnh vực AI nhờ kỳ vọng cải thiện khả năng render hình ảnh AI và hiệu năng lập trình
Sau nhiều lần thử trực tiếp, cuối cùng đã gặp được màn hình thử nghiệm A/B.
Prompt đã dùng: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Kết quả là SVG tay cầm Xbox do Gemini 3.0 tạo ra vượt trội hơn hẳn mô hình cũ về độ chi tiết, độ chính xác và mức độ hoàn thiện bố cục
ID mô hình của Gemini 3.0 được xác nhận là ecpt50a2y6mpgkcn, nhưng khó xác định thông tin phiên bản cụ thể
Vì mô hình được chọn mặc định là Gemini 2.5 Pro, nên có thể suy ra đây thực chất là phép so sánh với Gemini 3.0 Pro
So với Gemini 2.5 Pro
- TTFT (Time to First Token) tăng khoảng 24 giây
- Độ dài đầu ra tăng khoảng 40%
- Có khả năng bao gồm reasoning tokens (token suy luận)

Phụ lục

Liệt kê các ảnh đầu ra từ kết quả so sánh A/B giữa Gemini 3.0 và Gemini 2.5 Pro

1 bình luận

GN⁺ 2025-10-17

Ý kiến trên Hacker News

Có lẽ tôi thuộc thiểu số, nhưng ở công ty tôi có thể dùng mọi model Pro, và trải nghiệm của tôi là Gemini luôn vượt trội hơn ChatGPT, Claude và Deepseek. Có thể là vì tôi làm rất nhiều web development, đặc biệt là HTML/SCSS, và tôi nghĩ lợi thế của Google là đã crawl Internet nên có nhiều dữ liệu hơn. Mỗi model đều có lĩnh vực mạnh riêng, nhưng trong phát triển web UI/UX thì tôi thực sự thấy Gemini rất xuất sắc. Tôi rất mong chờ bản 3.0
- Tôi thấy Gemini 2.5 Pro đặc biệt vượt trội hơn Claude và GPT-5 trong hai trường hợp dưới đây.
  - Viết sáng tạo: Gemini vượt xa các model khác. Cá nhân tôi thấy Gemini 2.5 Pro gần như là model duy nhất hiện có thể dùng cho viết sáng tạo ở mức chấp nhận được (thơ, truyện ngắn). Mức độ hiểu sắc thái của nó khá ấn tượng, nên tôi dùng nó để phê bình bài viết sáng tác của mình. Tất nhiên, trong các lĩnh vực như làm thơ thì mọi model vẫn còn yếu
  - Suy luận phức tạp (toán ở mức đại học/cao học): Gemini chính xác hơn một chút nên tôi cho là tốt nhất. Claude Opus 4.1 và Sonnet 4.5 cũng ở mức tương tự, nhưng Gemini 2.5 cho câu trả lời ổn định và dễ dự đoán hơn (tôi thường dùng cho đại số, đại số giao hoán, lý thuyết phạm trù, hình học đại số, tô pô, v.v.)
  - Tuy nhiên, ở vai trò “agent”, như tìm kiếm toàn bộ codebase lớn hoặc yêu cầu refactor cho câu hỏi mở, Gemini kém hơn Claude và GPT-5. Việc gọi tool có vấn đề phần nào nên hoạt động không ổn định trong Copilot/Cursor
  - Nhìn chung tôi nghĩ Gemini 2.5 Pro là thông minh nhất, nhưng dùng model khác nhau cho từng tác vụ mới là hợp lý
- Vài tuần trước, một script bên thứ ba đã can thiệp vào sự kiện click của nút React của tôi, và tôi định sửa bằng cách thêm sự kiện mousedown. Lúc đó tôi mệt nên chỉ định làm nhanh bằng đoạn code mô phỏng click sau vài ms kể từ mousedown, rồi giải thích kế hoạch đó cho Gemini. Thế nhưng Gemini từ chối thẳng và thay vào đó đề xuất một cách xử lý gọn gàng hơn bằng cách kết hợp mousedown với mouseup. Tôi thực sự ngạc nhiên vì nó hiểu vấn đề hoàn toàn và còn gợi ý cách tốt hơn thay vì làm đúng theo cách tôi yêu cầu
- Công ty chúng tôi đang benchmark các model LLM lớn, và Gemini 2.5 đứng số 1 áp đảo trừ một vài lĩnh vực rất cụ thể. Điều này khá khớp với tin đồn rằng pretraining của Google là tốt nhất, chỉ còn hơi đáng tiếc ở phần tuning/alignment. Đó là lý do tôi rất mong đợi Gemini 3. Dù 2.5 là tốt nhất nhưng vẫn còn nhiều chỗ để cải thiện. (Lĩnh vực cụ thể: “suy luận thật sự” (GPT-5) và viết script Python (dòng Claude))
- Với độ chính xác tìm kiếm hay các tác vụ dựa trên dữ kiện, tôi thấy cả Claude lẫn Gemini đều kém ChatGPT khá nhiều. Gemini chỉ tìm vài lần là bắt đầu bịa đại, trong khi ChatGPT có thể lặp lại việc tìm kiếm hàng chục đến hàng trăm lần, rồi tiếp tục tìm thêm dựa trên các kết quả đã thấy trước đó
- Tôi thực sự thích context window rộng hơn của Gemini. Cách tôi làm việc là chuyển toàn bộ codebase thành chuỗi rồi dán vào Gemini để hỏi. Mọi người thích kiểu “agent” chỉ chọn vài file để xem, nhưng với tôi, cứ ném cả codebase vào rồi làm việc tương tác như sinh code, sửa file các kiểu lại tiện và hiệu quả hơn nhiều
Tôi không hiểu vì sao mọi người lại quá quan tâm đến việc dùng LLM để tạo SVG. Tác vụ này khó mà thành công ngay một lần, con người làm cũng không dễ, nên giá trị thực tế không cao. Nếu model có thể nhận phản hồi thị giác rồi cải thiện kết quả thì sẽ hữu ích hơn. Vì nó đã trở thành một bài benchmark phổ biến, các công ty giờ chỉ việc nhét dữ liệu ví dụ vào tập huấn luyện, nên rốt cuộc chỉ là so xem ai có bộ dữ liệu “text to SVG” tốt hơn chứ không liên quan đến chất lượng tổng thể của model
Khoảng một tháng nay đã liên tục có tin tức về Gemini 3 kèm đủ loại suy đoán. Trước khi có công bố chính thức thì tôi sẽ chưa vội kết luận; không ai biết đó sẽ là model thay thế cho Pro, Flash, Flash Lite, hay là một model hoàn toàn mới, hoặc thậm chí có được phát hành hay không. Vì AIStudio đang dùng A/B test nên mỗi prompt chỉ lấy được một kết quả, và ta chỉ có thể hiểu về tốc độ, độ trễ, hay việc có làm theo chỉ thị hay không. Tôi không cho rằng đánh giá hiệu năng thực tế của từng model chỉ bằng một prompt là một cách đánh giá chuyên nghiệp. Những khả năng như xử lý nhiều file hay phản ứng với tool call thì đương nhiên không thể biết được. Thay vì cứ tăng kỳ vọng vô điều kiện, tôi mong mọi người đừng rơi vào trạng thái kỳ vọng quá mức rồi lại thất vọng quá mức. Đó cũng là lý do tôi không thích nội dung kiểu suy đoán. Nó chỉ nhấn vào thứ giật gân mà không có bối cảnh và phân tích thực sự
- Dạo này có cảm giác bản thân việc thổi hype cũng đã thành một nghề, nhưng tôi thấy khá khó chịu vì dưới mỗi link Twitter đều đầy những phản ứng cường điệu như "GAME CHANGER!!!", "Ai cũng sẽ sốc!". Ví dụ thực tế thì hay đấy, nhưng tiếc là phần lớn chỉ toàn các đánh giá thiếu chuyên môn như đã nói ở trên
Bức vẽ chim bồ nông này thực sự xuất sắc. Tôi rất mong được thử Gemini 3 ví dụ Twitter liên quan
- Benchmark (cuối cùng) đã bị phá vỡ
- Trông mang tính nghệ thuật hơn tôi nghĩ nhiều
- Thế này là ổn à? Trong mắt tôi thì nó chỉ khá tệ
Điều tôi thấy lạ là Gemini 2.5 Pro ở đẳng cấp hàng đầu cho hầu hết mục đích sử dụng, nhưng chỉ khi đó là câu hỏi đầu tiên. Nghĩa là tốt nhất khi toàn bộ context đã được đưa vào, bạn hỏi đúng một lần và chỉ nhận đúng một câu trả lời. Càng kéo dài cuộc trò chuyện thì chất lượng càng tụt rất mạnh. Điều đó khá lạ dù context window của nó còn dài hơn các model khác. Tôi dùng nó bằng cách nạp toàn bộ dự án (khoảng 200 nghìn token) vào cửa sổ chat, đặt đúng một câu hỏi được chuẩn bị kỹ, rồi đóng ngay cửa sổ đó
- Hiện tượng chất lượng câu trả lời giảm dần khi trò chuyện quá lâu thì tôi thấy giống hệt ở mọi LLM mà tôi từng dùng. Vì vậy tôi không đi quá hai tin nhắn. Nếu câu trả lời đầu tiên không ra kết quả mong muốn, thì càng thêm tin nhắn, xác suất ra đáp án đúng càng giảm. Tôi nghĩ tốt nhất là luôn bắt đầu bằng chat mới và thử điều chỉnh prompt
Có câu nói rằng "Gemini 3.0 là một trong những bản phát hành AI được mong chờ nhất hiện nay, đặc biệt nhờ cải thiện hiệu năng viết code", nhưng nghe từ bạn bè đang dùng nội bộ ở Google thì ai rồi cũng sẽ thất vọng thôi.
Chỉnh sửa: thực ra họ không ở trạng thái có thể dùng Gemini 3, nên việc họ bảo nó không hay lại càng là điều đương nhiên
- Gemini 3.0 hiện chưa được triển khai rộng rãi ngay cả trong nội bộ Google. "Gemini for Google" là phiên bản đã fine-tune từ 2.5 Pro hoặc 2.5 Flash. Bản thân model 3.0 chưa được dùng rộng rãi. (Nhân viên Google, làm ở team liên quan đến thanh toán, đây là ý kiến cá nhân)
- Xin lỗi vì làm cụt hứng, nhưng ngay cả team Vibecoding nội bộ của chúng tôi ở Google cũng không dùng Gemini 3
- Cũng chẳng có gì đáng ngạc nhiên. LLM đang chạm đến giới hạn cải thiện hiệu năng (vùng lợi suất giảm dần), và chúng ta cần cách sản xuất GPU rẻ hơn
Trên Twitter đang đổ ra nhiều ví dụ Gemini 3 hơn nữa. Sau khi xem tôi đã mua ngay cổ phiếu Google. Nhìn vào kết quả thì có cảm giác nó thực sự tạo ra các thiết kế mới đầy sáng tạo, chứ không chỉ copy-paste template cũ. Việc tạo ra đầu ra nhất quán và đẹp mắt ở cấp độ code như vậy là cực kỳ khó, nên tôi thực sự bị sốc khi thấy Gemini 3 dường như làm được điều đó. Hơn nữa, Google là công ty duy nhất đã hoàn thiện tích hợp dọc từ model đến phần cứng, nên tôi nghĩ họ có cơ hội rất lớn để thành công trong kỷ nguyên AI
- Tôi không phải chuyên gia tài chính, nhưng tôi có thể nói rằng mua cổ phiếu chỉ vì các bài Twitter đầy hype thì không phải là cách đầu tư an toàn. Nhưng nếu là tiền nhàn rỗi để thử cho vui thì cũng không sao
Twitter của chetaslua đang đăng nhiều kết quả thử nghiệm khác nhau liên quan đến Gemini 3 (web desktop, bản clone Vampire Survivor, mô hình Vogel 3D có thể chơi thật, nhiều game clone, SVG, v.v.). Đặc biệt ở dạng one-shot, kết quả rất ấn tượng và đẹp mắt
- Ví dụ này thực sự rất mới lạ: demo trực tiếp trên codepen
  Khi chạy terminal Python thì sẽ xuất hiện một hiệu ứng phá vỡ bức tường thứ tư khá thú vị
  1. Nếu dùng từ khóa print của "Python" thì hộp thoại in của trình duyệt sẽ bật lên
  2. Nếu dùng từ khóa open của "Python" thì trình duyệt sẽ mở tab mới và cố truy cập file đó
    Nói cách khác, việc thực thi print và open được nối thẳng tới trình duyệt
Tôi mong hiện tượng looping (lặp vô hạn) được cải thiện. Đó là vấn đề thực sự nghiêm trọng. CLI còn có cả chức năng phát hiện loop, và chỉ sau 1 phút dùng là đã phát hiện ngay. Ngay cả 2.5 Pro trong app Gemini cũng gần như không dùng được vì cứ lặp từ mãi, dù đã nhiều lần bảo nó đừng lặp nữa
Tôi tự hỏi liệu các model có đang đánh giá SVG bằng “mắt” rồi sửa nhiều lần không, hay là đang kỳ vọng nó sẽ cho ra kết quả hoàn hảo ngay từ một lần
- Trong benchmark của tôi thì chỉ có đúng một cơ hội.
  Tôi cũng đã thử cách cho model thị giác xem kết quả đã render rồi cải thiện tối đa ba lần, nhưng ngạc nhiên là kết quả không tốt hơn chút nào

Gemini 3.0 bị phát hiện công khai thông qua thử nghiệm A/B

Việc Gemini 3.0 được hé lộ không chính thức và bối cảnh

Phụ lục

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News