- Một số người dùng đã phát hiện mô hình Gemini 3.0 mới đang được cung cấp dưới dạng thử nghiệm A/B trong Google AI Studio
- Gemini 3.0 là mô hình thế hệ tiếp theo được kỳ vọng sẽ cải thiện hiệu năng lập trình, và người dùng thực tế đã xác nhận sự khác biệt về chất lượng thông qua bài kiểm tra tạo ảnh SVG
- Kết quả thử nghiệm cho thấy đầu ra SVG của tay cầm Xbox 360 được cải thiện rõ rệt, thể hiện bước tiến lớn so với Gemini 2.5 Pro
- Định danh mô hình là
ecpt50a2y6mpgkcn, nhiều khả năng là phiên bản Gemini 3.0 Pro, đồng thời cũng ghi nhận các thay đổi về hiệu năng như độ dài đầu ra tăng 40% và TTFT tăng 24 giây
- Điều này cho thấy Google đã bắt đầu triển khai thử nghiệm mô hình Gemini thế hệ tiếp theo, đồng nghĩa với việc thời điểm công bố chính thức có thể đã cận kề
Việc Gemini 3.0 được hé lộ không chính thức và bối cảnh
- Theo các tin đồn gần đây, một số người dùng đã được xác nhận có thể truy cập Gemini 3.0 thông qua thử nghiệm A/B trong Google AI Studio
- Gemini 3.0 hiện là mô hình đang thu hút nhiều sự chú ý trong lĩnh vực AI nhờ kỳ vọng cải thiện khả năng render hình ảnh AI và hiệu năng lập trình
- Sau nhiều lần thử trực tiếp, cuối cùng đã gặp được màn hình thử nghiệm A/B.
- Prompt đã dùng:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- Kết quả là SVG tay cầm Xbox do Gemini 3.0 tạo ra vượt trội hơn hẳn mô hình cũ về độ chi tiết, độ chính xác và mức độ hoàn thiện bố cục
- ID mô hình của Gemini 3.0 được xác nhận là
ecpt50a2y6mpgkcn, nhưng khó xác định thông tin phiên bản cụ thể
- Vì mô hình được chọn mặc định là Gemini 2.5 Pro, nên có thể suy ra đây thực chất là phép so sánh với Gemini 3.0 Pro
- So với Gemini 2.5 Pro
- TTFT (Time to First Token) tăng khoảng 24 giây
- Độ dài đầu ra tăng khoảng 40%
- Có khả năng bao gồm reasoning tokens (token suy luận)
Phụ lục
- Liệt kê các ảnh đầu ra từ kết quả so sánh A/B giữa Gemini 3.0 và Gemini 2.5 Pro
1 bình luận
Ý kiến trên Hacker News
Có lẽ tôi thuộc thiểu số, nhưng ở công ty tôi có thể dùng mọi model Pro, và trải nghiệm của tôi là Gemini luôn vượt trội hơn ChatGPT, Claude và Deepseek. Có thể là vì tôi làm rất nhiều web development, đặc biệt là HTML/SCSS, và tôi nghĩ lợi thế của Google là đã crawl Internet nên có nhiều dữ liệu hơn. Mỗi model đều có lĩnh vực mạnh riêng, nhưng trong phát triển web UI/UX thì tôi thực sự thấy Gemini rất xuất sắc. Tôi rất mong chờ bản 3.0
Tôi thấy Gemini 2.5 Pro đặc biệt vượt trội hơn Claude và GPT-5 trong hai trường hợp dưới đây.
Vài tuần trước, một script bên thứ ba đã can thiệp vào sự kiện click của nút React của tôi, và tôi định sửa bằng cách thêm sự kiện mousedown. Lúc đó tôi mệt nên chỉ định làm nhanh bằng đoạn code mô phỏng click sau vài ms kể từ mousedown, rồi giải thích kế hoạch đó cho Gemini. Thế nhưng Gemini từ chối thẳng và thay vào đó đề xuất một cách xử lý gọn gàng hơn bằng cách kết hợp mousedown với mouseup. Tôi thực sự ngạc nhiên vì nó hiểu vấn đề hoàn toàn và còn gợi ý cách tốt hơn thay vì làm đúng theo cách tôi yêu cầu
Công ty chúng tôi đang benchmark các model LLM lớn, và Gemini 2.5 đứng số 1 áp đảo trừ một vài lĩnh vực rất cụ thể. Điều này khá khớp với tin đồn rằng pretraining của Google là tốt nhất, chỉ còn hơi đáng tiếc ở phần tuning/alignment. Đó là lý do tôi rất mong đợi Gemini 3. Dù 2.5 là tốt nhất nhưng vẫn còn nhiều chỗ để cải thiện. (Lĩnh vực cụ thể: “suy luận thật sự” (GPT-5) và viết script Python (dòng Claude))
Với độ chính xác tìm kiếm hay các tác vụ dựa trên dữ kiện, tôi thấy cả Claude lẫn Gemini đều kém ChatGPT khá nhiều. Gemini chỉ tìm vài lần là bắt đầu bịa đại, trong khi ChatGPT có thể lặp lại việc tìm kiếm hàng chục đến hàng trăm lần, rồi tiếp tục tìm thêm dựa trên các kết quả đã thấy trước đó
Tôi thực sự thích context window rộng hơn của Gemini. Cách tôi làm việc là chuyển toàn bộ codebase thành chuỗi rồi dán vào Gemini để hỏi. Mọi người thích kiểu “agent” chỉ chọn vài file để xem, nhưng với tôi, cứ ném cả codebase vào rồi làm việc tương tác như sinh code, sửa file các kiểu lại tiện và hiệu quả hơn nhiều
Tôi không hiểu vì sao mọi người lại quá quan tâm đến việc dùng LLM để tạo SVG. Tác vụ này khó mà thành công ngay một lần, con người làm cũng không dễ, nên giá trị thực tế không cao. Nếu model có thể nhận phản hồi thị giác rồi cải thiện kết quả thì sẽ hữu ích hơn. Vì nó đã trở thành một bài benchmark phổ biến, các công ty giờ chỉ việc nhét dữ liệu ví dụ vào tập huấn luyện, nên rốt cuộc chỉ là so xem ai có bộ dữ liệu “text to SVG” tốt hơn chứ không liên quan đến chất lượng tổng thể của model
Khoảng một tháng nay đã liên tục có tin tức về Gemini 3 kèm đủ loại suy đoán. Trước khi có công bố chính thức thì tôi sẽ chưa vội kết luận; không ai biết đó sẽ là model thay thế cho Pro, Flash, Flash Lite, hay là một model hoàn toàn mới, hoặc thậm chí có được phát hành hay không. Vì AIStudio đang dùng A/B test nên mỗi prompt chỉ lấy được một kết quả, và ta chỉ có thể hiểu về tốc độ, độ trễ, hay việc có làm theo chỉ thị hay không. Tôi không cho rằng đánh giá hiệu năng thực tế của từng model chỉ bằng một prompt là một cách đánh giá chuyên nghiệp. Những khả năng như xử lý nhiều file hay phản ứng với tool call thì đương nhiên không thể biết được. Thay vì cứ tăng kỳ vọng vô điều kiện, tôi mong mọi người đừng rơi vào trạng thái kỳ vọng quá mức rồi lại thất vọng quá mức. Đó cũng là lý do tôi không thích nội dung kiểu suy đoán. Nó chỉ nhấn vào thứ giật gân mà không có bối cảnh và phân tích thực sự
Bức vẽ chim bồ nông này thực sự xuất sắc. Tôi rất mong được thử Gemini 3 ví dụ Twitter liên quan
Benchmark (cuối cùng) đã bị phá vỡ
Trông mang tính nghệ thuật hơn tôi nghĩ nhiều
Thế này là ổn à? Trong mắt tôi thì nó chỉ khá tệ
Điều tôi thấy lạ là Gemini 2.5 Pro ở đẳng cấp hàng đầu cho hầu hết mục đích sử dụng, nhưng chỉ khi đó là câu hỏi đầu tiên. Nghĩa là tốt nhất khi toàn bộ context đã được đưa vào, bạn hỏi đúng một lần và chỉ nhận đúng một câu trả lời. Càng kéo dài cuộc trò chuyện thì chất lượng càng tụt rất mạnh. Điều đó khá lạ dù context window của nó còn dài hơn các model khác. Tôi dùng nó bằng cách nạp toàn bộ dự án (khoảng 200 nghìn token) vào cửa sổ chat, đặt đúng một câu hỏi được chuẩn bị kỹ, rồi đóng ngay cửa sổ đó
Có câu nói rằng "Gemini 3.0 là một trong những bản phát hành AI được mong chờ nhất hiện nay, đặc biệt nhờ cải thiện hiệu năng viết code", nhưng nghe từ bạn bè đang dùng nội bộ ở Google thì ai rồi cũng sẽ thất vọng thôi.
Chỉnh sửa: thực ra họ không ở trạng thái có thể dùng Gemini 3, nên việc họ bảo nó không hay lại càng là điều đương nhiên
Gemini 3.0 hiện chưa được triển khai rộng rãi ngay cả trong nội bộ Google. "Gemini for Google" là phiên bản đã fine-tune từ 2.5 Pro hoặc 2.5 Flash. Bản thân model 3.0 chưa được dùng rộng rãi. (Nhân viên Google, làm ở team liên quan đến thanh toán, đây là ý kiến cá nhân)
Xin lỗi vì làm cụt hứng, nhưng ngay cả team Vibecoding nội bộ của chúng tôi ở Google cũng không dùng Gemini 3
Cũng chẳng có gì đáng ngạc nhiên. LLM đang chạm đến giới hạn cải thiện hiệu năng (vùng lợi suất giảm dần), và chúng ta cần cách sản xuất GPU rẻ hơn
Trên Twitter đang đổ ra nhiều ví dụ Gemini 3 hơn nữa. Sau khi xem tôi đã mua ngay cổ phiếu Google. Nhìn vào kết quả thì có cảm giác nó thực sự tạo ra các thiết kế mới đầy sáng tạo, chứ không chỉ copy-paste template cũ. Việc tạo ra đầu ra nhất quán và đẹp mắt ở cấp độ code như vậy là cực kỳ khó, nên tôi thực sự bị sốc khi thấy Gemini 3 dường như làm được điều đó. Hơn nữa, Google là công ty duy nhất đã hoàn thiện tích hợp dọc từ model đến phần cứng, nên tôi nghĩ họ có cơ hội rất lớn để thành công trong kỷ nguyên AI
Twitter của chetaslua đang đăng nhiều kết quả thử nghiệm khác nhau liên quan đến Gemini 3 (web desktop, bản clone Vampire Survivor, mô hình Vogel 3D có thể chơi thật, nhiều game clone, SVG, v.v.). Đặc biệt ở dạng one-shot, kết quả rất ấn tượng và đẹp mắt
Khi chạy terminal Python thì sẽ xuất hiện một hiệu ứng phá vỡ bức tường thứ tư khá thú vị
Nói cách khác, việc thực thi print và open được nối thẳng tới trình duyệt
Tôi mong hiện tượng looping (lặp vô hạn) được cải thiện. Đó là vấn đề thực sự nghiêm trọng. CLI còn có cả chức năng phát hiện loop, và chỉ sau 1 phút dùng là đã phát hiện ngay. Ngay cả 2.5 Pro trong app Gemini cũng gần như không dùng được vì cứ lặp từ mãi, dù đã nhiều lần bảo nó đừng lặp nữa
Tôi tự hỏi liệu các model có đang đánh giá SVG bằng “mắt” rồi sửa nhiều lần không, hay là đang kỳ vọng nó sẽ cho ra kết quả hoàn hảo ngay từ một lần
Tôi cũng đã thử cách cho model thị giác xem kết quả đã render rồi cải thiện tối đa ba lần, nhưng ngạc nhiên là kết quả không tốt hơn chút nào