Gemini 2.5 Flash Image
(developers.googleblog.com)- Google đã công bố Gemini 2.5 Flash Image, một mô hình tạo và chỉnh sửa hình ảnh tiên tiến
- Người dùng có thể tận dụng các tính năng như ghép nhiều ảnh thành một, duy trì tính nhất quán của nhân vật và chuyển đổi hình ảnh mục tiêu dựa trên ngôn ngữ tự nhiên
- Mô hình này được cung cấp cho nhà phát triển và doanh nghiệp thông qua Google AI Studio, Gemini API, Vertex AI
- Có sẵn nhiều ví dụ ứng dụng đa dạng như ghép ảnh, tạo sinh dựa trên mẫu và chỉnh sửa có thể lập trình
- SynthID, watermark số vô hình dành cho ảnh do AI tạo, sẽ được chèn vào hình ảnh do AI tạo ra để có thể nhận biết đó là ảnh được tạo/chỉnh sửa
Giới thiệu Gemini 2.5 Flash Image
Google đã công bố Gemini 2.5 Flash Image (tên mã nano-banana). Mô hình này hỗ trợ các tính năng như tạo/chỉnh sửa hình ảnh, ghép nhiều ảnh, duy trì tính nhất quán của nhân vật, chỉnh sửa hình ảnh toàn diện dựa trên lệnh ngôn ngữ tự nhiên. Ngoài ra, mô hình còn tận dụng tri thức thế giới của Gemini để mang lại chất lượng tạo và chỉnh sửa chuyên sâu hơn so với các mô hình tạo ảnh hiện có
Phiên bản trước của Gemini 2.0 Flash có ưu điểm về độ trễ thấp, hiệu quả chi phí, dễ sử dụng, nhưng theo nhu cầu từ cộng đồng, nay đã được tăng cường về chất lượng cao hơn và khả năng kiểm soát sáng tạo
Mô hình này có thể được sử dụng ngay ở dạng preview thông qua Gemini API, Google AI Studio, Vertex AI. Giá là $30.00 cho mỗi 1 triệu token đầu ra, và mỗi hình ảnh được tính 1290 token ($0.039). Các modality khác của đầu vào và đầu ra cũng tuân theo chính sách giá của Gemini 2.5 Flash
Trường hợp sử dụng thực tế
Google AI Studio đã làm mới build mode, cho phép dễ dàng thử nghiệm và phát triển các tính năng Gemini 2.5 Flash Image bằng ứng dụng AI tùy chỉnh. Có thể trực tiếp tạo ứng dụng bằng prompt hoặc tự do remix các mẫu có sẵn. Ứng dụng hoàn thiện có thể được triển khai ngay trong AI Studio hoặc lưu mã lên GitHub
Ví dụ prompt: “Hãy tạo một ứng dụng chỉnh sửa ảnh cho phép người dùng tải ảnh lên và áp dụng nhiều bộ lọc khác nhau”
Duy trì tính nhất quán của nhân vật
Một bài toán cốt lõi trong tạo ảnh là duy trì nhất quán ngoại hình của nhân vật hoặc đối tượng, nay có thể được xử lý hiệu quả. Có thể đặt cùng một nhân vật vào nhiều môi trường khác nhau một cách tự nhiên, tạo một sản phẩm ở nhiều góc độ và bối cảnh khác nhau, hoặc tạo các tài sản thương hiệu với độ nhất quán cao
Có thể trình diễn tính nhất quán của nhân vật thông qua ứng dụng mẫu tùy chỉnh trong Google AI Studio, và từ đó trực tiếp tùy biến mã nguồn
Ngoài ra, mô hình còn cho thấy thế mạnh ở tạo ảnh dựa trên mẫu trực quan. Các thẻ bất động sản, thẻ nhân viên, mockup sản phẩm trong catalog cũng có thể được tạo hàng loạt từ một mẫu thiết kế duy nhất
Chỉnh sửa ảnh dựa trên prompt
Chỉ với lệnh ngôn ngữ tự nhiên, mô hình hỗ trợ biến đổi từng phần và chỉnh sửa cục bộ chính xác. Ví dụ, có thể làm mờ nền, xóa vết bẩn trên quần áo, xóa người trong ảnh, thay đổi tư thế chủ thể, hoặc tô màu ảnh đen trắng chỉ bằng một prompt
Để trực tiếp trải nghiệm những khả năng này, Google cũng cung cấp ứng dụng mẫu chỉnh sửa ảnh dựa trên UI và prompt
Tri thức thế giới gốc
Các mô hình tạo ảnh trước đây thường tạo ảnh đẹp về mặt thẩm mỹ nhưng thiếu hiểu biết ngữ nghĩa và chiều sâu về thế giới thực. Gemini 2.5 Flash Image được áp dụng tri thức thế giới, nên nổi bật ở các trường hợp sử dụng mới
Ví dụ, mô hình có thể đọc và hiểu sơ đồ vẽ tay, trả lời các câu hỏi thực tế, thực hiện các lệnh chỉnh sửa phức tạp. Những đặc điểm này có thể được trải nghiệm trực tiếp trong ứng dụng gia sư giáo dục tương tác dành cho AI Studio
Ghép nhiều ảnh
Mô hình có thể diễn giải và hợp nhất nhiều ảnh đầu vào để tạo ra ảnh tổng hợp. Có thể đặt đối tượng vào cảnh khác, làm mới phong cách căn phòng với màu sắc và chất liệu mới, hoặc hợp nhất nhiều ảnh chỉ bằng một prompt
Để phục vụ việc này, AI Studio cũng cung cấp ứng dụng mẫu cho phép kéo ảnh sản phẩm để nhanh chóng ghép vào cảnh mới
Hướng dẫn bắt đầu phát triển
Nhà phát triển có thể bắt đầu ngay với tài liệu chính thức, và hiện dịch vụ đang được cung cấp ở dạng preview. Tất cả các ứng dụng demo được giới thiệu trong bài đều được tạo bằng vibe code trong Google AI Studio, nên có thể remix và tùy biến chỉ bằng prompt
Thông qua hợp tác với OpenRouter.ai, hơn 3 triệu nhà phát triển trên toàn thế giới có thể sử dụng mô hình này, và đây hiện là mô hình đầu tiên hỗ trợ tạo ảnh trên OpenRouter. Nhờ hợp tác với fal.ai, dự kiến việc sử dụng cũng sẽ được mở rộng sang cộng đồng nhà phát triển media tạo sinh rộng lớn hơn
Mọi hình ảnh được tạo hoặc chỉnh sửa bằng Gemini 2.5 Flash Image đều chứa watermark số SynthID vô hình, cho phép nhận biết đó là ảnh do AI tạo ra
Mã ví dụ Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Đoạn mã trên minh họa cách nhập đồng thời prompt và hình ảnh để tạo kết quả bằng Gemini 2.5 Flash Image
Phản hồi từ nhà phát triển và kế hoạch sắp tới
Google cho biết sẽ tiếp tục tập trung vào render văn bản dài, nâng cao tính nhất quán của nhân vật, cải thiện độ chân thực và chi tiết thực tế. Phản hồi được tiếp nhận qua diễn đàn nhà phát triển và X (trước đây là Twitter), và hãng kỳ vọng vào nhiều cách ứng dụng đa dạng từ cộng đồng nhà phát triển
1 bình luận
Ý kiến từ Hacker News
Có cảm giác đây chính là thời khắc kiểu GPT-4 của lĩnh vực mô hình chỉnh sửa ảnh
Gemini 2.5 Flash được gọi là nano banana tốt đến mức khó tin
Nó đã tăng tới 171 điểm elo trên lmarena
Tìm kiếm nano banana trên Twitter có thể thấy rất nhiều kết quả ấn tượng
Ví dụ, xem tweet này
Tôi đã tự thử nghiệm trong vài tuần
Đôi khi cho ra kết quả thật sự ấn tượng, nhưng để có được hình ảnh mong muốn thì vẫn phải thử lặp lại prompt nhiều lần
Không phải vạn năng, nhưng rõ ràng là một bước tiến rất lớn và thuộc hàng tốt nhất hiện nay
Ở ví dụ thứ ba có điểm là bàn tay trông hơi kỳ
Có vẻ mô hình không quyết định được nó nên đặt theo hướng nào
Tuy vậy, đây không phải vấn đề do Gemini tạo ra mà là lỗi đã có sẵn trong ảnh gốc
Có vẻ mọi biến thể liên quan đến "nano banana" đều đã được đăng ký thành các domain có UI riêng
Tò mò không biết có phải những bên trung gian đang tận dụng tên model đang hot để ăn chênh lệch credit hay không
Trước khi AI xuất hiện, Google từng bị chỉ trích rất nhiều vì dùng nhân tài kỹ sư hàng đầu thế giới chỉ để bán quảng cáo
Nhưng khi kỷ nguyên AI đến, những nhân tài đó giờ có thể được dùng cho quảng cáo cài cắm trong sản phẩm
Đúng là đã đi một chặng đường rất xa
Một điểm đáng tiếc nữa là chiếc áo phao màu hồng sau khi chỉnh sửa hơi khác một chút so với ảnh tham chiếu
Nếu dùng mô hình này để quảng bá sản phẩm hoặc nhạy cảm với chi tiết thì có thể sẽ không hài lòng
Tôi đã cập nhật trang web so sánh ảnh GenAI
Trang này tập trung rất nghiêm ngặt vào khả năng tuân thủ prompt text-to-image
Mô hình mới Google Gemini 2.5 Flash (nano-banana) cũng đã được thêm vào
Model này làm đúng 8 trên 12 prompt và cho kết quả gần chạm tới các model hàng đầu là Imagen và gpt-image-1
Đây là bản nâng cấp lớn so với Gemini Flash 2.0 trước đó
gpt-image-1 đứng đầu chỉ nhỉnh hơn một chút ở mê cung và ngôi sao 9 cánh
Điều đáng ngạc nhiên nhất là gpt-image-1 đã giữ vị trí dẫn đầu gần 6 tháng rồi (trong lĩnh vực này thì 6 tháng gần như là vĩnh cửu)
Tuy nhiên, gpt-image-1 gần như vô dụng với tư cách "editor", vì nó thay đổi toàn bộ hình ảnh chứ không chỉnh sửa theo kiểu inpainting (chỉ sửa một phần) như Kontext, Qwen, Nano-Banana
Liên kết so sánh OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana...
Tôi cảm thấy cần có một benchmark riêng cho chỉnh sửa câu chữ
Tôi không rõ vì sao Hunyuan, OpenAI 4o, Gwen lại được tính là vượt qua bài test bạch tuộc
Chúng không bao phủ đủ "mỗi xúc tu"
Midjourney thì lại mặc tất rối cho tới 9 chiếc trên 8 cánh tay
Thú vị là kết quả ảnh từ Imagen 4 và Gemini 2.5 Flash trong một số test case trông rất giống nhau
Có lẽ Gemini 2.5 Flash trước tiên tạo ảnh nền bằng Imagen (mô hình khuếch tán) ở phía sau, rồi phía Gemini tiếp tục chỉnh sửa chồng lên để tăng độ tuân thủ prompt
Tôi rất thích trang này
Bạn có biết trang nào so sánh khả năng các model khác nhau bám theo style guide tốt đến đâu không, chẳng hạn vẽ minh họa theo cùng một phong cách?
Cá nhân tôi rất muốn thấy tính năng như vậy được thêm vào trang
Ví dụ, cung cấp vài bức tranh theo phong cách của một họa sĩ rồi so sánh xem model có thể tạo minh họa theo đúng phong cách đó hay không
Với các trường hợp như minh họa sách cần phong cách nhất quán thì điều này sẽ cực kỳ hữu ích
Chỉ Gemini 2.5 Flash Image là model duy nhất có thể xử lý nhiều ảnh cùng lúc mà không cần mẹo kỳ quặc
Ví dụ, với Flux Kontext, nếu muốn "ghép ảnh thứ nhất vào ảnh thứ hai" thì phải mất công ghép sẵn ảnh trước
Nhưng model này dùng được mà không có bất tiện đó, thậm chí còn có thể đưa vào hơn hai ảnh nữa (dù quá nhiều thì có thể gây rối)
Qua thử nghiệm nhanh, có vẻ nó cũng tuân thủ tốt với prompt dài và các biểu đạt mang tính cú pháp hoạt động hiệu quả hơn
Tôi vẫn đang tiếp tục thử nghiệm vì có vẻ còn nhiều cách điều khiển hơn nữa chưa được khám phá hết
Giá cả cũng tương đương các model cạnh tranh nên tôi kỳ vọng nó sẽ tạo ra thay đổi lớn trên thị trường
Nhà hàng xóm đi nghỉ nên tôi đang cho cá ăn giúp
Tôi chụp ảnh bể cá rồi nhờ Gemini tạo theo prompt kiểu "đặt bể cá ở danh thắng trong thành phố"
Mỗi ngày tôi gửi một tấm nên hàng xóm rất thích
Những trò đùa nhỏ như vậy làm cuộc sống hằng ngày của cả hai vui hơn
Đáng tiếc là cũng như các sản phẩm AI khác, nó gặp vấn đề áp chính sách an toàn quá nghiêm ngặt
Một nửa số prompt bị từ chối
Nếu không thể chỉnh sửa con người thì không hiểu làm sao có thể giữ được tính nhất quán của nhân vật
Tôi chủ yếu muốn chỉnh sửa ảnh có người, nhưng với model này thì không thể
Tôi hiểu Google lo về vấn đề deepfake, nhưng hướng này vốn không thể chặn được và cuối cùng xã hội cũng sẽ phải thích nghi
Xu hướng công cụ ngày càng hạn chế người dùng thật sự gây khó chịu
Cuối cùng tôi nghĩ sẽ cần một phong trào OSS mới để giành lại tự do
Tôi có một bức ảnh chụp người yêu cũ và chị em họ của cô ấy hồi nhỏ, cả hai mặc đồ Giáng sinh và chụp cùng nhau
Hai người đã sống xa nhau rất lâu nên đó giờ là một kỷ niệm quý giá
Bản thân bức ảnh đã xuống cấp, mà chất lượng lại còn thấp
Thế mà đến giờ vẫn chưa có mô hình AI nào khôi phục được nó
Hai ngày trước tôi thử dùng Veo miễn phí để làm video
Tôi đã xóa hết mọi từ ngữ tưởng như vô hại nhưng vẫn bị từ chối
Có lẽ vấn đề là tôi định tạo ra "chính mình", nên cuối cùng đành bỏ cuộc
Tôi đã số hóa ảnh gia đình, nhưng có rất nhiều hư hại khó phục hồi như lệch màu, vết bẩn, dấu tay, vết ố phim
Vì khó có thể sửa thủ công từng tấm trong hàng trăm bức, tôi đã chờ công nghệ tạo ảnh bằng AI tiến bộ đến mức có thể khôi phục hàng loạt mà không thay đổi chi tiết, đặc biệt là khuôn mặt
Model này có vẻ khá tốt trong việc chỉ phục hồi phần bị mất mà vẫn giữ nguyên chi tiết, nên có lẽ giờ là lúc nên thử
Tất cả các loại hư hại kể trên có thể được sửa tự động bằng máy quét phim có tính năng ICE và phần mềm phục hồi tự động như Vuescan
Theo tôi thì không cần tải hàng trăm hay hàng nghìn bức ảnh lên một AI đám mây độc quyền còn mang tính thử nghiệm, chỉ để nhận về kết quả kém chất lượng lẫn đầy nén méo và artifact kỳ lạ
Tôi không thực sự hiểu ý nghĩa của cách dùng này
Chẳng phải chỉ cần tưởng tượng ra một bức ảnh không bị hư là được sao?
AI upscale trên camera điện thoại cũng vậy
Nếu muốn nhìn thứ gì đó ở xa thì cứ tưởng tượng thôi
Cuối cùng tôi nghĩ công cụ AI cần đạt đến mức tự động hóa những gì một người giỏi Photoshop vẫn có thể làm bằng tay với công cụ
Việc tự bịa ra chi tiết mới có vẻ chỉ là lãng phí thời gian
Không biết có ai biết phần mềm nào khôi phục/nâng cấp file video không
Tôi đang số hóa video từ những năm 2000 và băng VHS của mẹ tôi
Thiết lập số hóa thì đã xong, nhưng tôi muốn cải thiện chất lượng hình ảnh của video thêm nữa
Chúc bạn dùng tốt
Nhìn vào kết quả của prompt "phục hồi ảnh" trong ví dụ, khuôn mặt người phụ nữ mang đặc trưng AI khá rõ
Tất nhiên tôi hy vọng theo thời gian nó sẽ còn cải thiện hơn
Tôi nghĩ vài tháng trước Flux Kontext đã đạt đến giai đoạn đó rồi (https://bfl.ai/models/flux-kontext)
Mọi hình ảnh được tạo/chỉnh sửa bằng Gemini 2.5 Flash Image đều sẽ được nhúng watermark kỹ thuật số vô hình tên là SynthID để đánh dấu là ảnh do AI tạo/chỉnh sửa
Tôi hiểu mục đích và thiện ý, nhưng thật tiếc khi giờ đây không còn là người trưởng thành tự chịu trách nhiệm nữa mà là các tập đoàn lớn quyết định bạn được làm gì và không được làm gì
Cảm giác như đang bị giám sát
Tôi muốn hỏi lại rằng con người khi dùng công nghệ đã bao giờ thật sự là những người lớn có trách nhiệm chưa
Deepfake hoàn toàn có thể khiến sự bất an về nhận thức thực tại trở nên nghiêm trọng hơn nữa
Sẽ có rất nhiều người bị lừa bởi đồ giả, và cũng sẽ có người từ nay chẳng tin bất cứ thứ gì nữa
Các chính trị gia sẽ tuyên bố video bất lợi cho họ là "giả" khi nó xuất hiện
Chúng ta vốn đã sống phần nào trong thời kỳ hậu sự thật, nhưng sắp tới tình hình sẽ còn tệ hơn
Trên thực tế, khó mà xem đó là hình ảnh do người dùng tạo ra
Ví dụ, nếu một nghệ sĩ chèn watermark vào tác phẩm được đặt làm thì đó chỉ là để cho biết bức tranh là công việc của họ, chứ không thể xem là "mách lẻo"
Có thể bạn không có ý theo hướng đó, nhưng cũng là điều đáng để nghĩ thử
Tôi không đồng ý với kiểu lập luận "không có gì để giấu thì không có gì phải sợ", nhưng tôi tò mò vì sao watermark cho ảnh do AI tạo/chỉnh sửa lại bị xem là vấn đề
Nói thật, cá nhân tôi nghĩ ảnh AI bắt buộc phải có watermark
Không ai bắt buộc phải dùng model này, nên cá nhân tôi không thấy đây là vấn đề
Đây là cuộc chạy đua vũ trang của công nghệ
Xem removemysynthid.com
Giống như hầu hết trình tạo ảnh khác, nó thất bại ở bài test phím đàn piano (các phím đen bị sai)
Ví dụ bài test
Tôi tò mò bài test phím đàn piano là gì
Link lại yêu cầu quyền truy cập Google Drive trong AI Studio nên cảm thấy khó dùng
Tôi thắc mắc liệu có model nào đưa cả ý tưởng trong không gian khái niệm vào hay không, ví dụ như sự lặp lại của 8 nốt
Khi biểu diễn đàn piano, chỉ những từ gần với từ "piano" dường như không đủ để thể hiện những khái niệm cố định như octave lặp lại, nên có vẻ nó thiếu ở điểm này
Tôi có cảm giác chỉ bằng từ ngữ thì rất khó liên kết hình ảnh và ý nghĩa một cách nhất quán
Điểm mạnh thật sự của model này có vẻ không nằm ở chất lượng tạo ảnh thuần túy mà ở "tính nhất quán giữa các thế hệ"
Link ví dụ
Thú vị thật
Người từng tiếp xúc với đàn piano thật sẽ nhận ra ngay là nó sai, tương tự như bài test render văn bản, tức là "trông bề ngoài" thì giống nhưng thực tế lại sai
Với prompt thông thường, nếu chỉ lấy kết quả đầu tiên từ Google Images rồi nói kiểu "đây, ảnh bàn phím piano đây" thì có lẽ vẫn dễ dàng được chấp nhận
Nó cũng thất bại trong bài test văn bản ngang của tôi
Tôi đã thử tái hiện trực tiếp các ví dụ nĩa/mì spaghetti và bong bóng thời trang, nhưng rất khác so với kết quả chính thức
Đầu ra tạo ra cũng rất nhất quán
Có thể do tôi copy ảnh từ trang quảng cáo nên độ phân giải khác, nhưng prompt thì tôi dùng y hệt
Có vẻ đúng là tôi đang dùng model mới, và so với trước thì đây thật sự là một bước tiến lớn
Tính nhất quán của kết quả khá thú vị
Tôi đã chạy đi chạy lại nhiều thế hệ cho bài test tiêu chuẩn model ảnh của riêng mình (đến giờ vẫn chưa thấy model nào vẽ đúng octave piano dù chỉ một lần), và Gemini 2.5 Flash Image cũng không ngoại lệ
Thử nhiều lần rồi so sánh thì hoàn toàn không có thay đổi
ChatGPT khi nhận prompt editor thường hay làm thay đổi cả những phần khác ngoài phần tôi muốn sửa, nhưng ở đây thì hoàn toàn không có chuyện đó
Ví dụ hình ảnh
Kết quả thực tế trông bình thường hoặc mơ hồ hơn nhiều so với những gì quảng cáo thể hiện
Ở ví dụ, việc tạo chủ thể bong bóng thực tế chỉ tạo ra những hình dạng giống bong bóng mơ hồ bên trong chủ thể
Ví dụ cây nĩa thì chỉ thêm một cái nĩa lên trên mì
Cả hai trường hợp đều có thể xem là thực tế tuân thủ prompt tốt hơn, nhưng nhìn thì kém ấn tượng hơn
Tôi thấy may vì mình đã không trở thành chuyên gia Photoshop
Có lúc từng thấy con đường đó rất hấp dẫn nhưng cuối cùng không chọn nên giờ lại thấy may
Giờ chỉ cần nano-banana là đủ
Tôi tin các model khác rồi cũng sẽ sớm bắt kịp
Cộng đồng r/photoshopbattles giờ coi như tạm biệt
Retouch là một nghệ thuật
Với chuyên gia, loại AI này cũng chỉ là một công cụ khác để tăng hiệu suất
Không chỉ biết dùng Photoshop, mà còn cần khả năng phán đoán thông minh
Dĩ nhiên nếu khối lượng công việc không tăng thì có thể số retoucher cần thiết sẽ ít hơn để làm cùng một lượng việc
Nếu đơn giá giảm thì liệu mọi người có retouch nhiều hơn không? Tôi không chắc
Góc nhìn thú vị đấy
Tôi là lập trình viên nhưng hồi đầu những năm 2000 cũng học Photoshop và rất thích chỉnh sửa ảnh
Các model tạo sinh bây giờ đúng là làm tốt hơn rất nhiều so với những gì tôi từng tạo hồi đó, nhưng tôi không nghĩ trải nghiệm và kỹ năng ấy hoàn toàn vô nghĩa
Trên thực tế, Photoshop (hoặc giờ là Affinity Designer/Photo) cực kỳ hữu ích để chỉnh lại kết quả AI
Tôi chưa từng hối hận
Nếu viết bình luận này cách đây 10 năm, tôi hẳn sẽ nói rằng ít nhất phần mềm và kỹ năng là của riêng mình, và dù Google có tăng giá thuê bao hay ngừng dịch vụ thì nó vẫn là của tôi
Giờ cả PS cũng chuyển sang thuê bao, nên đành chờ ngày có model mở đủ tốt
Photoshop vẫn còn hữu ích
Ảnh AI rất tuyệt, nhưng tôi vẫn muốn tự làm bố cục nền tảng, và để dọn artifact trong kết quả AI hay ghép nhiều lớp AI khác nhau thì kỹ năng thủ công vẫn là điều không thể thiếu
Cuối cùng thì các lĩnh vực khác như lập trình cũng sẽ bị tự động hóa nghiền nát
Chỉ là sẽ mất thêm chút thời gian thôi (5~10 năm?)
Kỹ thuật phần mềm có thể sẽ lâu hơn do lỗi và technical debt
Ảnh hỏng thì tạo lại là xong, còn chương trình hỏng thì ngay sau đó sẽ thành một đống mã không thể bảo trì
Nhưng sớm muộn gì làn sóng này cũng sẽ ập đến lĩnh vực của chúng ta
Cứ nhờ Gemini tạo ảnh là một nửa số lần nó trả lời không thể thực hiện
Cảm giác các tính năng của Google thật sự rất khó để dùng trong thực tế
Có thứ nằm ở sản phẩm này, có thứ lại nằm ở sản phẩm khác, và cũng khó hiểu phải truy cập từ đâu
Đúng vậy
Trên website có hướng dẫn "hãy thử trong Gemini", nhưng đến khi chọn Gemini 2.5 Flash thì tôi còn chẳng chắc mình có đang dùng đúng thứ đó không nữa
Trong app hoặc website Gemini thậm chí còn không có model đó
Phải dùng qua đường khác như AI Studio
UI/UX phía Google nhìn chung thật sự rất rối