1 điểm bởi GN⁺ 2025-08-27 | 1 bình luận | Chia sẻ qua WhatsApp
  • Google đã công bố Gemini 2.5 Flash Image, một mô hình tạo và chỉnh sửa hình ảnh tiên tiến
  • Người dùng có thể tận dụng các tính năng như ghép nhiều ảnh thành một, duy trì tính nhất quán của nhân vật và chuyển đổi hình ảnh mục tiêu dựa trên ngôn ngữ tự nhiên
  • Mô hình này được cung cấp cho nhà phát triển và doanh nghiệp thông qua Google AI Studio, Gemini API, Vertex AI
  • Có sẵn nhiều ví dụ ứng dụng đa dạng như ghép ảnh, tạo sinh dựa trên mẫu và chỉnh sửa có thể lập trình
  • SynthID, watermark số vô hình dành cho ảnh do AI tạo, sẽ được chèn vào hình ảnh do AI tạo ra để có thể nhận biết đó là ảnh được tạo/chỉnh sửa

Giới thiệu Gemini 2.5 Flash Image

Google đã công bố Gemini 2.5 Flash Image (tên mã nano-banana). Mô hình này hỗ trợ các tính năng như tạo/chỉnh sửa hình ảnh, ghép nhiều ảnh, duy trì tính nhất quán của nhân vật, chỉnh sửa hình ảnh toàn diện dựa trên lệnh ngôn ngữ tự nhiên. Ngoài ra, mô hình còn tận dụng tri thức thế giới của Gemini để mang lại chất lượng tạo và chỉnh sửa chuyên sâu hơn so với các mô hình tạo ảnh hiện có

Phiên bản trước của Gemini 2.0 Flash có ưu điểm về độ trễ thấp, hiệu quả chi phí, dễ sử dụng, nhưng theo nhu cầu từ cộng đồng, nay đã được tăng cường về chất lượng cao hơn và khả năng kiểm soát sáng tạo

Mô hình này có thể được sử dụng ngay ở dạng preview thông qua Gemini API, Google AI Studio, Vertex AI. Giá là $30.00 cho mỗi 1 triệu token đầu ra, và mỗi hình ảnh được tính 1290 token ($0.039). Các modality khác của đầu vào và đầu ra cũng tuân theo chính sách giá của Gemini 2.5 Flash

Trường hợp sử dụng thực tế

Google AI Studio đã làm mới build mode, cho phép dễ dàng thử nghiệm và phát triển các tính năng Gemini 2.5 Flash Image bằng ứng dụng AI tùy chỉnh. Có thể trực tiếp tạo ứng dụng bằng prompt hoặc tự do remix các mẫu có sẵn. Ứng dụng hoàn thiện có thể được triển khai ngay trong AI Studio hoặc lưu mã lên GitHub

Ví dụ prompt: “Hãy tạo một ứng dụng chỉnh sửa ảnh cho phép người dùng tải ảnh lên và áp dụng nhiều bộ lọc khác nhau”

Duy trì tính nhất quán của nhân vật

Một bài toán cốt lõi trong tạo ảnh là duy trì nhất quán ngoại hình của nhân vật hoặc đối tượng, nay có thể được xử lý hiệu quả. Có thể đặt cùng một nhân vật vào nhiều môi trường khác nhau một cách tự nhiên, tạo một sản phẩm ở nhiều góc độ và bối cảnh khác nhau, hoặc tạo các tài sản thương hiệu với độ nhất quán cao

Có thể trình diễn tính nhất quán của nhân vật thông qua ứng dụng mẫu tùy chỉnh trong Google AI Studio, và từ đó trực tiếp tùy biến mã nguồn

Ngoài ra, mô hình còn cho thấy thế mạnh ở tạo ảnh dựa trên mẫu trực quan. Các thẻ bất động sản, thẻ nhân viên, mockup sản phẩm trong catalog cũng có thể được tạo hàng loạt từ một mẫu thiết kế duy nhất

Chỉnh sửa ảnh dựa trên prompt

Chỉ với lệnh ngôn ngữ tự nhiên, mô hình hỗ trợ biến đổi từng phần và chỉnh sửa cục bộ chính xác. Ví dụ, có thể làm mờ nền, xóa vết bẩn trên quần áo, xóa người trong ảnh, thay đổi tư thế chủ thể, hoặc tô màu ảnh đen trắng chỉ bằng một prompt

Để trực tiếp trải nghiệm những khả năng này, Google cũng cung cấp ứng dụng mẫu chỉnh sửa ảnh dựa trên UI và prompt

Tri thức thế giới gốc

Các mô hình tạo ảnh trước đây thường tạo ảnh đẹp về mặt thẩm mỹ nhưng thiếu hiểu biết ngữ nghĩa và chiều sâu về thế giới thực. Gemini 2.5 Flash Image được áp dụng tri thức thế giới, nên nổi bật ở các trường hợp sử dụng mới

Ví dụ, mô hình có thể đọc và hiểu sơ đồ vẽ tay, trả lời các câu hỏi thực tế, thực hiện các lệnh chỉnh sửa phức tạp. Những đặc điểm này có thể được trải nghiệm trực tiếp trong ứng dụng gia sư giáo dục tương tác dành cho AI Studio

Ghép nhiều ảnh

Mô hình có thể diễn giải và hợp nhất nhiều ảnh đầu vào để tạo ra ảnh tổng hợp. Có thể đặt đối tượng vào cảnh khác, làm mới phong cách căn phòng với màu sắc và chất liệu mới, hoặc hợp nhất nhiều ảnh chỉ bằng một prompt

Để phục vụ việc này, AI Studio cũng cung cấp ứng dụng mẫu cho phép kéo ảnh sản phẩm để nhanh chóng ghép vào cảnh mới

Hướng dẫn bắt đầu phát triển

Nhà phát triển có thể bắt đầu ngay với tài liệu chính thức, và hiện dịch vụ đang được cung cấp ở dạng preview. Tất cả các ứng dụng demo được giới thiệu trong bài đều được tạo bằng vibe code trong Google AI Studio, nên có thể remix và tùy biến chỉ bằng prompt

Thông qua hợp tác với OpenRouter.ai, hơn 3 triệu nhà phát triển trên toàn thế giới có thể sử dụng mô hình này, và đây hiện là mô hình đầu tiên hỗ trợ tạo ảnh trên OpenRouter. Nhờ hợp tác với fal.ai, dự kiến việc sử dụng cũng sẽ được mở rộng sang cộng đồng nhà phát triển media tạo sinh rộng lớn hơn

Mọi hình ảnh được tạo hoặc chỉnh sửa bằng Gemini 2.5 Flash Image đều chứa watermark số SynthID vô hình, cho phép nhận biết đó là ảnh do AI tạo ra

Mã ví dụ Python

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

Đoạn mã trên minh họa cách nhập đồng thời prompt và hình ảnh để tạo kết quả bằng Gemini 2.5 Flash Image

Phản hồi từ nhà phát triển và kế hoạch sắp tới

Google cho biết sẽ tiếp tục tập trung vào render văn bản dài, nâng cao tính nhất quán của nhân vật, cải thiện độ chân thực và chi tiết thực tế. Phản hồi được tiếp nhận qua diễn đàn nhà phát triển và X (trước đây là Twitter), và hãng kỳ vọng vào nhiều cách ứng dụng đa dạng từ cộng đồng nhà phát triển

1 bình luận

 
GN⁺ 2025-08-27
Ý kiến từ Hacker News
  • Có cảm giác đây chính là thời khắc kiểu GPT-4 của lĩnh vực mô hình chỉnh sửa ảnh
    Gemini 2.5 Flash được gọi là nano banana tốt đến mức khó tin
    Nó đã tăng tới 171 điểm elo trên lmarena
    Tìm kiếm nano banana trên Twitter có thể thấy rất nhiều kết quả ấn tượng
    Ví dụ, xem tweet này

    • Tôi đã tự thử nghiệm trong vài tuần
      Đôi khi cho ra kết quả thật sự ấn tượng, nhưng để có được hình ảnh mong muốn thì vẫn phải thử lặp lại prompt nhiều lần
      Không phải vạn năng, nhưng rõ ràng là một bước tiến rất lớn và thuộc hàng tốt nhất hiện nay

    • Ở ví dụ thứ ba có điểm là bàn tay trông hơi kỳ
      Có vẻ mô hình không quyết định được nó nên đặt theo hướng nào
      Tuy vậy, đây không phải vấn đề do Gemini tạo ra mà là lỗi đã có sẵn trong ảnh gốc

    • Có vẻ mọi biến thể liên quan đến "nano banana" đều đã được đăng ký thành các domain có UI riêng
      Tò mò không biết có phải những bên trung gian đang tận dụng tên model đang hot để ăn chênh lệch credit hay không

    • Trước khi AI xuất hiện, Google từng bị chỉ trích rất nhiều vì dùng nhân tài kỹ sư hàng đầu thế giới chỉ để bán quảng cáo
      Nhưng khi kỷ nguyên AI đến, những nhân tài đó giờ có thể được dùng cho quảng cáo cài cắm trong sản phẩm
      Đúng là đã đi một chặng đường rất xa

    • Một điểm đáng tiếc nữa là chiếc áo phao màu hồng sau khi chỉnh sửa hơi khác một chút so với ảnh tham chiếu
      Nếu dùng mô hình này để quảng bá sản phẩm hoặc nhạy cảm với chi tiết thì có thể sẽ không hài lòng

  • Tôi đã cập nhật trang web so sánh ảnh GenAI
    Trang này tập trung rất nghiêm ngặt vào khả năng tuân thủ prompt text-to-image
    Mô hình mới Google Gemini 2.5 Flash (nano-banana) cũng đã được thêm vào
    Model này làm đúng 8 trên 12 prompt và cho kết quả gần chạm tới các model hàng đầu là Imagen và gpt-image-1
    Đây là bản nâng cấp lớn so với Gemini Flash 2.0 trước đó
    gpt-image-1 đứng đầu chỉ nhỉnh hơn một chút ở mê cung và ngôi sao 9 cánh
    Điều đáng ngạc nhiên nhất là gpt-image-1 đã giữ vị trí dẫn đầu gần 6 tháng rồi (trong lĩnh vực này thì 6 tháng gần như là vĩnh cửu)
    Tuy nhiên, gpt-image-1 gần như vô dụng với tư cách "editor", vì nó thay đổi toàn bộ hình ảnh chứ không chỉnh sửa theo kiểu inpainting (chỉ sửa một phần) như Kontext, Qwen, Nano-Banana
    Liên kết so sánh OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana...

    • Tôi cảm thấy cần có một benchmark riêng cho chỉnh sửa câu chữ

    • gpt-image-1 gần như vô dụng với vai trò "editor"
      Tôi vào thread này chính là để tìm nhận xét đó
      Tôi nghĩ đây là cách tiếp cận rất hay để so sánh khả năng tuân thủ prompt giữa các model
      Gần đây prompt kiểu inpainting đang nổi lên, nên tôi tò mò không biết bạn có dự định thêm khả năng đánh giá chỉnh sửa hay không

    • Tôi không rõ vì sao Hunyuan, OpenAI 4o, Gwen lại được tính là vượt qua bài test bạch tuộc
      Chúng không bao phủ đủ "mỗi xúc tu"
      Midjourney thì lại mặc tất rối cho tới 9 chiếc trên 8 cánh tay

    • Thú vị là kết quả ảnh từ Imagen 4 và Gemini 2.5 Flash trong một số test case trông rất giống nhau
      Có lẽ Gemini 2.5 Flash trước tiên tạo ảnh nền bằng Imagen (mô hình khuếch tán) ở phía sau, rồi phía Gemini tiếp tục chỉnh sửa chồng lên để tăng độ tuân thủ prompt

    • Tôi rất thích trang này
      Bạn có biết trang nào so sánh khả năng các model khác nhau bám theo style guide tốt đến đâu không, chẳng hạn vẽ minh họa theo cùng một phong cách?
      Cá nhân tôi rất muốn thấy tính năng như vậy được thêm vào trang
      Ví dụ, cung cấp vài bức tranh theo phong cách của một họa sĩ rồi so sánh xem model có thể tạo minh họa theo đúng phong cách đó hay không
      Với các trường hợp như minh họa sách cần phong cách nhất quán thì điều này sẽ cực kỳ hữu ích

  • Chỉ Gemini 2.5 Flash Image là model duy nhất có thể xử lý nhiều ảnh cùng lúc mà không cần mẹo kỳ quặc
    Ví dụ, với Flux Kontext, nếu muốn "ghép ảnh thứ nhất vào ảnh thứ hai" thì phải mất công ghép sẵn ảnh trước
    Nhưng model này dùng được mà không có bất tiện đó, thậm chí còn có thể đưa vào hơn hai ảnh nữa (dù quá nhiều thì có thể gây rối)
    Qua thử nghiệm nhanh, có vẻ nó cũng tuân thủ tốt với prompt dài và các biểu đạt mang tính cú pháp hoạt động hiệu quả hơn
    Tôi vẫn đang tiếp tục thử nghiệm vì có vẻ còn nhiều cách điều khiển hơn nữa chưa được khám phá hết
    Giá cả cũng tương đương các model cạnh tranh nên tôi kỳ vọng nó sẽ tạo ra thay đổi lớn trên thị trường

    • Tính năng này thực sự rất vui
      Nhà hàng xóm đi nghỉ nên tôi đang cho cá ăn giúp
      Tôi chụp ảnh bể cá rồi nhờ Gemini tạo theo prompt kiểu "đặt bể cá ở danh thắng trong thành phố"
      Mỗi ngày tôi gửi một tấm nên hàng xóm rất thích
      Những trò đùa nhỏ như vậy làm cuộc sống hằng ngày của cả hai vui hơn
  • Đáng tiếc là cũng như các sản phẩm AI khác, nó gặp vấn đề áp chính sách an toàn quá nghiêm ngặt
    Một nửa số prompt bị từ chối
    Nếu không thể chỉnh sửa con người thì không hiểu làm sao có thể giữ được tính nhất quán của nhân vật
    Tôi chủ yếu muốn chỉnh sửa ảnh có người, nhưng với model này thì không thể
    Tôi hiểu Google lo về vấn đề deepfake, nhưng hướng này vốn không thể chặn được và cuối cùng xã hội cũng sẽ phải thích nghi
    Xu hướng công cụ ngày càng hạn chế người dùng thật sự gây khó chịu
    Cuối cùng tôi nghĩ sẽ cần một phong trào OSS mới để giành lại tự do

    • Tôi có một bức ảnh chụp người yêu cũ và chị em họ của cô ấy hồi nhỏ, cả hai mặc đồ Giáng sinh và chụp cùng nhau
      Hai người đã sống xa nhau rất lâu nên đó giờ là một kỷ niệm quý giá
      Bản thân bức ảnh đã xuống cấp, mà chất lượng lại còn thấp
      Thế mà đến giờ vẫn chưa có mô hình AI nào khôi phục được nó

    • Hai ngày trước tôi thử dùng Veo miễn phí để làm video
      Tôi đã xóa hết mọi từ ngữ tưởng như vô hại nhưng vẫn bị từ chối
      Có lẽ vấn đề là tôi định tạo ra "chính mình", nên cuối cùng đành bỏ cuộc

  • Tôi đã số hóa ảnh gia đình, nhưng có rất nhiều hư hại khó phục hồi như lệch màu, vết bẩn, dấu tay, vết ố phim
    Vì khó có thể sửa thủ công từng tấm trong hàng trăm bức, tôi đã chờ công nghệ tạo ảnh bằng AI tiến bộ đến mức có thể khôi phục hàng loạt mà không thay đổi chi tiết, đặc biệt là khuôn mặt
    Model này có vẻ khá tốt trong việc chỉ phục hồi phần bị mất mà vẫn giữ nguyên chi tiết, nên có lẽ giờ là lúc nên thử

    • Tất cả các loại hư hại kể trên có thể được sửa tự động bằng máy quét phim có tính năng ICE và phần mềm phục hồi tự động như Vuescan
      Theo tôi thì không cần tải hàng trăm hay hàng nghìn bức ảnh lên một AI đám mây độc quyền còn mang tính thử nghiệm, chỉ để nhận về kết quả kém chất lượng lẫn đầy nén méo và artifact kỳ lạ

    • Tôi không thực sự hiểu ý nghĩa của cách dùng này
      Chẳng phải chỉ cần tưởng tượng ra một bức ảnh không bị hư là được sao?
      AI upscale trên camera điện thoại cũng vậy
      Nếu muốn nhìn thứ gì đó ở xa thì cứ tưởng tượng thôi
      Cuối cùng tôi nghĩ công cụ AI cần đạt đến mức tự động hóa những gì một người giỏi Photoshop vẫn có thể làm bằng tay với công cụ
      Việc tự bịa ra chi tiết mới có vẻ chỉ là lãng phí thời gian

    • Không biết có ai biết phần mềm nào khôi phục/nâng cấp file video không
      Tôi đang số hóa video từ những năm 2000 và băng VHS của mẹ tôi
      Thiết lập số hóa thì đã xong, nhưng tôi muốn cải thiện chất lượng hình ảnh của video thêm nữa

    • Chúc bạn dùng tốt
      Nhìn vào kết quả của prompt "phục hồi ảnh" trong ví dụ, khuôn mặt người phụ nữ mang đặc trưng AI khá rõ
      Tất nhiên tôi hy vọng theo thời gian nó sẽ còn cải thiện hơn

    • Tôi nghĩ vài tháng trước Flux Kontext đã đạt đến giai đoạn đó rồi (https://bfl.ai/models/flux-kontext)

  • Mọi hình ảnh được tạo/chỉnh sửa bằng Gemini 2.5 Flash Image đều sẽ được nhúng watermark kỹ thuật số vô hình tên là SynthID để đánh dấu là ảnh do AI tạo/chỉnh sửa
    Tôi hiểu mục đích và thiện ý, nhưng thật tiếc khi giờ đây không còn là người trưởng thành tự chịu trách nhiệm nữa mà là các tập đoàn lớn quyết định bạn được làm gì và không được làm gì
    Cảm giác như đang bị giám sát

    • Tôi muốn hỏi lại rằng con người khi dùng công nghệ đã bao giờ thật sự là những người lớn có trách nhiệm chưa
      Deepfake hoàn toàn có thể khiến sự bất an về nhận thức thực tại trở nên nghiêm trọng hơn nữa
      Sẽ có rất nhiều người bị lừa bởi đồ giả, và cũng sẽ có người từ nay chẳng tin bất cứ thứ gì nữa
      Các chính trị gia sẽ tuyên bố video bất lợi cho họ là "giả" khi nó xuất hiện
      Chúng ta vốn đã sống phần nào trong thời kỳ hậu sự thật, nhưng sắp tới tình hình sẽ còn tệ hơn

    • Trên thực tế, khó mà xem đó là hình ảnh do người dùng tạo ra
      Ví dụ, nếu một nghệ sĩ chèn watermark vào tác phẩm được đặt làm thì đó chỉ là để cho biết bức tranh là công việc của họ, chứ không thể xem là "mách lẻo"
      Có thể bạn không có ý theo hướng đó, nhưng cũng là điều đáng để nghĩ thử

    • Tôi không đồng ý với kiểu lập luận "không có gì để giấu thì không có gì phải sợ", nhưng tôi tò mò vì sao watermark cho ảnh do AI tạo/chỉnh sửa lại bị xem là vấn đề
      Nói thật, cá nhân tôi nghĩ ảnh AI bắt buộc phải có watermark

    • Không ai bắt buộc phải dùng model này, nên cá nhân tôi không thấy đây là vấn đề

    • Đây là cuộc chạy đua vũ trang của công nghệ
      Xem removemysynthid.com

  • Giống như hầu hết trình tạo ảnh khác, nó thất bại ở bài test phím đàn piano (các phím đen bị sai)
    Ví dụ bài test

    • Tôi tò mò bài test phím đàn piano là gì
      Link lại yêu cầu quyền truy cập Google Drive trong AI Studio nên cảm thấy khó dùng

    • Tôi thắc mắc liệu có model nào đưa cả ý tưởng trong không gian khái niệm vào hay không, ví dụ như sự lặp lại của 8 nốt
      Khi biểu diễn đàn piano, chỉ những từ gần với từ "piano" dường như không đủ để thể hiện những khái niệm cố định như octave lặp lại, nên có vẻ nó thiếu ở điểm này
      Tôi có cảm giác chỉ bằng từ ngữ thì rất khó liên kết hình ảnh và ý nghĩa một cách nhất quán

    • Điểm mạnh thật sự của model này có vẻ không nằm ở chất lượng tạo ảnh thuần túy mà ở "tính nhất quán giữa các thế hệ"
      Link ví dụ

    • Thú vị thật
      Người từng tiếp xúc với đàn piano thật sẽ nhận ra ngay là nó sai, tương tự như bài test render văn bản, tức là "trông bề ngoài" thì giống nhưng thực tế lại sai
      Với prompt thông thường, nếu chỉ lấy kết quả đầu tiên từ Google Images rồi nói kiểu "đây, ảnh bàn phím piano đây" thì có lẽ vẫn dễ dàng được chấp nhận

    • Nó cũng thất bại trong bài test văn bản ngang của tôi

  • Tôi đã thử tái hiện trực tiếp các ví dụ nĩa/mì spaghetti và bong bóng thời trang, nhưng rất khác so với kết quả chính thức
    Đầu ra tạo ra cũng rất nhất quán
    Có thể do tôi copy ảnh từ trang quảng cáo nên độ phân giải khác, nhưng prompt thì tôi dùng y hệt
    Có vẻ đúng là tôi đang dùng model mới, và so với trước thì đây thật sự là một bước tiến lớn

    • Tính nhất quán của kết quả khá thú vị
      Tôi đã chạy đi chạy lại nhiều thế hệ cho bài test tiêu chuẩn model ảnh của riêng mình (đến giờ vẫn chưa thấy model nào vẽ đúng octave piano dù chỉ một lần), và Gemini 2.5 Flash Image cũng không ngoại lệ
      Thử nhiều lần rồi so sánh thì hoàn toàn không có thay đổi
      ChatGPT khi nhận prompt editor thường hay làm thay đổi cả những phần khác ngoài phần tôi muốn sửa, nhưng ở đây thì hoàn toàn không có chuyện đó
      Ví dụ hình ảnh

    • Kết quả thực tế trông bình thường hoặc mơ hồ hơn nhiều so với những gì quảng cáo thể hiện
      Ở ví dụ, việc tạo chủ thể bong bóng thực tế chỉ tạo ra những hình dạng giống bong bóng mơ hồ bên trong chủ thể
      Ví dụ cây nĩa thì chỉ thêm một cái nĩa lên trên mì
      Cả hai trường hợp đều có thể xem là thực tế tuân thủ prompt tốt hơn, nhưng nhìn thì kém ấn tượng hơn

  • Tôi thấy may vì mình đã không trở thành chuyên gia Photoshop
    Có lúc từng thấy con đường đó rất hấp dẫn nhưng cuối cùng không chọn nên giờ lại thấy may
    Giờ chỉ cần nano-banana là đủ
    Tôi tin các model khác rồi cũng sẽ sớm bắt kịp
    Cộng đồng r/photoshopbattles giờ coi như tạm biệt

    • Retouch là một nghệ thuật
      Với chuyên gia, loại AI này cũng chỉ là một công cụ khác để tăng hiệu suất
      Không chỉ biết dùng Photoshop, mà còn cần khả năng phán đoán thông minh
      Dĩ nhiên nếu khối lượng công việc không tăng thì có thể số retoucher cần thiết sẽ ít hơn để làm cùng một lượng việc
      Nếu đơn giá giảm thì liệu mọi người có retouch nhiều hơn không? Tôi không chắc

    • Góc nhìn thú vị đấy
      Tôi là lập trình viên nhưng hồi đầu những năm 2000 cũng học Photoshop và rất thích chỉnh sửa ảnh
      Các model tạo sinh bây giờ đúng là làm tốt hơn rất nhiều so với những gì tôi từng tạo hồi đó, nhưng tôi không nghĩ trải nghiệm và kỹ năng ấy hoàn toàn vô nghĩa
      Trên thực tế, Photoshop (hoặc giờ là Affinity Designer/Photo) cực kỳ hữu ích để chỉnh lại kết quả AI
      Tôi chưa từng hối hận

    • Nếu viết bình luận này cách đây 10 năm, tôi hẳn sẽ nói rằng ít nhất phần mềm và kỹ năng là của riêng mình, và dù Google có tăng giá thuê bao hay ngừng dịch vụ thì nó vẫn là của tôi
      Giờ cả PS cũng chuyển sang thuê bao, nên đành chờ ngày có model mở đủ tốt

    • Photoshop vẫn còn hữu ích
      Ảnh AI rất tuyệt, nhưng tôi vẫn muốn tự làm bố cục nền tảng, và để dọn artifact trong kết quả AI hay ghép nhiều lớp AI khác nhau thì kỹ năng thủ công vẫn là điều không thể thiếu

    • Cuối cùng thì các lĩnh vực khác như lập trình cũng sẽ bị tự động hóa nghiền nát
      Chỉ là sẽ mất thêm chút thời gian thôi (5~10 năm?)
      Kỹ thuật phần mềm có thể sẽ lâu hơn do lỗi và technical debt
      Ảnh hỏng thì tạo lại là xong, còn chương trình hỏng thì ngay sau đó sẽ thành một đống mã không thể bảo trì
      Nhưng sớm muộn gì làn sóng này cũng sẽ ập đến lĩnh vực của chúng ta

  • Cứ nhờ Gemini tạo ảnh là một nửa số lần nó trả lời không thể thực hiện
    Cảm giác các tính năng của Google thật sự rất khó để dùng trong thực tế
    Có thứ nằm ở sản phẩm này, có thứ lại nằm ở sản phẩm khác, và cũng khó hiểu phải truy cập từ đâu

    • Đúng vậy
      Trên website có hướng dẫn "hãy thử trong Gemini", nhưng đến khi chọn Gemini 2.5 Flash thì tôi còn chẳng chắc mình có đang dùng đúng thứ đó không nữa

    • Trong app hoặc website Gemini thậm chí còn không có model đó
      Phải dùng qua đường khác như AI Studio
      UI/UX phía Google nhìn chung thật sự rất rối