DALL-E 3 nay đã có thể dùng công khai trong Bing

(bing.com)

1 điểm bởi GN⁺ 2023-10-02 | 1 bình luận | Chia sẻ qua WhatsApp

Bing Image Creator là công cụ miễn phí dùng để biến văn bản và hình ảnh tải lên thành ảnh AI hoặc chỉnh sửa chúng; DALL-E 3 sẽ được ngừng dần và các ảnh hiện có vẫn được giữ trong My Creations
Có thể chọn mô hình tạo ảnh trong số DALL-E3, GPT4o, MAI-Image-2e, nhưng việc chỉnh sửa ảnh tải lên chỉ được xử lý bằng GPT4o
Cần đăng nhập bằng Microsoft Account (MSA) cá nhân; tài khoản cơ quan hoặc trường học dựa trên Microsoft Entra ID không được hỗ trợ trong Image Creator và Video Creator
Image Creator cung cấp 15 lượt tạo Fast miễn phí mỗi ngày và tối đa 200 prompt trong mỗi 24 giờ; Video Creator hỗ trợ tạo video từ văn bản dựa trên Sora 2
Ảnh tải lên có thể được dùng để xử lý yêu cầu và cải thiện dịch vụ, nhưng không được dùng để huấn luyện mô hình hay cá nhân hóa; ảnh tải lên có phát hiện khuôn mặt sẽ bị xóa sau 30 ngày

Chuyển đổi Bing Image Creator và DALL-E 3

Bing Image Creator là công cụ AI tạo hoặc chỉnh sửa hình ảnh dựa trên văn bản và hình ảnh tải lên của người dùng
DALL·E 3 đã được cung cấp cho creators và sẽ ngừng hoạt động (retire) trong vài tuần tới
- Các ảnh hiện có vẫn nằm trong My Creations
- Một tính năng thay thế chuyên dụng đang được chuẩn bị
- Trong thời gian đó vẫn có thể tiếp tục tạo bằng các mô hình mới hơn

Mô hình tạo ảnh và cách chỉnh sửa

Có ba lựa chọn mô hình cho việc tạo ảnh
- DALL-E3: khi nhấn “Create”, hệ thống tạo nhiều ảnh dựa trên prompt và được tính là một lần tạo
- GPT4o: khi nhấn “Create”, hệ thống tạo 1 ảnh dựa trên prompt
- MAI-Image-2e: khi nhấn “Create”, hệ thống tạo nhiều ảnh và được tính là một lần tạo
MAI-Image-2e có model card và data summary
Khi dùng hoặc chỉnh sửa ảnh tải lên, không thể chọn DALL-E3 và MAI-Image-2e, mọi thao tác chỉnh sửa đều được xử lý bằng GPT4o
Với các yêu cầu tương tự prompt đã dùng gần đây, hệ thống có thể hiển thị cached image được lưu tạm thay vì tạo ảnh mới hoàn toàn từ đầu

Tài khoản, tốc độ và giới hạn sử dụng

Bing Image Creator có thể dùng miễn phí với Microsoft Account (MSA) cá nhân
- Người dùng đăng nhập bằng Microsoft Entra ID không thể sử dụng
- Kể cả khi dùng trong Copilot Search hoặc Bing Search, vẫn cần đăng nhập trước khi tạo ảnh
Tốc độ tạo được chia thành Fast creation và Standard creation
- Mỗi ngày có 15 lượt tạo ảnh Fast miễn phí
- Dùng hết 15 lượt thì sẽ được bổ sung lại vào ngày hôm sau
- Muốn tiếp tục dùng Fast creation có thể dùng điểm Microsoft Rewards
- Standard creation miễn phí nhưng chậm hơn Fast
Image Creator cho phép nhập tối đa 200 prompt trong mỗi 24 giờ
- Việc nhấn “Edit image” cũng được tính vào giới hạn 200 này
- Khi dùng hết giới hạn, hệ thống sẽ bổ sung lại vào ngày hôm sau
Việc tạo không đăng nhập hoặc ở chế độ khách có giới hạn hằng ngày; khi đăng nhập có thể dùng tải ảnh lên và truy cập thêm các mô hình khác

Bing Video Creator

Bing Video Creator là sản phẩm của Bing dùng Sora 2 để tạo video AI theo prompt văn bản
Video Creator cũng yêu cầu đăng nhập Microsoft Account cá nhân và không hỗ trợ tài khoản Microsoft Entra ID
Tốc độ tạo gồm Fast creation và Standard creation
- Standard creation là miễn phí
- Fast creation thường cần điểm Microsoft Rewards
- Trong một số trường hợp có thể được cấp credit cho Fast creation
Có thể xếp hàng tối đa 3 video đang được tạo cùng lúc
- Nếu đã có 3 video đang chạy, sẽ không thể tạo video mới cho đến khi một video hoàn tất
- Video đã hoàn tất có thể xem trong mini app Bing Video Creator của ứng dụng Bing trên di động hoặc tại “My Creations” trên bing.com/create
Việc tạo video hiện chỉ khả dụng trên di động và phải truy cập qua ứng dụng Bing

Ảnh tải lên và xử lý dữ liệu cá nhân

Ảnh tải lên được dùng để Bing Image Creator hoặc Bing Video Creator thực hiện tác vụ tạo hoặc chỉnh sửa ảnh theo yêu cầu của người dùng
Ảnh tải lên có thể được dùng để cải thiện dịch vụ xử lý ảnh, nhưng không được dùng cho huấn luyện mô hình AI hoặc cá nhân hóa trải nghiệm người dùng
Hệ thống không cố gắng nhận diện danh tính của khuôn mặt xuất hiện trong ảnh tải lên
Thời gian lưu trữ thay đổi tùy theo nội dung ảnh
- Ảnh tải lên được lưu tối đa 30 ngày
- Ảnh có phát hiện khuôn mặt sẽ bị xóa sau 30 ngày
- Ảnh không phát hiện khuôn mặt có thể được lưu tối đa 18 tháng
Ảnh và video đã tạo có thể được lưu tối đa 90 ngày
Người dùng có thể xóa lịch sử bằng cách chọn “Clear all” trong lịch sử tìm kiếm Bing hoặc chọn “Search history” rồi “Clear all search history” trong privacy dashboard của tài khoản Microsoft
- Thao tác này sẽ xóa cả lịch sử tìm kiếm Bing, hồ sơ Bing Image Creator và Video Creator, cùng lịch sử tạo nội dung

Giới hạn tải lên và dữ liệu sinh trắc học

Người dùng chỉ nên tải lên ảnh gốc mà mình sở hữu hoặc có quyền sử dụng
Không được tải lên hình ảnh vi phạm quyền của bên thứ ba, xâm phạm quyền riêng tư của người khác, mô tả cá nhân khi chưa có đồng ý, hoặc vi phạm Microsoft Services Agreement hay Bing Image Creator Code of Conduct
Nếu bị phát hiện cố tải lên nội dung bất hợp pháp hoặc bị cấm, việc sử dụng tài khoản có thể bị hạn chế hoặc đình chỉ
Vì lý do an toàn, Video Creator không cho phép tải lên ảnh khuôn mặt chân thực để dùng cho việc tạo video
Trong tính năng tải ảnh lên, dữ liệu sinh trắc học như khuôn mặt hoặc bàn tay có thể được xử lý
- Dữ liệu sinh trắc học chỉ được xử lý khi do người dùng tải lên
- Mục đích xử lý chỉ giới hạn trong việc phản hồi yêu cầu của người dùng
- Ở một số khu vực, có thể cần sự đồng ý trước khi xử lý ảnh
- Không nên chia sẻ hình ảnh của người khác khi chưa có sự đồng ý

Viết prompt và ngôn ngữ hỗ trợ

Bing Image Creator và Bing Video Creator hỗ trợ hơn 100 ngôn ngữ, danh sách đầy đủ có thể xem tại Microsoft Translator
Để có kết quả tốt, nên viết prompt cụ thể và giàu hình dung thay vì ngắn như từ khóa tìm kiếm
- Nếu gồm ngoại hình, màu sắc, chất liệu, hành động, bối cảnh, ánh sáng, góc máy và phong cách media của chủ thể thì chất lượng kết quả có thể tốt hơn
- Với prompt video, có thể thêm các chủ đề như “action movie”, “fantasy”, “dramatic” và cách diễn đạt ánh sáng như “direct sunlight”, “dusk”, “soft lighting”
- Với video có âm thanh, có thể gợi ý âm thanh môi trường, định hướng âm nhạc, tông kể chuyện, nhưng không thể chỉ định lời thoại chính xác dưới dạng kịch bản

Rewards và AI có trách nhiệm

Khi dùng hết 15 lượt Fast creation miễn phí mỗi ngày trong Image Creator, hệ thống sẽ tự động chuyển sang tốc độ Standard creation
Nếu bật sử dụng điểm Microsoft Rewards, điểm sẽ bị trừ khi dùng Fast creation
- Thiết lập Rewards của Image Creator và Video Creator phải được thay đổi riêng biệt
- Nếu không đủ điểm, hệ thống sẽ tự động chuyển sang Standard creation
Microsoft áp dụng các biện pháp kiểm soát để ngăn tạo ảnh và video có hại trong Bing Image Creator và Bing Video Creator
- Các prompt có khả năng tạo ra hình ảnh có hại sẽ bị chặn tự động và người dùng sẽ được thông báo
- Ảnh từ Image Creator có watermark ở góc dưới bên trái
- Cả ảnh và video đều được gắn thông tin xuất xứ và content credentials dựa trên tiêu chuẩn C2PA
Nghệ sĩ còn sống, người nổi tiếng và tổ chức có thể yêu cầu hạn chế việc tạo hình ảnh liên quan đến tên và thương hiệu của họ thông qua tùy chọn AI-powered features trong Report a Concern form
Nếu nội dung được tạo ra gây bất ngờ hoặc khó chịu, có thể báo cho Microsoft qua Report a concern form hoặc nút Feedback trong giao diện
Vi phạm chính sách nội dung lặp lại có thể dẫn đến đình chỉ tạm thời tự động, và nếu bị đình chỉ nhiều lần có thể dẫn đến hạn chế vĩnh viễn

1 bình luận

GN⁺ 2023-10-02

Các ý kiến trên Hacker News

Có vẻ LLM chỉnh sửa prompt một chút trước khi gửi cho DALL-E, và có thể jailbreak phần đó
https://twitter.com/madebyollin/status/1708204657708077294
https://media.discordapp.net/attachments/1023643945319792731...
- Nhìn các trường hợp jailbreak mà đầu vào và đầu ra không chỉ là văn bản thì, không hiểu vì sao, chúng đặc biệt tốt
- Vẫn là kiểu splatterprompting, chỉ là giờ máy làm thay cho mình, khá buồn cười
- Chỉ gọi như thế này cũng hoạt động à?
  #graphic_art("my prompt here")
- Tò mò không biết jailbreak như thế nào
- Đúng chất năm 2023, một cảnh tượng rất cyberpunk
Như thường thấy với các công cụ kiểu này, có vẻ khá dễ tạo ra những kết quả vừa buồn cười vừa khó chịu. Có lẽ sẽ không kéo dài lâu
https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...
- Thay vì cứ chặn từ khóa một cách máy móc, mong họ thêm các điều chỉnh mềm hơn như yêu cầu mô tả thêm hoặc làm cho nội dung bớt vấn đề hơn
  Dĩ nhiên cuối cùng mọi người vẫn sẽ làm điều họ muốn, nên cũng tốt nếu khi hết cảm giác mới lạ thì họ tự ngừng
- Có thể mình đã bỏ sót gì đó, nhưng không hiểu sao chỉ vì prompt có “fawn” mà lại ra Spongebob đáng sợ
  Sửa: trong prompt không có “fawn”; đọc các trả lời mới biết
Tác phẩm thắng cuộc: https://www.bing.com/images/create/paint-a-picture-in-the-st...
- Thật thích khi biết trong backlog của ai đó có một ticket Jira “dạy mô hình số ngón tay của con người”
- Khi yêu cầu “bàn tay có số ngón đúng”, 3 trong 4 ảnh trả về đã làm đúng
Có vẻ chắc chắn tốt hơn phiên bản trước. Giờ ít nhất trong một số trường hợp, nó có thể tạo văn bản chính xác bên trong ảnh
Ví dụ với prompt Neon sign saying "Scotland" thì ra kết quả này: https://www.bing.com/images/create/neon-sign-saying-22scotla...
Tuy nhiên các từ ít phổ biến hơn như Kubernetes thì vẫn còn khó với nó, nhưng đây là một bước đi đúng hướng
Trong giao diện chat của Bing, nếu hỏi “Bạn có thể vẽ cho tôi hình X không?” thì ngay sau khi trả lời “Xin lỗi, tôi không thể vẽ. Bạn cần giúp gì khác không?”, nó lại nối tiếp bằng “Việc tạo ảnh đang mất thời gian. Hãy kiểm tra tiến độ trong Image Creator”
Có vẻ họ dùng một LLM không biết rằng bản thân có thể vẽ ảnh trong phần phản hồi chat, đồng thời chạy song song một mô hình khác để quyết định sẽ vẽ gì và hiển thị ra sao
- Mình cố tránh các prompt kiểu “Can you ...?”. Vì chúng có thể bị hiểu là câu hỏi có/không, chứ không phải lệnh yêu cầu làm gì đó
  Trên Bing, mình nhập “Draw me an image of...” hoặc đơn giản “Image: mô tả ảnh” thì đến giờ vẫn hoạt động tốt
- Có lẽ là do động từ “draw”. LLM chỉ đang nói rằng tự nó không thể vẽ trực tiếp, còn việc tạo ảnh có lẽ là một hàm được gọi
  LLM dường như xem trình tạo ảnh là một công cụ nó dùng, tức là một thực thể tách biệt với chính nó
- Có lẽ là vậy. Mình từng thử cho một LLM được huấn luyện bằng dữ liệu chat/chỉ dẫn xuất ra mã đặc biệt để giao tiếp với hệ thống riêng, chẳng hạn Google hoặc Stable Diffusion, rồi chuyển tiếp kết quả đó cho người dùng, nhưng tỷ lệ thành công khá hạn chế
- Nếu ảnh đầu ra bị phát hiện là NSFW, đôi khi chat cũng đưa ra lỗi kỳ lạ như vậy. Có khá nhiều báo động nhầm
Trong 24 giờ qua mình đã tạo thử đủ thứ và thấy khá tốt. Mình thực sự không thích giao diện Discord của Midjourney
- Mình cũng vậy. Không hiểu vì sao họ dùng Discord lâu đến thế mà không tạo một trải nghiệm người dùng tử tế cho use case này. Có lẽ vì vậy họ sẽ mất khá nhiều đà tăng trưởng
- Midjourney chỉ dùng trên Discord thôi à? Nếu vậy chắc gây tải rất lớn lên máy chủ Discord. Dù mô hình không chạy ở đó, chỉ riêng lưu trữ và băng thông đã lớn rồi
  Đây là cách khá ổn để mở rộng thật nhanh lúc đầu, nhưng chắc Discord không thích lắm. Mình tưởng đến giờ họ đã làm giao diện riêng rồi
- Liên quan đến chuyện đó, Instagram giờ cũng đã thêm lệnh /imagine vào DM. Sao chép hoàn toàn
Bing trông có vẻ khá tuyệt vọng. Hôm qua tôi định cài GPT lên thiết bị, kết quả app đầu tiên là quảng cáo, mà đó lại là Bing, nói rằng dùng app thì có thể nhận thưởng
Không biết họ quan tâm đến việc tăng số người dùng hơn, hay quan tâm hơn đến việc thu thập dữ liệu ngọt ngào. Có lẽ là cả hai
- Bing Rewards ra mắt từ năm 2010, nên có vẻ nó đủ hiệu quả để họ tiếp tục duy trì
  https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
- Google trả cho Apple 20 tỷ USD mỗi năm để giữ vị trí công cụ tìm kiếm mặc định trên iOS. Đó mới là tuyệt vọng thật sự. Người ta sẽ đi đâu chứ, Bing à?
- Bing đạt 12 tỷ USD doanh thu trong năm 2022. Chỉ nói vậy thôi
- Whatsapp cũng có phiên bản ChatGPT của riêng mình. Giờ là một cuộc chạy đua vũ trang
Tôi thích việc bản địa hóa tiếng Pháp của tiêu đề trang đó là “Créer art de mots avec IA”. Gần như là một bản dịch kinh khủng ở tầm “all your base are belong to us”
Có lẽ là bản dịch AI, nhưng nếu là người dùng tiếng Pháp thì khó mà có niềm tin vào sản phẩm AI trên trang này
- Không hiểu sao lại đổ lỗi cho dịch AI
  Có thể xem ChatGPT-4 tự xử lý yêu cầu dịch trực tiếp như thế nào: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
  Cũng có thể xem nó nói gì về loạt bản dịch hiện có: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
  Tôi không rành tiếng Pháp, nhưng trải nghiệm dịch tiếng Tây Ban Nha mà tôi biết ở mức nào đó, cùng các ngôn ngữ khác, bằng “AI” thì tích cực hơn Google Translate. Vài tháng trước tôi so sánh song song bản dịch sang tiếng Anh bằng ChatGPT-4 và Google Translate, và đúng là không cùng đẳng cấp
  Không rõ Microsoft lấy bản dịch tệ hại này từ đâu, nhưng nếu dịch bằng ChatGPT-4 thì có lẽ đã đỡ kinh khủng hơn
- Bản dịch tiếng Phần Lan cũng là kiểu dịch từng từ một khủng khiếp. Khi dịch sang một ngôn ngữ hầu như không dùng giới từ thì cách đó hoàn toàn không ổn
  Những từ như “for” hay “to” bị thay bằng các từ thuộc ngữ cảnh hoàn toàn khác. Làm tôi nhớ đến dịch máy khoảng năm 2000
  Đáng tiếc là các tính năng mới của Windows như ép đồng bộ OneDrive cũng dùng bản dịch tệ tương tự. Dạo này tiếng Phần Lan trong email phishing còn tốt hơn Windows
- Tôi nhớ trang giới thiệu chatbot AI mà Bing từng dùng cũng được dịch rất kinh khủng. Kỳ lạ ngay cả ở cấp ký tự, lại còn có chữ hoa ngẫu nhiên. Thành thật mà nói, đến giờ tôi vẫn không hiểu sao chuyện đó có thể xảy ra
- Rõ ràng chất lượng dịch rất tệ. Tôi vừa thử bằng Microsoft Translator thì chất lượng dịch ổn. Rất lạ
Tux thì họ làm cho trông đúng rồi: https://www.bing.com/images/create/tux-the-penguin-lounging-...
Nó hiện “chờ 2 giờ”, “việc tạo ảnh mới có thể mất thời gian”, “do hết boost nên việc tạo ảnh có thể lâu hơn bình thường”
Microsoft đang đốt bao nhiêu tiền để cung cấp tất cả các tính năng này vậy?
Lần cuối tôi kiểm tra thì dù phát hào phóng như thế cũng có vẻ không giúp Bing được mấy, phải không?
Tôi tự hỏi đây là kiểu “làm vì có thể làm”, hay thực sự có lợi nhuận
[0]: https://searchengineland.com/new-bing-google-market-share-si...
- Các tập đoàn thật sự lớn luôn vận hành theo kế hoạch chiến lược dài hạn. Nếu thứ gì đó trông có vẻ quá hào phóng, thì thường đúng là như vậy
  Có lợi nhuận không thì có lẽ là không. Nhưng đó mới là điểm mấu chốt. Cung cấp dịch vụ thấp hơn giá thị trường, chờ đến khi đối thủ biến mất, rồi bắt đầu kiếm tiền
  Ví dụ thì có rất nhiều, nhưng tôi nghĩ đến những thứ như Google Workspace. Làm cho việc gia nhập dễ dàng, rẻ, để người dùng và doanh nghiệp quen với sản phẩm, rồi từ từ luộc ếch
- Tin tuyển dụng này nói lên nhiều điều
  https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
  Thấy trên Slashdot: https://m.slashdot.org/story/419681
- Vì nó cho thấy mọi người lặp lại nhiều prompt để đạt kết quả mong muốn, rồi chọn phương án nào trong số đó, nên có vẻ cũng có giá trị làm dữ liệu huấn luyện
- Cũng có thể họ đang áp dụng công cụ bán hàng nhằm thúc đẩy doanh nghiệp dùng Bing sang cả người tiêu dùng. Họ cần số liệu về traffic và mức sử dụng, rồi khi có được thì có thể gắn thêm mảng quảng cáo để kiếm tiền
- Với đa số mọi người, Bing là thứ dùng để tìm Google
  Cũng giống như Edge là thứ dùng để cài Chrome
  Dù có gắn thêm bao nhiêu marketing hay tính năng, cũng không thể làm những cái xác này đi lại được

DALL-E 3 nay đã có thể dùng công khai trong Bing

Chuyển đổi Bing Image Creator và DALL-E 3

Mô hình tạo ảnh và cách chỉnh sửa

Tài khoản, tốc độ và giới hạn sử dụng

Bing Video Creator

Ảnh tải lên và xử lý dữ liệu cá nhân

Giới hạn tải lên và dữ liệu sinh trắc học

Viết prompt và ngôn ngữ hỗ trợ

Rewards và AI có trách nhiệm

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News