EveryText: Công bố công nghệ phản ánh/thể hiện mọi ngôn ngữ (ký tự) trên thế giới trong tạo ảnh AI mà không cần huấn luyện trước
(fantos-EveryText.hf.space)1. Tổng quan
Khi sự phát triển của công nghệ AI đang được đẩy nhanh, lĩnh vực tạo ảnh cũng đang chứng kiến những bước tiến mang tính đột phá. Ở trung tâm của xu hướng đó là một công nghệ đột phá mang tên "EveryText". Công nghệ này dựa trên "TBF('Text by Font') Image Model", cho phép phản ánh và thể hiện mọi ngôn ngữ (ký tự) trên thế giới trong ảnh do AI tạo ra mà không cần huấn luyện trước.
2. Bối cảnh và sự cần thiết
Gần đây, với sự phát triển của công nghệ tạo ảnh bằng AI, các nền tảng như Midjourney V6 và FLUX đã hỗ trợ tính năng hiển thị văn bản do người dùng nhập (ví dụ: "HELLO WORLD") trong ảnh với độ nhìn thấy và khả năng đọc rõ ràng. Tuy nhiên, những công nghệ này chủ yếu chỉ giới hạn ở tiếng Anh.
Để vượt qua giới hạn này, Alibaba Group của Trung Quốc đã triển khai một hệ thống hỗ trợ cả tiếng Trung, tiếng Nhật và tiếng Hàn. Đây là một tín hiệu rõ ràng cho thấy công nghệ sẽ tiếp tục tiến hóa theo hướng xử lý mọi ngôn ngữ trên thế giới.
3. Các vấn đề hiện tại
Các phương pháp hiện có từng có nhiều giới hạn và vấn đề:
-
Cần chỉnh sửa riêng: Để chèn văn bản mong muốn vào ảnh, cần thêm các bước chỉnh sửa bổ sung, điều này kém hiệu quả về cả thời gian lẫn chi phí.
-
Phụ thuộc vào huấn luyện: Khi tạo ảnh bằng AI, để thể hiện rõ ràng một văn bản cụ thể, việc huấn luyện ảnh hoặc gán nhãn bằng LORA v.v. là bắt buộc.
-
Tốn nhiều tài nguyên: Cách tiếp cận của Midjourney V6, FLUX và Alibaba Group đòi hỏi nhiều tài nguyên GPU và thời gian.
-
Từ vựng hạn chế: Văn bản không có sẵn từ trước thì không thể được học, nên rất khó biểu đạt.
-
Giới hạn ngôn ngữ: Để xử lý các ngôn ngữ trên toàn thế giới ngoài tiếng Anh, cần một lượng tài nguyên khổng lồ.
4. Cách tiếp cận giải quyết vấn đề mang tính đổi mới
Cốt lõi của EveryText là một cách tiếp cận mới đối với "huấn luyện". Nếu các phương pháp cũ cần huấn luyện trực tiếp, thì EveryText giải quyết vấn đề này bằng cách tận dụng "Font".
-
Font as Pre-trained Model: Mọi văn bản thực chất đã ở trạng thái được 'huấn luyện' với nhãn hóa sẵn thông qua "Font". EveryText sử dụng "Font" này như một dạng 'mô hình đã được huấn luyện'.
-
Tính đa dạng và thẩm mỹ: Bằng cách áp dụng nhiều "Font" thuộc nhiều hệ ngôn ngữ khác nhau, hệ thống đồng thời đạt được sự phong phú của kiểu chữ và vẻ đẹp trực quan.
-
Biểu đạt không giới hạn: Bằng cách sử dụng "Font" như một "mô hình đã hoàn tất huấn luyện", giờ đây có thể biểu đạt bất kỳ ký tự nào có thể nhập/xuất, kể cả những từ chưa từng có sẵn từ trước.
5. Cách sử dụng dịch vụ
EveryText được mở miễn phí cho tất cả mọi người. Cách sử dụng như sau:
- Prompt: Nhập mô tả cơ bản để tạo ảnh.
- Text for Image Generation: Nhập văn bản sẽ được hiển thị trong ảnh.
- Text Position: Chọn vị trí của văn bản trong ảnh.
- Text Size: Điều chỉnh kích thước văn bản.
- Select Font(Option): Chọn phông chữ mong muốn.
- Advanced Settings(Option): Có thể tinh chỉnh chi tiết hơn quá trình tạo ảnh thông qua các thiết lập nâng cao.
- Nhấn nút "START" để tạo ảnh.
6. So sánh với công nghệ cạnh tranh (đến hiện tại vẫn là ý kiến đánh giá chủ quan của một số ít người đánh giá)
-Midjourney V6/ Flux: Chỉ hỗ trợ tiếng Anh / Chất lượng ảnh A+ / Khả năng thể hiện và độ dễ đọc của văn bản A
-AnyText("Alibaba Group"): Hỗ trợ tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn / Chất lượng ảnh B / Nhận diện văn bản và độ dễ đọc C
-EveryText: Hỗ trợ mọi ngôn ngữ (ký tự) trên thế giới / Chất lượng ảnh A / Nhận diện văn bản và độ dễ đọc B+ -Midjourney V6/ Flux: Chỉ hỗ trợ tiếng Anh / Chất lượng ảnh A+ / Khả năng thể hiện và độ dễ đọc của văn bản A
EveryText vừa hỗ trợ mọi ngôn ngữ trên thế giới, vừa cung cấp chất lượng ảnh cao cùng khả năng thể hiện văn bản và độ dễ đọc tốt.
7. Kết luận
EveryText đã mở ra một chân trời mới cho công nghệ ảnh tạo sinh bằng AI. Cách tiếp cận đổi mới này, cho phép tích hợp tự nhiên mọi ngôn ngữ trên thế giới vào hình ảnh mà không cần huấn luyện trước, đã mở rộng mạnh mẽ khả năng giao tiếp toàn cầu và biểu đạt sáng tạo. Trong tương lai, rất đáng chờ đợi xem EveryText sẽ được ứng dụng và phát triển như thế nào trong nhiều lĩnh vực khác nhau.
Liên kết liên quan
Huggingface Service: https://fantos-EveryText.hf.space
Discord Community: https://discord.gg/openfreeai
Liên hệ: arxivgpt@gmail.com
Chưa có bình luận nào.