4 điểm bởi GN⁺ 2023-10-05 | 2 bình luận | Chia sẻ qua WhatsApp
  • Xây dựng một mô hình máy học tạo sinh (ML) mang tên FontoGen để tạo phông chữ
  • Mô hình nhận mô tả phông chữ làm đầu vào và xuất ra tệp phông chữ
  • Tác giả được truyền cảm hứng từ sự trỗi dậy của AI vào năm 2023 nên bắt đầu khám phá việc tạo SVG từ văn bản, từ đó nảy ra ý tưởng tạo phông chữ
  • Mô hình được xây dựng dựa trên bài báo IconShop2, và tác giả phát hiện rằng việc tạo phông chữ có thể thực hiện tương tự như tạo SVG
  • Mô hình là một sequence-to-sequence được huấn luyện trên chuỗi gồm embedding văn bản theo sau bởi embedding phông chữ
  • Embedding văn bản được tạo bằng mô hình encoder BERT được huấn luyện trước, còn embedding phông chữ được tạo bằng cách chuyển phông chữ thành chuỗi token
  • Mô hình là một transformer tự hồi quy chỉ gồm encoder với 16 layer và 8 block, có tổng cộng 73,7 triệu tham số
  • Tác giả sử dụng attention BigBird3 để tập trung vào prompt ban đầu và quan sát N token trước đó nhằm nắm bắt phong cách của nhiều glyph trước đó
  • Mô hình được huấn luyện trên bộ dữ liệu 71k phông chữ độc nhất, trong đó GPT-3.5 được dùng để tóm tắt nhiều loại mô tả thành một vài từ khóa
  • Quá trình huấn luyện kéo dài 127 giờ và dừng lại khi validation loss hầu như không còn cải thiện
  • Tác giả đã cải thiện hiệu năng gấp ba lần bằng cách chuyển nhiều bước xử lý sang giai đoạn tiền xử lý bộ dữ liệu nhất có thể
  • Tác giả cũng đề xuất các ứng dụng tiềm năng trong tương lai, chẳng hạn tích hợp mô hình vào trình chỉnh sửa phông chữ hiện có để tạo toàn bộ các glyph khác dựa trên một glyph đơn lẻ do nhà thiết kế tạo ra

2 bình luận

 
dbgus2028 2023-10-06

Hãy tạo cho tôi một phông chữ dễ thương.

 
GN⁺ 2023-10-05
Ý kiến trên Hacker News
  • Trình phân tích mã của gpt-4 có thể chuyển đổi PNG đen trắng của glyph sang SVG, và điều này có thể được dùng để tạo phông chữ khi kết hợp với mô hình sinh ảnh.
  • Douglas Hofstadter, tác giả của Godel Escher Bach, từng tin rằng không thể tạo phông chữ nếu không có AI tổng quát.
  • Dự án Letter Spirit nhằm mô hình hóa sự sáng tạo nghệ thuật bằng cách thiết kế các kiểu chữ có phong cách thống nhất gọi là "gridfonts", bị giới hạn trên lưới.
  • Có lo ngại về độ chính xác của các phông chữ do mô hình ML tạo ra, với các vấn đề như đường nét không hoàn toàn song song và các góc không chính xác 90 độ.
  • Cách tiếp cận biểu diễn pixel thành các bin 150x150 riêng biệt được cho là không lý tưởng; thay vào đó, có đề xuất dùng convnet và theo dõi đầu ra.
  • Với cách tiếp cận này, việc tạo ra các phông chữ mới, đặc biệt là những phông chữ được cách điệu mạnh, có thể trở nên khả thi hơn.
  • Mô hình là ckpt chứ không phải safetensor, điều này có thể ảnh hưởng đến việc một số người dùng có muốn thử hay không.
  • Dù mô hình khuếch tán gặp khó khăn khi vẽ văn bản, phương pháp này vẫn hoạt động tốt cho ứng dụng này.