5 điểm bởi jufufu 9 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mình là một otaku bình thường rất thích visual novel.
Nghe nói ngày xưa đã từng có thời người ta dùng ezTrans hay AralTrans để dịch.
Dạo này thì có thể chạy trình dịch OCR bằng MORT,
nhưng khi tự dùng thử, mình thấy cả phần cài đặt lẫn tính năng đều quá nhiều và phức tạp,
trên hết là tỷ lệ nhận diện màn hình quá kém.
Bản dịch cũng hay báo lỗi với DeepL nếu không nhập API key,
trong khi AI cục bộ giờ cũng đã tốt hơn nhiều, nên mình nghĩ
liệu có nên thêm mô hình OCR AI cục bộ và
mô hình dịch AI cục bộ vào không? Thế là mình làm luôn.
Trong lúc làm, mình lại nghĩ nếu thêm cả tính năng nhận diện giọng nói rồi dịch nữa thì có phải sẽ hay hơn không?
Cứ thế quy mô dần lớn lên,
và mình đã tạo ra một ứng dụng có thể nhận diện rồi dịch cả màn hình lẫn giọng nói trong một app duy nhất.
Ngôn ngữ hiện chỉ hỗ trợ tiếng Nhật (vì mục đích ban đầu vốn là để chơi visual novel mà...).
Phần dịch nhận diện màn hình
là kiểu sau khi đăng ký vùng tạm thời thành vùng cố định, chỉ cần bấm nút dịch liên tục là nội dung sẽ được dịch rồi hiển thị dạng overlay.
Còn nhận diện giọng nói thì khi nhận toàn bộ tệp âm thanh, app sẽ tạo transcript rồi hiển thị lên overlay.

Quá trình làm ra nó không hề dễ.
Vốn dĩ mình học ngành không liên quan gì đến lập trình, công việc hiện tại cũng hoàn toàn không liên quan,
và kinh nghiệm với lập trình chỉ là hồi cấp 3 từng chạm qua DevC++ trong giờ tin học, nhớ là mới học đến if/while là hết.
Mình muốn cho mọi người thấy rằng với GPT-5.5 thì có thể làm được đến mức này.
Số token đã dùng vào khoảng 720 triệu token.
Rất mong nhận được nhiều góp ý từ các thành viên GN!

Chưa có bình luận nào.

Chưa có bình luận nào.