40 điểm bởi tominam2 2024-04-13 | 14 bình luận | Chia sẻ qua WhatsApp

Bạn có thể dịch AI Hàn-Anh/Anh-Hàn không giới hạn trên chính máy tính của mình.

  1. Chất lượng vượt trội so với dịch máy thông thường.
  2. Có thể dịch tệp txtepub.
  3. Kết quả được xuất thành hai tệp: tệp chứa câu dịch (nguyên văn) và tệp chứa bản dịch. Nếu bản dịch có gì bất thường, bạn có thể so sánh ngay với nguyên văn.
  4. Cách dùng rất đơn giản. Chỉ cần kéo các tệp cần dịch rồi nhấn nút chạy dịch. Công cụ sẽ tự động dịch qua lại Hàn↔Anh.
  5. Có thể thay thế bằng mô hình AI khác. Hiện tại đang dùng NHNDQ vì có hiệu quả chi phí tốt.

14 bình luận

 
upkit2 2024-04-16

Xin chào, trong lúc cài đặt tôi đã đóng cmd, sau đó dù có xóa thư mục và cài lại từ đầu thì quá trình cài đặt vẫn không chạy nữa,,, có cách nào khắc phục không ạ?T_T

 
tominam2 2024-04-17

Đúng vậy. Chúng ta phải giải quyết chứ.
Nhưng trước hết cần biết cụ thể là đang không hoạt động như thế nào.

https://github.com/vEduardovich/dodari/issues
Sau khi nhấn nút New issue trên GitHub của Dodari ở trên để tạo issue mới,

bạn có thể mô tả chi tiết hơn một chút về việc nó không hoạt động như thế nào, kèm ảnh chụp màn hình hoặc tình huống gặp phải được không?
Tôi nhất định sẽ giải quyết.

 
illuza 2024-04-15

Wow, thật tuyệt vời.
Tôi đang dùng DeepL, nhưng sẽ so sánh và kiểm tra kỹ từng chút một.
Đặc biệt, tôi muốn sớm đem các văn bản văn học tiếng Anh ra để so sánh thử.

 
tominam2 2024-04-15

Đúng như bạn nói, đó hiện là điểm khiến tôi thấy tiếc nhất.
Mô hình hiện đang được dùng trong Dodari là mô hình NHNDQ, một mô hình dịch đa ngôn ngữ 200 thứ tiếng facebook-nllb đã được fine-tuning chuyên biệt cho tiếng Hàn. Tuy nhiên, dù tốt hơn Google Dịch, nó vẫn kém DeepL khá nhiều.

Trong quá trình thử nhiều mô hình để giải quyết vấn đề này, tôi đã chạy thử mô hình yanolja-eeve, vốn được xem là hạng 0 tier cho tiếng Hàn, và chất lượng tốt đến mức khiến tôi thực sự bất ngờ. Theo cảm nhận cá nhân của tôi, nó đạt khoảng 80~90% so với DeepL.

Tuy nhiên, để dùng được mô hình này thì máy tính của người dùng cần có VRAM từ 23 GB trở lên. Ngoài ra, vì tốc độ dịch chậm hơn hàng chục lần nên cần áp dụng công nghệ vllm để tăng tốc. Làm vậy thì tốc độ sẽ cải thiện đáng kể, nhưng bắt buộc phải có hệ điều hành Linux. Nói cách khác, chỉ những “developer vận hành 4090 và Linux OS” mới có thể thử chạy mô hình Yanolja.

Đó là điều tôi đang trăn trở lúc này. Thật đáng tiếc.

 
kunggom 2024-04-15

Cần thêm lời giải thích nào nữa sao?

 
tominam2 2024-04-15

Mô hình gốc của NHNDQ là facebook-nllb, một mô hình dịch đa ngôn ngữ cho 200 ngôn ngữ.
Vì vậy nên đôi khi nó dịch ra những câu chữ như ngôn ngữ ngoài hành tinh.

 
kunggom 2024-04-15

Vì dường như tên sản phẩm được đặt theo nickname 도더리 của nhân vật chính trong sự kiện Freegate, do chất lượng dịch tiếng Hàn vẫn còn hơi kém ở một số chỗ, nên tôi không thể không nhắc đến sai lầm dùng máy dịch để đời “必要韓紙” xuất hiện trong vụ việc đó.

 
roxie 2025-06-14

Cần thiết ư? Hóa ra lại có một lịch sử buồn như vậy..

 
tominam2 2024-04-15

Có vẻ như đã có chuyện gì đó khá phức tạp xảy ra. Đọc rồi mà tôi vẫn không hiểu lắm, hu hu.

Cái tên Dodari được tạo ra thông qua cuộc trò chuyện với mô hình mixtral-7bx8.
Ban đầu AI đã gợi ý cái tên "Eoneodari", nhưng tôi cần một hình ảnh rõ ràng, dễ hình dung hơn, nên đã hỏi đùa xem "Dodari" thì thế nào. Bản thân tôi cũng nghĩ nó khá là lạc quẻ mà.

Thế nhưng AI lại trả lời rằng Dodari rất hay vì nó có nghĩa là "cây cầu giúp đỡ". Đó là một cách diễn giải hoàn toàn ngoài dự tính nên tôi thấy rất mới mẻ. Và cái tên Dodari đã ra đời như vậy.

 
kunggom 2024-04-15

Đây là một vụ việc cũng đã khá lâu rồi, nhưng vào thời điểm đó thì trong các cộng đồng Internet Hàn Quốc nó là một vụ khá nổi tiếng.
Tóm tắt đại khái như sau.

  1. Quản trị viên Dodori của một quán cà phê Naver đã đăng thông báo tổ chức mua chung một đĩa CD nhạc Nhật bản giới hạn với giá 70.000 won
  2. Sau đó danh sách người tham gia đợt mua chung đầu tiên được đăng lên, nhưng tên và địa chỉ có gì đó kỳ lạ nên mọi người bắt đầu nghi ngờ
  3. Một thành viên của quán cà phê phát hiện ra chiếc CD đó không hề là bản giới hạn, mà giá cũng chỉ ở mức hơn 30.000 won, rồi chất vấn thì Dodori đuổi người đó khỏi quán cà phê, khiến sự việc trở nên lớn hơn
  4. Trong nội dung email mà Dodori công khai, nói là thư qua lại với một công ty Nhật, đã lộ ra những lỗi dùng máy dịch ngớ ngẩn như “必要韓紙”, từ đó vụ việc cũng trở nên nổi tiếng với cả người ngoài
  5. Về sau khi sự việc được làm rõ, hóa ra Dodori là kiểu người bị chứng nói dối khoác lác rất nặng; phần lớn những hành trạng mà anh ta đăng lên Internet đều đầy rẫy sự phô trương vô lý và dối trá

Nhân tiện, các mô hình ngôn ngữ lớn đôi khi cũng đưa ra những cách diễn giải ngoài dự liệu, và đôi lúc tôi cũng đã gặp những trường hợp mà chúng nghe khá thuyết phục.
Có lẽ giờ đây, hiện tượng được chỉ ra những khía cạnh mà một mình bản thân chưa nghĩ tới trong lúc trò chuyện với người khác, chúng ta cũng đang bắt đầu trải nghiệm điều đó trong các cuộc trò chuyện với máy móc.

 
tominam2 2024-04-15

Ôi trời. Nhưng có vẻ là vẫn chưa bị bắt nhỉ.
Cá nhân tôi thấy chatGPT kiểu quá nghiêm túc nên không thú vị lắm, còn Mixtral thì có lẽ vì không bị kiểm duyệt nên cuộc trò chuyện rất thú vị.

 
kunggom 2024-04-15

Theo nội dung trên wiki thì nghe nói từng bị khởi kiện, rồi không biết có phải đã van nài tha thiết nên được xử nhẹ và cho qua luôn. Vào thời điểm bị kiện, thân phận của người đó là nhân viên phục vụ công ích.

Còn tôi thì do cấu hình PC cá nhân nên đến giờ vẫn chưa trực tiếp dùng local LLM bao giờ. Hiện tôi chỉ dùng cỡ GPT-4, nhưng đang nghĩ có lẽ sẽ đăng ký thêm Claude-3.

 
savvykang 2024-04-14

Từ việc chạy mô hình Hugging Face, thiết lập venv cho đến triển khai dịch vụ web, đây là một ví dụ hoàn chỉnh nên rất hữu ích. Cảm ơn bạn đã chia sẻ.

 
tominam2 2024-04-14

Tôi rất vui vì nó có thể giúp ích. Chính tôi mới là người cảm ơn nhiều hơn.