4 điểm bởi GN⁺ 2025-01-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bối cảnh văn hóa

    • StarCraft: Brood War (sau đây gọi là BW) là một trò chơi rất quan trọng tại Hàn Quốc, và phần lớn tuyển thủ chuyên nghiệp, đội tuyển và giải đấu đều đặt nền tảng ở Hàn Quốc.
    • BW, tương tự như cờ vua, là một trò chơi chiến thuật mà không chỉ việc chơi mà cả việc nghiên cứu cũng rất quan trọng.
    • Giống như khai cuộc trong cờ vua, BW cũng có các chiến thuật và build cụ thể; đây là một ngôn ngữ chuyên biệt theo lĩnh vực được phát triển בתוך cộng đồng.
  • Vấn đề về kiến thức của cộng đồng nước ngoài

    • Phần lớn cộng đồng nước ngoài không thông thạo tiếng Hàn.
    • Người nước ngoài có thể sử dụng tiếng Hàn trôi chảy là rất hiếm, vì vậy khả năng tiếp cận thông tin của cộng đồng nước ngoài bị hạn chế hơn so với cộng đồng Hàn Quốc.
    • Dịch máy có giới hạn trong việc dịch ngôn ngữ chuyên biệt theo lĩnh vực, và đây là một trong những yếu tố khiến cộng đồng nước ngoài bị tụt lại so với cộng đồng Hàn Quốc.
  • Quy trình dịch mới

    • Nhờ một quy trình dịch máy mới, giờ đây có thể cung cấp bản dịch chính xác hơn.
    • Có thể dịch khoảng 7 video mỗi ngày, nhanh hơn rất nhiều so với trước đây.
  • Tech stack

    • Được chia thành hai phần: tạo phụ đề và tiêu thụ phụ đề.
    • Sử dụng yt-dlpOpenAI Whisper để tải audio track của video, từ đó tạo phụ đề.
    • Sử dụng Google Colab để chạy Whisper, nhận URL video đầu vào và tạo file SRT tiếng Hàn.
    • Sử dụng LLMtừ điển slang để nâng cao độ chính xác của bản dịch.
  • Tiêu thụ phụ đề

    • Sử dụng TamperMonkey để thêm nút vào video YouTube, cho phép tải xuống phụ đề đã dịch.
    • Sử dụng PastebinGoogle Sheets + Apps Script để chia sẻ và quản lý phụ đề.
  • Điểm có thể cải thiện

    • Có thể bổ sung khả năng hỗ trợ nhiều ngôn ngữ.
    • Về mặt kỹ thuật, có thể bổ sung tính năng chỉ hiển thị nút cho một số video nhất định.
  • Suy nghĩ cuối cùng

    • Hiệu năng, khả năng mở rộng, độ trễ... không quan trọng; dự án được hoàn thành bằng cách kết hợp các giải pháp đã tồn tại.
    • User script và mã Python trong notebook Colab đều ngắn và dễ bảo trì.
    • Dự án này là một hệ thống CRUD đơn giản nhất có thể, và không có lý do gì để độ phức tạp tăng lên đáng kể.

1 bình luận

 
GN⁺ 2025-01-19
Ý kiến Hacker News
  • Là một người chơi BW Hàn Quốc kiêm nhà nghiên cứu nhận dạng giọng nói, tôi thấy bài này rất thú vị. Ban đầu bản chép lời tiếng Hàn có nhiều lỗi, nhưng LLMs đã sửa chúng một cách ấn tượng. Ví dụ, "12 sân trước nhà build" thực ra là "12 mở rộng tự nhiên build". Bản build tuecheori đáng ra phải được chép thành tuhaecheori.

    • Có thể sẽ hữu ích nếu đưa trực tiếp một từ điển tiếng lóng vào quá trình suy luận của Whisper. Cách đơn giản nhất là tăng xác suất của các từ lóng trong từ điển lên theo một tỷ lệ nhất định ở lớp dự đoán cuối cùng. Có thể triển khai việc này dễ dàng bằng thư viện của HuggingFace.
  • Đừng để tiêu đề đánh lừa. Đây là một cách tiếp cận cực kỳ kỹ lưỡng và sáng tạo để dịch phần bình luận StarCraft và cải thiện khả năng tiếp cận.

    • Bình luận game đã trở thành một dạng ngôn ngữ chuyên biệt theo miền trong suốt 27 năm.
    • Cách dùng script tự động và AI để nắm bắt đại ý rồi làm cho nó nhất quán thật sự rất hay.
  • Với tư cách là người dùng không nói tiếng Anh bản ngữ, khi đọc bài này tôi nhớ đến độ khó của việc dịch các bài báo máy tính và phát triển phần mềm.

    • Có rất nhiều thuật ngữ khó dịch. Giải pháp duy nhất là du nhập và thích nghi thuật ngữ cho phù hợp với ngôn ngữ.
    • Khi nói về phát triển phần mềm bằng tiếng Tây Ban Nha, có rất nhiều thuật ngữ được mượn từ tiếng Anh.
    • Tôi tò mò không biết dịch máy sẽ xử lý việc này thế nào, và có lẽ về mặt xã hội vẫn cần một quá trình pha trộn hai ngôn ngữ.
  • Tôi có thể hiểu khá rõ phiên bản Google Translate. Có lẽ vì tôi quen với BW và bài opener zerg 12hatch.

    • ChatGPT và Claude đã làm rất tốt trong việc dịch văn bản tiếng Hàn.
    • Ví dụ bản dịch của Claude: giải thích về build 12 hatchery và mô tả build order khi đối đầu Protoss và Terran.
  • Thật buồn cười khi trong một bài viết về dịch thuật lại hiểu hoàn toàn ngược khái niệm tỷ lệ tín hiệu trên nhiễu. Tỷ lệ tín hiệu trên nhiễu cao là điều tốt.

  • Có thể dùng yt-dlp để tải video chất lượng thấp nhằm tiết kiệm băng thông.

    • Lệnh ví dụ: yt-dlp -f "bv[height<=720]" <url>
  • Là người từng chơi money map hồi nhỏ, tôi từng tự hỏi các con số trước công trình có ý nghĩa gì.

    • Có vẻ như các con số như 12 hatchery biểu thị vị trí của nó trong build order.
  • Google Translate đã tốt hơn, nhưng trước đây nó không thể dịch hiệu quả các văn bản tiếng Trung hoặc tiếng Nhật về cờ vây.

    • Giờ đây có thể dùng các LLM hiện đại và yêu cầu dịch kèm theo thuật ngữ cờ vây.
  • Tôi thích bài này. Khi thử sức ở vòng khu vực Mỹ của World Cyber Games, tôi đã rất ngạc nhiên về tốc độ của những người khác.

    • Sau đó xem livestream ở Hàn Quốc, tôi càng ấn tượng với tốc độ của họ.
    • Tôi nhận ra mình đã bỏ lỡ những điều cơ bản từ góc độ chiến thuật.
  • Việc dịch "natural expansion" thành "courtyard" tuy là "sai" nhưng tôi lại thấy thích.