- "Mi:dm" là mô hình mã nguồn mở có thể dùng cho mục đích thương mại phản ánh các đặc trưng ngôn ngữ/văn hóa của xã hội Hàn Quốc
- Sử dụng chiến lược tối ưu hóa nhiều lớp như tuyển chọn dữ liệu tiếng Hàn chất lượng cao và tạo dữ liệu tổng hợp, curriculum learning, tokenizer chuyên biệt riêng cho tiếng Hàn
- Có 3 mô hình: mini cho on-device (2.3B), base cân bằng giữa hiệu năng và hiệu quả (11B), và pro cấp frontier (41B, dự kiến công bố)
- Mi:dm 2.0 Mini (2.3B): mô hình nhẹ, được tối ưu cho môi trường nhúng và mục đích chuyên biệt
- Mi:dm 2.0 Base (11.5B): mô hình quy mô lớn đa dụng, tăng cường hiệu năng bằng cách đào sâu mô hình 8B hiện có với kỹ thuật Depth-up Scaling
- Cả Base và Mini đều hỗ trợ đầu vào 32K token
- Thể hiện hiệu năng hàng đầu trên các benchmark tiếng Hàn như KMMLU, HAERAE và được phát hành theo giấy phép MIT cho phép sử dụng tự do trong cả nghiên cứu lẫn thương mại
Cấu trúc dữ liệu và chiến lược
- Tập trung bảo đảm tài liệu tiếng Hàn chất lượng cao, tuyển chọn tài liệu theo các tiêu chí tính ngữ cảnh, khả năng đọc, không độc hại
- Sử dụng dữ liệu tổng hợp (dịch thuật, tạo giáo trình dựa trên từ khóa, Chain-of-Thought, v.v.) để đảm bảo sự đa dạng miền dữ liệu
- Khắc phục mất cân bằng dữ liệu huấn luyện bằng curriculum learning và cân bằng miền dữ liệu
- Tăng cường hiệu quả nén và phản ánh cấu trúc ngôn ngữ bằng tokenizer tối ưu cho tiếng Hàn
-
Hệ thống phân loại dữ liệu
- Áp dụng hệ thống phân loại đa chiều như ngôn ngữ, miền, nguồn dữ liệu, biểu đạt/phong cách
- 6 miền chính (nhân văn, STEM, khoa học ứng dụng, sức khỏe/thực phẩm, đời sống/văn hóa, khác) và 20 miền phụ
- Hơn 85.7% được cấu thành từ dữ liệu tự nhiên (organic), 14% là dữ liệu tổng hợp
-
Pipeline kiểm soát chất lượng
- Lọc tài liệu web quy mô lớn theo 8 bước: loại bỏ trùng lặp, heuristic, perplexity, hỏng/sửa ký tự, bộ lọc chất lượng dựa trên mô hình, bộ lọc độc hại, trùng lặp theo dòng, khử định danh PII, v.v.
- Áp dụng quy tắc và tinh lọc riêng cho từng nguồn (ví dụ: tin tức, văn bản pháp lý, bài báo học thuật, v.v.)
-
Tạo dữ liệu tổng hợp
- Với các lĩnh vực có độ bao phủ thấp như STEM, kinh tế, dùng dữ liệu mã nguồn mở độ tin cậy cao làm seed để tổng hợp giáo trình/giải thích/bài tập bằng tiếng Hàn, qua đó tăng cường dữ liệu
- Tài liệu web không đạt yêu cầu cũng được tận dụng bằng cách chỉ trích xuất chủ đề cốt lõi rồi viết lại
- Sự đa dạng cấu trúc của tài liệu web tiếng Anh được chuyển đổi và mở rộng sang tiếng Hàn để thu thập dữ liệu QA và viết dài
- Tăng cường học suy luận theo từng bước cho toán học, code, v.v. bằng dữ liệu Chain-of-Thought
Kiến trúc mô hình và huấn luyện
- Cấu trúc Transformer decoder-only
- Base: mô hình 8B → Depth-up Scaling (32→48 lớp) → mở rộng lên 11.5B, huấn luyện liên tục 2 giai đoạn với dữ liệu chất lượng cao
- Mini: thu gọn kiến thức của Base bằng width pruning và distillation nhiều giai đoạn, cho phép suy luận hiệu quả
- Hỗ trợ đầu vào tối đa 32,768 token nhờ huấn luyện long-context
- Áp dụng các công nghệ mới nhất như GQA, SiLU, RoPE
Bài viết giới thiệu và trải nghiệm sử dụng
16 bình luận
Tôi ủng hộ nỗ lực này, nhưng...
Mong là họ đừng làm kiểu lập một organization mới rồi vứt bỏ luôn bản 1.0.
Chỉ nhìn cái tên thôi cũng đã thấy độ tin cậy thấp rồi.
Tại sao lại chèn dấu hai chấm vào giữa tên nhỉ? Có lý do nào về mặt ý nghĩa không? Hay chẳng lẽ họ nghĩ như vậy là ngầu?
Với lại nếu là
mit:eumthì chẳng phải khi viết bằng bảng chữ cái Latin phải làmid:msao?Có thể sẽ có nhiều ý kiến khác nhau, nhưng về cơ bản tôi cho rằng mọi dự án liên quan đến AI được thử nghiệm trong nước đều có ý nghĩa. Thay vì đánh giá trình độ bằng cách so sánh với người khác, tôi nghĩ đây là lúc nên khen ngợi chính bản thân việc dám thử.
Đúng là chúng ta phản ứng chậm, và cả tiền lẫn GPU đều ở thế yếu so với Mỹ/Trung Quốc, nhưng nếu vừa động viên vừa cùng sử dụng để cải thiện thì chẳng phải rồi sẽ tốt lên sao?
Tôi đồng ý một phần.
Tôi nghĩ việc làm ra một lớp bọc dùng API bên ngoài rồi gọi đó là dịch vụ AI thì không tạo ra năng suất gì và chỉ là kinh doanh phí trung gian,
nhưng việc các doanh nghiệp ít nhất cũng fine-tune mô hình rồi phát hành thì rốt cuộc vẫn là họ bỏ nguồn lực của mình ra để công khai, nên tôi cho rằng không có lý do gì để nhìn nhận tiêu cực.
Tuy nhiên, nếu họ bắt đầu nhận tiền từ bên ngoài, chẳng hạn như từ nhà nước, thì có lẽ sẽ không thể chỉ nhìn theo hướng tích cực được...
> Tôi cho rằng việc làm ra các wrapper dùng API bên ngoài rồi gọi đó là dịch vụ AI thì chẳng có chút năng suất nào và chỉ là làm ăn bằng phí trung gian,
Nói thêm vào ý này, dù có dùng API thì nếu tận dụng tốt ở mức như Manus vẫn có thể xem là thành quả, nhưng có lẽ hiện vẫn chưa có wrapper nào ở Hàn Quốc đạt đến mức đó.
Vì nếu chỉ theo đuổi bài toán nâng cao hiệu năng nền tảng thì không thể bước ra cạnh tranh một cách đủ sức.
Tại sao các doanh nghiệp Hàn Quốc hay chính phủ lại tập trung vào các mô hình ngôn ngữ được tối ưu riêng cho tiếng Hàn vậy? Nếu nghĩ đến xu hướng LLM gần đây là huấn luyện trên dữ liệu khổng lồ ở quy mô Internet để nâng cao hiệu năng, thì có vẻ mô hình đa dụng dùng chung cho nhiều ngôn ngữ mới tự nhiên hơn. Nên tôi không hiểu mô hình ngôn ngữ chuyên biệt cho tiếng Hàn thực sự có ưu điểm gì.
Nếu thực sự cho rằng AI là nền tảng của thế hệ tiếp theo, thì việc các công nghệ hạ tầng cốt lõi của quốc gia phụ thuộc vào công nghệ của nước khác là điều không mong muốn...?
Tôi nghĩ rằng công nghệ của nước khác != dữ liệu của nước khác
Việc chất lượng của những ngôn ngữ có ít người dùng kém hơn tự nó là sự thật, nhưng cũng không có vẻ họ sẽ chỉ làm cho tiếng Hàn tốt thôi. Cũng chẳng có lý do gì đặc biệt để làm vậy. Và vấn đề là... chúng ta lại chính là người dùng của cái ngôn ngữ ít người dùng đó....
Nói thẳng ra là vì không có năng lực cạnh tranh.
Việc phát triển các mô hình nguồn mở frontier thường được thực hiện bởi các nhóm gồm những Research Engineer nhận mức lương hằng năm lên tới hàng tỷ won tại các tập đoàn Big Tech, với sự hỗ trợ từ nguồn tài nguyên GPU cực lớn. (Trước đây, tôi nhớ rằng số GPU được投入 vào một dự án duy nhất tại Meta là 10.000 chiếc A100, nhiều hơn cả tổng số A100 có ở Hàn Quốc vào thời điểm đó.)
Nhân lực và tài nguyên GPU được投入 cho phát triển LLM ở Hàn Quốc, trên thực tế, ở mức khó có thể cạnh tranh trên thế giới.
Không hẳn là chúng ta làm quá kém, mà đúng hơn là Mỹ và Trung Quốc áp đảo đến mức rất khó đuổi kịp.
Tôi cũng không rõ lắm, nhưng khi nhìn vào các quá trình
thinkthì có vẻ có trường hợp dù truy vấn bằng tiếng Hàn vẫn xử lý bằng tiếng Anh; nếu có thể thực hiện quá trình đó bằng tiếng Hàn thì chẳng phải sẽ đưa ra câu trả lời phù hợp hơn với tâm lý trong nước sao?Có lẽ họ đang đầu tư với việc tính đến những AI mới sẽ được phát triển hoặc tiến bộ trong tương lai, hay việc nâng mặt bằng chung của các AI hiện có lên, phải không? Giống như DeepSeek vậy. Nếu có thể đưa bản sắc cảm xúc của Hàn Quốc vào những AI như thế này thì có vẻ sẽ có sức cạnh tranh. Dù đây là câu chuyện của tương lai.
Có vẻ như họ đang cố moi tiền ngân sách của chính phủ.
Có phải là do tiếng Hàn bị lỗi hiển thị không nhỉ? Gemini cũng vậy, dùng một lúc thì quá thường xuyên gặp trường hợp đến một thời điểm nào đó lại nhảy sang ngôn ngữ khác..
Tên của mô hình AI này nghe khá ominous, kiểu như cái tên sẽ xuất hiện trong một tác phẩm hậu tận thế hay dystopia vậy lol