Mi:dm 2.0 - LLM mã nguồn mở do KT tự phát triển

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" là mô hình mã nguồn mở có thể dùng cho mục đích thương mại phản ánh các đặc trưng ngôn ngữ/văn hóa của xã hội Hàn Quốc Sử dụng chiến lược tối ưu hóa nhiều lớp như tuyển chọn dữ liệu tiếng Hàn chất lượng cao và tạo dữ liệu tổng hợp, curriculum learning, tokenizer chuyên biệt riêng cho tiếng Hàn Có 3 mô hình: mini cho on-device (2.3B), base cân bằng giữa hiệu năng và hiệu quả (11B), và pro cấp frontier (41B, dự kiến công bố) Mi:dm 2.0 Mini (2.3B): mô hình nhẹ, được tối ưu cho môi trường nhúng và mục đích chuyên biệt Mi:dm 2.0 Base (11.5B): mô hình quy mô lớn đa dụng, tăng cường hiệu năng bằng cách đào sâu mô hình 8B hiện có với kỹ thuật Depth-up Scaling Cả Base và Mini đều hỗ trợ đầu vào 32K token Thể hiện hiệu năng hàng đầu trên các benchmark tiếng Hàn như KMMLU, HAERAE và được phát hành theo giấy phép MIT cho phép sử dụng tự do trong cả nghiên cứu lẫn thương mại Cấu trúc dữ liệu và chiến lược Tập trung bảo đảm tài liệu tiếng Hàn chất lượng cao, tuyển chọn tài liệu theo các tiêu chí tính ngữ cảnh, khả năng đọc, không độc hại Sử dụng dữ liệu tổng hợp (dịch thuật, tạo giáo trình dựa trên từ khóa, Chain-of-Thought, v.v.) để đảm bảo sự đa dạng miền dữ liệu Khắc phục mất cân bằng dữ liệu huấn luyện bằng curriculum learning và cân bằng miền dữ liệu Tăng cường hiệu quả nén và phản ánh cấu trúc ngôn ngữ bằng tokenizer tối ưu cho tiếng Hàn Hệ thống phân loại dữ liệu Áp dụng hệ thống phân loại đa chiều như ngôn ngữ, miền, nguồn dữ liệu, biểu đạt/phong cách 6 miền chính (nhân văn, STEM, khoa học ứng dụng, sức khỏe/thực phẩm, đời sống/văn hóa, khác) và 20 miền phụ Hơn 85.7% được cấu thành từ dữ liệu tự nhiên (organic), 14% là dữ liệu tổng hợp Pipeline kiểm soát chất lượng Lọc tài liệu web quy mô lớn theo 8 bước: loại bỏ trùng lặp, heuristic, perplexity, hỏng/sửa ký tự, bộ lọc chất lượng dựa trên mô hình, bộ lọc độc hại, trùng lặp theo dòng, khử định danh PII, v.v. Áp dụng quy tắc và tinh lọc riêng cho từng nguồn (ví dụ: tin tức, văn bản pháp lý, bài báo học thuật, v.v.) Tạo dữ liệu tổng hợp Với các lĩnh vực có độ bao phủ thấp như STEM, kinh tế, dùng dữ liệu mã nguồn mở độ tin cậy cao làm seed để tổng hợp giáo trình/giải thích/bài tập bằng tiếng Hàn, qua đó tăng cường dữ liệu Tài liệu web không đạt yêu cầu cũng được tận dụng bằng cách chỉ trích xuất chủ đề cốt lõi rồi viết lại Sự đa dạng cấu trúc của tài liệu web tiếng Anh được chuyển đổi và mở rộng sang tiếng Hàn để thu thập dữ liệu QA và viết dài Tăng cường học suy luận theo từng bước cho toán học, code, v.v. bằng dữ liệu Chain-of-Thought Kiến trúc mô hình và huấn luyện Cấu trúc Transformer decoder-only Base: mô hình 8B → Depth-up Scaling (32→48 lớp) → mở rộng lên 11.5B, huấn luyện liên tục 2 giai đoạn với dữ liệu chất lượng cao Mini: thu gọn kiến thức của Base bằng width pruning và distillation nhiều giai đoạn, cho phép suy luận hiệu quả Hỗ trợ đầu vào tối đa 32,768 token nhờ huấn luyện long-context Áp dụng các công nghệ mới nhất như GQA, SiLU, RoPE Bài viết giới thiệu và trải nghiệm sử dụng Đánh giá trải nghiệm sử dụng mô hình AI kiểu Hàn: KT Mi:dm 2.0 Giới thiệu Midm 2.0, AI tiếng Hàn do KT tạo ra Thử sử dụng AI kiểu Hàn Mi:dm 2.0 của KT Trang giới thiệu Mi:dm 2.0 của KT Tài liệu quảng bá khi KT ra mắt Mi:dm 1.0 - Mi:dm, vượt qua lý tính và cảm xúc để thể hiện cá tính

(huggingface.co)

10 điểm bởi xguru 2025-07-10 | 16 bình luận | Chia sẻ qua WhatsApp

"Mi:dm" là mô hình mã nguồn mở có thể dùng cho mục đích thương mại phản ánh các đặc trưng ngôn ngữ/văn hóa của xã hội Hàn Quốc
Sử dụng chiến lược tối ưu hóa nhiều lớp như tuyển chọn dữ liệu tiếng Hàn chất lượng cao và tạo dữ liệu tổng hợp, curriculum learning, tokenizer chuyên biệt riêng cho tiếng Hàn
Có 3 mô hình: mini cho on-device (2.3B), base cân bằng giữa hiệu năng và hiệu quả (11B), và pro cấp frontier (41B, dự kiến công bố)
- Mi:dm 2.0 Mini (2.3B): mô hình nhẹ, được tối ưu cho môi trường nhúng và mục đích chuyên biệt
- Mi:dm 2.0 Base (11.5B): mô hình quy mô lớn đa dụng, tăng cường hiệu năng bằng cách đào sâu mô hình 8B hiện có với kỹ thuật Depth-up Scaling
- Cả Base và Mini đều hỗ trợ đầu vào 32K token
Thể hiện hiệu năng hàng đầu trên các benchmark tiếng Hàn như KMMLU, HAERAE và được phát hành theo giấy phép MIT cho phép sử dụng tự do trong cả nghiên cứu lẫn thương mại

Cấu trúc dữ liệu và chiến lược

Tập trung bảo đảm tài liệu tiếng Hàn chất lượng cao, tuyển chọn tài liệu theo các tiêu chí tính ngữ cảnh, khả năng đọc, không độc hại
Sử dụng dữ liệu tổng hợp (dịch thuật, tạo giáo trình dựa trên từ khóa, Chain-of-Thought, v.v.) để đảm bảo sự đa dạng miền dữ liệu
Khắc phục mất cân bằng dữ liệu huấn luyện bằng curriculum learning và cân bằng miền dữ liệu
Tăng cường hiệu quả nén và phản ánh cấu trúc ngôn ngữ bằng tokenizer tối ưu cho tiếng Hàn

Hệ thống phân loại dữ liệu
- Áp dụng hệ thống phân loại đa chiều như ngôn ngữ, miền, nguồn dữ liệu, biểu đạt/phong cách
- 6 miền chính (nhân văn, STEM, khoa học ứng dụng, sức khỏe/thực phẩm, đời sống/văn hóa, khác) và 20 miền phụ
- Hơn 85.7% được cấu thành từ dữ liệu tự nhiên (organic), 14% là dữ liệu tổng hợp
Pipeline kiểm soát chất lượng
- Lọc tài liệu web quy mô lớn theo 8 bước: loại bỏ trùng lặp, heuristic, perplexity, hỏng/sửa ký tự, bộ lọc chất lượng dựa trên mô hình, bộ lọc độc hại, trùng lặp theo dòng, khử định danh PII, v.v.
- Áp dụng quy tắc và tinh lọc riêng cho từng nguồn (ví dụ: tin tức, văn bản pháp lý, bài báo học thuật, v.v.)
Tạo dữ liệu tổng hợp
- Với các lĩnh vực có độ bao phủ thấp như STEM, kinh tế, dùng dữ liệu mã nguồn mở độ tin cậy cao làm seed để tổng hợp giáo trình/giải thích/bài tập bằng tiếng Hàn, qua đó tăng cường dữ liệu
- Tài liệu web không đạt yêu cầu cũng được tận dụng bằng cách chỉ trích xuất chủ đề cốt lõi rồi viết lại
- Sự đa dạng cấu trúc của tài liệu web tiếng Anh được chuyển đổi và mở rộng sang tiếng Hàn để thu thập dữ liệu QA và viết dài
- Tăng cường học suy luận theo từng bước cho toán học, code, v.v. bằng dữ liệu Chain-of-Thought

Kiến trúc mô hình và huấn luyện

Cấu trúc Transformer decoder-only
Base: mô hình 8B → Depth-up Scaling (32→48 lớp) → mở rộng lên 11.5B, huấn luyện liên tục 2 giai đoạn với dữ liệu chất lượng cao
Mini: thu gọn kiến thức của Base bằng width pruning và distillation nhiều giai đoạn, cho phép suy luận hiệu quả
Hỗ trợ đầu vào tối đa 32,768 token nhờ huấn luyện long-context
Áp dụng các công nghệ mới nhất như GQA, SiLU, RoPE

Bài viết giới thiệu và trải nghiệm sử dụng

Trang giới thiệu Mi:dm 2.0 của KT
Tài liệu quảng bá khi KT ra mắt Mi:dm 1.0 - Mi:dm, vượt qua lý tính và cảm xúc để thể hiện cá tính

16 bình luận

miseenscene 2025-07-11

Tôi ủng hộ nỗ lực này, nhưng...
Mong là họ đừng làm kiểu lập một organization mới rồi vứt bỏ luôn bản 1.0.

bakyeono 2025-07-11

Chỉ nhìn cái tên thôi cũng đã thấy độ tin cậy thấp rồi.
Tại sao lại chèn dấu hai chấm vào giữa tên nhỉ? Có lý do nào về mặt ý nghĩa không? Hay chẳng lẽ họ nghĩ như vậy là ngầu?
Với lại nếu là mit:eum thì chẳng phải khi viết bằng bảng chữ cái Latin phải là mid:m sao?

xguru 2025-07-11

Có thể sẽ có nhiều ý kiến khác nhau, nhưng về cơ bản tôi cho rằng mọi dự án liên quan đến AI được thử nghiệm trong nước đều có ý nghĩa. Thay vì đánh giá trình độ bằng cách so sánh với người khác, tôi nghĩ đây là lúc nên khen ngợi chính bản thân việc dám thử.

Đúng là chúng ta phản ứng chậm, và cả tiền lẫn GPU đều ở thế yếu so với Mỹ/Trung Quốc, nhưng nếu vừa động viên vừa cùng sử dụng để cải thiện thì chẳng phải rồi sẽ tốt lên sao?

crawler 2025-07-11

Tôi đồng ý một phần.
Tôi nghĩ việc làm ra một lớp bọc dùng API bên ngoài rồi gọi đó là dịch vụ AI thì không tạo ra năng suất gì và chỉ là kinh doanh phí trung gian,
nhưng việc các doanh nghiệp ít nhất cũng fine-tune mô hình rồi phát hành thì rốt cuộc vẫn là họ bỏ nguồn lực của mình ra để công khai, nên tôi cho rằng không có lý do gì để nhìn nhận tiêu cực.

Tuy nhiên, nếu họ bắt đầu nhận tiền từ bên ngoài, chẳng hạn như từ nhà nước, thì có lẽ sẽ không thể chỉ nhìn theo hướng tích cực được...

crawler 2025-07-11

> Tôi cho rằng việc làm ra các wrapper dùng API bên ngoài rồi gọi đó là dịch vụ AI thì chẳng có chút năng suất nào và chỉ là làm ăn bằng phí trung gian,

Nói thêm vào ý này, dù có dùng API thì nếu tận dụng tốt ở mức như Manus vẫn có thể xem là thành quả, nhưng có lẽ hiện vẫn chưa có wrapper nào ở Hàn Quốc đạt đến mức đó.

mssmss 2025-07-11

Vì nếu chỉ theo đuổi bài toán nâng cao hiệu năng nền tảng thì không thể bước ra cạnh tranh một cách đủ sức.

strn18 2025-07-10

Tại sao các doanh nghiệp Hàn Quốc hay chính phủ lại tập trung vào các mô hình ngôn ngữ được tối ưu riêng cho tiếng Hàn vậy? Nếu nghĩ đến xu hướng LLM gần đây là huấn luyện trên dữ liệu khổng lồ ở quy mô Internet để nâng cao hiệu năng, thì có vẻ mô hình đa dụng dùng chung cho nhiều ngôn ngữ mới tự nhiên hơn. Nên tôi không hiểu mô hình ngôn ngữ chuyên biệt cho tiếng Hàn thực sự có ưu điểm gì.

ryj0902 2025-07-11

Nếu thực sự cho rằng AI là nền tảng của thế hệ tiếp theo, thì việc các công nghệ hạ tầng cốt lõi của quốc gia phụ thuộc vào công nghệ của nước khác là điều không mong muốn...?

roxie 2025-07-11

Tôi nghĩ rằng công nghệ của nước khác != dữ liệu của nước khác

dbs0829 2025-07-11

Việc chất lượng của những ngôn ngữ có ít người dùng kém hơn tự nó là sự thật, nhưng cũng không có vẻ họ sẽ chỉ làm cho tiếng Hàn tốt thôi. Cũng chẳng có lý do gì đặc biệt để làm vậy. Và vấn đề là... chúng ta lại chính là người dùng của cái ngôn ngữ ít người dùng đó....

greenday 2025-07-11

Nói thẳng ra là vì không có năng lực cạnh tranh.
Việc phát triển các mô hình nguồn mở frontier thường được thực hiện bởi các nhóm gồm những Research Engineer nhận mức lương hằng năm lên tới hàng tỷ won tại các tập đoàn Big Tech, với sự hỗ trợ từ nguồn tài nguyên GPU cực lớn. (Trước đây, tôi nhớ rằng số GPU được投入 vào một dự án duy nhất tại Meta là 10.000 chiếc A100, nhiều hơn cả tổng số A100 có ở Hàn Quốc vào thời điểm đó.)

Nhân lực và tài nguyên GPU được投入 cho phát triển LLM ở Hàn Quốc, trên thực tế, ở mức khó có thể cạnh tranh trên thế giới.
Không hẳn là chúng ta làm quá kém, mà đúng hơn là Mỹ và Trung Quốc áp đảo đến mức rất khó đuổi kịp.

helio 2025-07-11

Tôi cũng không rõ lắm, nhưng khi nhìn vào các quá trình think thì có vẻ có trường hợp dù truy vấn bằng tiếng Hàn vẫn xử lý bằng tiếng Anh; nếu có thể thực hiện quá trình đó bằng tiếng Hàn thì chẳng phải sẽ đưa ra câu trả lời phù hợp hơn với tâm lý trong nước sao?

truestar 2025-07-11

Có lẽ họ đang đầu tư với việc tính đến những AI mới sẽ được phát triển hoặc tiến bộ trong tương lai, hay việc nâng mặt bằng chung của các AI hiện có lên, phải không? Giống như DeepSeek vậy. Nếu có thể đưa bản sắc cảm xúc của Hàn Quốc vào những AI như thế này thì có vẻ sẽ có sức cạnh tranh. Dù đây là câu chuyện của tương lai.

zihado 2025-07-10

Có vẻ như họ đang cố moi tiền ngân sách của chính phủ.

clastneo 2025-07-10

Có phải là do tiếng Hàn bị lỗi hiển thị không nhỉ? Gemini cũng vậy, dùng một lúc thì quá thường xuyên gặp trường hợp đến một thời điểm nào đó lại nhảy sang ngôn ngữ khác..

cckn1985 2025-07-10

Tên của mô hình AI này nghe khá ominous, kiểu như cái tên sẽ xuất hiện trong một tác phẩm hậu tận thế hay dystopia vậy lol

Mi:dm 2.0 - LLM mã nguồn mở do KT tự phát triển

Cấu trúc dữ liệu và chiến lược

Hệ thống phân loại dữ liệu

Pipeline kiểm soát chất lượng

Tạo dữ liệu tổng hợp

Kiến trúc mô hình và huấn luyện

Bài viết giới thiệu và trải nghiệm sử dụng

Bài viết liên quan

16 bình luận