- Olmo 3 không chỉ công khai kết quả cuối cùng của mô hình mà còn công khai toàn bộ quá trình phát triển (model flow), mang lại khả năng truy vết hoàn chỉnh tới dữ liệu, mã nguồn và checkpoint
- Gồm bốn dòng mô hình Base, Think, Instruct, RL Zero ở quy mô tham số 7B và 32B, phù hợp cho nhiều mục đích nghiên cứu như suy luận, hội thoại, học tăng cường
- Dựa trên các bộ dữ liệu Dolma 3 và Dolci, công bố dữ liệu huấn luyện minh bạch với quy mô khoảng 9,3 nghìn tỷ token trải rộng trên web, code, toán học, khoa học...
- Thông qua công cụ OlmoTrace, có thể theo dõi theo thời gian thực đầu ra của mô hình bắt nguồn từ dữ liệu huấn luyện nào, qua đó tăng cường tính minh bạch và độ tin cậy
- Được phát hành hoàn toàn theo mã nguồn mở, cho phép bất kỳ ai can thiệp, chỉnh sửa và huấn luyện lại mô hình ở từng giai đoạn cụ thể, từ đó xây dựng hệ sinh thái nghiên cứu AI có thể kiểm chứng
Tổng quan về Olmo 3
- Olmo 3 là họ mô hình ngôn ngữ mã nguồn mở thế hệ tiếp theo do Allen Institute for AI (Ai2) công bố, với trọng tâm là công khai toàn bộ luồng phát triển (model flow) của mô hình
- Luồng mô hình bao gồm mọi giai đoạn như thu thập dữ liệu, tiền xử lý, huấn luyện, tinh chỉnh và học tăng cường
- Nhờ đó, các nhà nghiên cứu và lập trình viên có thể phân tích và chỉnh sửa cơ chế vận hành bên trong của mô hình
- Olmo 3 được cung cấp ở các phiên bản 7B và 32B tham số, có thể chạy trong nhiều môi trường khác nhau từ notebook tới cụm nghiên cứu
Cấu hình mô hình chính
- Olmo 3-Base (7B, 32B)
- Mô hình nền được công khai hoàn toàn, đạt hiệu năng hàng đầu ở nhiều lĩnh vực như code, toán học và đọc hiểu
- Cạnh tranh với các mô hình cùng hạng như Qwen 2.5, Gemma 3 và hỗ trợ context mở rộng 65K token
- Olmo 3-Think (7B, 32B)
- Mô hình chuyên về suy luận được huấn luyện cho các bài toán suy luận nhiều bước, phù hợp cho nghiên cứu RL và thử nghiệm tư duy dài hạn
- Mô hình 32B đạt hiệu năng hàng đầu trong cùng phân khúc trên các bài đánh giá như MATH, OMEGA, BigBenchHard
- Olmo 3-Instruct (7B)
- Mô hình được tối ưu cho hội thoại, thực thi chỉ thị và sử dụng công cụ, ngang bằng hoặc vượt Qwen 2.5, Gemma 3 và Llama 3.1 trong cùng phân khúc
- Olmo 3-RL Zero (7B)
- Cung cấp lộ trình công khai hoàn chỉnh để đánh giá thuật toán học tăng cường, bao gồm checkpoint cho 4 miền tác vụ như toán, code và làm theo chỉ thị
Hiệu năng và benchmark
- Olmo 3-Base 32B vượt qua các mô hình công khai hoàn toàn như Marin 32B, Apertus 70B
- Đạt kết quả nổi bật trên các benchmark chính như GSM8k (toán) 80,5 điểm và HumanEval (code) 66,5 điểm
- Olmo 3-Think 32B cho hiệu năng tương đương hoặc tiệm cận Qwen 3 32B, đồng thời ghi điểm cao nhất trên các bài đánh giá như HumanEvalPlus, IFEval
- Olmo 3-Instruct 7B đạt 87,3 điểm ở hạng mục độ an toàn (Safety), cao nhất trong các mô hình được so sánh
Kiến trúc và quá trình huấn luyện
- Sử dụng kiến trúc transformer chỉ giải mã, gồm 3 giai đoạn tiền huấn luyện (cơ sở → trung gian → ngữ cảnh dài) và 3 giai đoạn hậu huấn luyện (SFT → DPO → RLVR)
- Checkpoint của từng giai đoạn đều được công khai, cho phép nhà nghiên cứu fork mô hình hoặc thử nghiệm tại bất kỳ thời điểm nào mong muốn
- Bảo đảm tính minh bạch dữ liệu trong toàn bộ quá trình huấn luyện thông qua các bộ dữ liệu Dolma 3 (khoảng 9,3 nghìn tỷ token) và Dolci
- Bao gồm các thành phần chi tiết như Dolma 3 Mix (6 nghìn tỷ token), Dolmino (100B token), Longmino (50B token)
- Dolci cung cấp các data mix riêng cho từng giai đoạn SFT, DPO và RLVR
Hạ tầng huấn luyện hiệu quả
- Huấn luyện với tối đa 1.024 GPU H100, đạt tốc độ xử lý 7,7K token/giây đối với mô hình 7B
- Nhờ in-flight weight updates, continuous batching và cải tiến threading, hiệu suất huấn luyện RL được tăng 4 lần
- Mô hình 32B của Olmo 3 được định vị là điểm cân bằng giữa hiệu năng và khả năng tiếp cận, cho phép các nhà nghiên cứu trực tiếp tinh chỉnh
Tính minh bạch và hệ sinh thái công cụ
- Thông qua OlmoTrace, có thể theo dõi trực quan mối liên hệ giữa đầu ra của mô hình và dữ liệu huấn luyện
- Toàn bộ dataset và toolchain đều được công bố dưới dạng mã nguồn mở
- Bao gồm Olmo-core (framework huấn luyện phân tán), Open Instruct (pipeline hậu huấn luyện), datamap-rs (làm sạch dữ liệu), duplodocus (loại bỏ trùng lặp), OLMES (bộ công cụ đánh giá)
- Các nhà nghiên cứu có thể phân tích các bước suy luận trung gian và điểm thất bại của mô hình để xác định nguyên nhân hành vi của mô hình
Ứng dụng và ý nghĩa
- Olmo 3 hỗ trợ xây dựng hệ thống AI đáng tin cậy trong nghiên cứu, giáo dục và phát triển ứng dụng
- Do mọi giai đoạn của mô hình đều được công khai, dự án thúc đẩy tính tái lập, khả năng kiểm chứng và nghiên cứu hợp tác
- Ai2 nêu rõ rằng “AI mã nguồn mở thực sự không chỉ là khả năng tiếp cận mà còn là niềm tin, trách nhiệm và sự phát triển chung”
- Thông qua tính minh bạch hoàn toàn, Olmo 3 đề xuất một mô hình nghiên cứu mở mới nơi bất kỳ ai cũng có thể hiểu và cải thiện nội tại của AI
1 bình luận
Ý kiến trên Hacker News
Nếu không có mức độ minh bạch như vậy, có lẽ công chúng sẽ không có cách nào để hiểu hay kiểm soát các hệ thống dựa trên LLM quy mô lớn
Cuối cùng sẽ có nguy cơ Big Tech, các thế lực độc đoán, hoặc chính AI hành động tùy ý
Tôi nghĩ cần có một cơ chế để bên thứ ba kiểm toán và cung cấp báo cáo minh bạch
Mong rằng những nỗ lực như vậy sẽ tiếp tục được lặp lại
Chỉ đơn giản công khai trọng số mà gọi là mã nguồn mở là một thông lệ sai lầm
Mô hình mã nguồn mở thực sự cần một tên gọi mới như “mô hình minh bạch”
Nhưng theo cách diễn giải của tôi và luật Talmud, hươu cao cổ là được, còn GPT5.1 cũng đồng ý với cách hiểu của tôi
Những thông tin kiểu này nên được lấy bằng cơ chế truy xuất như RAG
Có lẽ một mô hình trả lời “tôi không biết” sẽ hữu ích hơn
Các mô hình nhỏ có xu hướng cố xử lý quá mức những trường hợp biên
Vì vậy nếu tạo cho chúng một lối thoát tên là “edge_case” thì chúng hoạt động tốt hơn nhiều
Tôi ước có một kho lưu trữ tập trung để gom các mẹo hack prompt kiểu này
Họ nói nó hiển thị tài liệu dữ liệu huấn luyện khớp với phản hồi của mô hình
Nhưng trên thực tế có vẻ chỉ ở mức tìm khớp N-gram, nên khó mà coi đó là khả năng truy vết
Có trường hợp kết quả đến từ những tài liệu không liên quan đến câu hỏi
Giải thích về N-gram
Thay vào đó, nó cho thấy mô hình đã bị ảnh hưởng bởi những mảnh dữ liệu huấn luyện nào
Ví dụ, có thể lần ra lý do nhiều mô hình lặp lại cùng một câu đùa hoặc cùng một con số
7B phù hợp với GPU 8GB, 32B hợp với GPU 24GB, và mô hình cỡ 20B thì vừa khít GPU 16GB
Việc tìm kích thước tối ưu vẫn đang tiếp tục được thử nghiệm
Cá nhân tôi mong GPU sẽ có VRAM mở rộng được
Có vẻ đây là lỗi OpenWebUI
Đợt GPT-OSS cũng vậy, và lần này với OLMo có lẽ tình huống tương tự sẽ lặp lại
7B trả lời “Hi! I'm Olmo 3…”, còn 32B trả lời “Hi! I'm Olmo…”
Cuối cùng ngay cả một lời chào đơn giản cũng kết thúc bằng diễn giải triết học
và khá sốc khi ngay từ dòng đầu đã có văn bản từ trang web người lớn
Nếu muốn công khai toàn bộ pipeline thì cũng phải bao gồm cả dữ liệu như vậy
Dù vậy, có lẽ nên điều chỉnh để phần xem trước không hiện ngay những đoạn như thế
Có vẻ phần lớn là để suy luận on-device, nhưng còn trường hợp nào khác không?
Nhiều công ty hiện đang dùng các mô hình fine-tune từ Qwen 3 có thể sẽ chuyển sang Olmo 32B
Kết quả tốt hơn các mô hình nhỏ không phải LLM
Nó nhanh hơn tìm kiếm Google đơn thuần, và còn xử lý được lệnh terminal, duyệt file, và sắp xếp ghi chú
Nhờ tốc độ (90tok/s) và độ trễ thấp, tôi xử lý các việc lặt vặt hiệu quả hơn nhiều
Trong khi đó Sonnet 4.5 chậm và sai một cách tinh vi nên không hiệu quả cho sử dụng thực tế
Nó nhanh (90tok/s) và bao phủ được hầu hết tác vụ
Nghiên cứu kiểu này rất quan trọng, nhưng các mô hình dense khó lòng bắt kịp tốc độ đó
Phiên bản Olmo tiếp theo cũng dự định sẽ áp dụng MoE
Thậm chí còn có thể trò chuyện tự nhiên bằng Esperanto