Olmo 3: Con đường mới cho luồng mô hình nhằm dẫn đầu AI mã nguồn mở

(allenai.org)

5 điểm bởi GN⁺ 2025-11-22 | 1 bình luận | Chia sẻ qua WhatsApp

Olmo 3 không chỉ công khai kết quả cuối cùng của mô hình mà còn công khai toàn bộ quá trình phát triển (model flow), mang lại khả năng truy vết hoàn chỉnh tới dữ liệu, mã nguồn và checkpoint
Gồm bốn dòng mô hình Base, Think, Instruct, RL Zero ở quy mô tham số 7B và 32B, phù hợp cho nhiều mục đích nghiên cứu như suy luận, hội thoại, học tăng cường
Dựa trên các bộ dữ liệu Dolma 3 và Dolci, công bố dữ liệu huấn luyện minh bạch với quy mô khoảng 9,3 nghìn tỷ token trải rộng trên web, code, toán học, khoa học...
Thông qua công cụ OlmoTrace, có thể theo dõi theo thời gian thực đầu ra của mô hình bắt nguồn từ dữ liệu huấn luyện nào, qua đó tăng cường tính minh bạch và độ tin cậy
Được phát hành hoàn toàn theo mã nguồn mở, cho phép bất kỳ ai can thiệp, chỉnh sửa và huấn luyện lại mô hình ở từng giai đoạn cụ thể, từ đó xây dựng hệ sinh thái nghiên cứu AI có thể kiểm chứng

Tổng quan về Olmo 3

Olmo 3 là họ mô hình ngôn ngữ mã nguồn mở thế hệ tiếp theo do Allen Institute for AI (Ai2) công bố, với trọng tâm là công khai toàn bộ luồng phát triển (model flow) của mô hình
- Luồng mô hình bao gồm mọi giai đoạn như thu thập dữ liệu, tiền xử lý, huấn luyện, tinh chỉnh và học tăng cường
- Nhờ đó, các nhà nghiên cứu và lập trình viên có thể phân tích và chỉnh sửa cơ chế vận hành bên trong của mô hình
Olmo 3 được cung cấp ở các phiên bản 7B và 32B tham số, có thể chạy trong nhiều môi trường khác nhau từ notebook tới cụm nghiên cứu

Cấu hình mô hình chính

Olmo 3-Base (7B, 32B)
- Mô hình nền được công khai hoàn toàn, đạt hiệu năng hàng đầu ở nhiều lĩnh vực như code, toán học và đọc hiểu
- Cạnh tranh với các mô hình cùng hạng như Qwen 2.5, Gemma 3 và hỗ trợ context mở rộng 65K token
Olmo 3-Think (7B, 32B)
- Mô hình chuyên về suy luận được huấn luyện cho các bài toán suy luận nhiều bước, phù hợp cho nghiên cứu RL và thử nghiệm tư duy dài hạn
- Mô hình 32B đạt hiệu năng hàng đầu trong cùng phân khúc trên các bài đánh giá như MATH, OMEGA, BigBenchHard
Olmo 3-Instruct (7B)
- Mô hình được tối ưu cho hội thoại, thực thi chỉ thị và sử dụng công cụ, ngang bằng hoặc vượt Qwen 2.5, Gemma 3 và Llama 3.1 trong cùng phân khúc
Olmo 3-RL Zero (7B)
- Cung cấp lộ trình công khai hoàn chỉnh để đánh giá thuật toán học tăng cường, bao gồm checkpoint cho 4 miền tác vụ như toán, code và làm theo chỉ thị

Hiệu năng và benchmark

Olmo 3-Base 32B vượt qua các mô hình công khai hoàn toàn như Marin 32B, Apertus 70B
- Đạt kết quả nổi bật trên các benchmark chính như GSM8k (toán) 80,5 điểm và HumanEval (code) 66,5 điểm
Olmo 3-Think 32B cho hiệu năng tương đương hoặc tiệm cận Qwen 3 32B, đồng thời ghi điểm cao nhất trên các bài đánh giá như HumanEvalPlus, IFEval
Olmo 3-Instruct 7B đạt 87,3 điểm ở hạng mục độ an toàn (Safety), cao nhất trong các mô hình được so sánh

Kiến trúc và quá trình huấn luyện

Sử dụng kiến trúc transformer chỉ giải mã, gồm 3 giai đoạn tiền huấn luyện (cơ sở → trung gian → ngữ cảnh dài) và 3 giai đoạn hậu huấn luyện (SFT → DPO → RLVR)
Checkpoint của từng giai đoạn đều được công khai, cho phép nhà nghiên cứu fork mô hình hoặc thử nghiệm tại bất kỳ thời điểm nào mong muốn
Bảo đảm tính minh bạch dữ liệu trong toàn bộ quá trình huấn luyện thông qua các bộ dữ liệu Dolma 3 (khoảng 9,3 nghìn tỷ token) và Dolci
- Bao gồm các thành phần chi tiết như Dolma 3 Mix (6 nghìn tỷ token), Dolmino (100B token), Longmino (50B token)
- Dolci cung cấp các data mix riêng cho từng giai đoạn SFT, DPO và RLVR

Hạ tầng huấn luyện hiệu quả

Huấn luyện với tối đa 1.024 GPU H100, đạt tốc độ xử lý 7,7K token/giây đối với mô hình 7B
Nhờ in-flight weight updates, continuous batching và cải tiến threading, hiệu suất huấn luyện RL được tăng 4 lần
Mô hình 32B của Olmo 3 được định vị là điểm cân bằng giữa hiệu năng và khả năng tiếp cận, cho phép các nhà nghiên cứu trực tiếp tinh chỉnh

Tính minh bạch và hệ sinh thái công cụ

Thông qua OlmoTrace, có thể theo dõi trực quan mối liên hệ giữa đầu ra của mô hình và dữ liệu huấn luyện
Toàn bộ dataset và toolchain đều được công bố dưới dạng mã nguồn mở
- Bao gồm Olmo-core (framework huấn luyện phân tán), Open Instruct (pipeline hậu huấn luyện), datamap-rs (làm sạch dữ liệu), duplodocus (loại bỏ trùng lặp), OLMES (bộ công cụ đánh giá)
Các nhà nghiên cứu có thể phân tích các bước suy luận trung gian và điểm thất bại của mô hình để xác định nguyên nhân hành vi của mô hình

Ứng dụng và ý nghĩa

Olmo 3 hỗ trợ xây dựng hệ thống AI đáng tin cậy trong nghiên cứu, giáo dục và phát triển ứng dụng
Do mọi giai đoạn của mô hình đều được công khai, dự án thúc đẩy tính tái lập, khả năng kiểm chứng và nghiên cứu hợp tác
Ai2 nêu rõ rằng “AI mã nguồn mở thực sự không chỉ là khả năng tiếp cận mà còn là niềm tin, trách nhiệm và sự phát triển chung”
Thông qua tính minh bạch hoàn toàn, Olmo 3 đề xuất một mô hình nghiên cứu mở mới nơi bất kỳ ai cũng có thể hiểu và cải thiện nội tại của AI

1 bình luận

GN⁺ 2025-11-22

Ý kiến trên Hacker News

Điều tôi nghĩ về tương lai của AI là một hệ thống có các bước suy luận hoàn toàn có thể truy vết
Nếu không có mức độ minh bạch như vậy, có lẽ công chúng sẽ không có cách nào để hiểu hay kiểm soát các hệ thống dựa trên LLM quy mô lớn
Cuối cùng sẽ có nguy cơ Big Tech, các thế lực độc đoán, hoặc chính AI hành động tùy ý
- Vì vậy, thật thú vị khi nhiều người lại muốn loại bỏ chính cách tiếp cận này
- Ít nhất chúng ta cần biết mỗi mô hình AI đã dùng dữ liệu huấn luyện nào
  Tôi nghĩ cần có một cơ chế để bên thứ ba kiểm toán và cung cấp báo cáo minh bạch
- Minh bạch là tốt, nhưng biến phản hồi thành thứ có thể điều chỉnh được là một bài toán UI/UX lớn
  Mong rằng những nỗ lực như vậy sẽ tiếp tục được lặp lại
Thuật ngữ “AI mã nguồn mở” dường như đã bị marketing làm méo mó
Chỉ đơn giản công khai trọng số mà gọi là mã nguồn mở là một thông lệ sai lầm
Mô hình mã nguồn mở thực sự cần một tên gọi mới như “mô hình minh bạch”
Tôi hỏi liệu hươu cao cổ có phải là đồ ăn kosher hay không, và mô hình trả lời là “không”
Nhưng theo cách diễn giải của tôi và luật Talmud, hươu cao cổ là được, còn GPT5.1 cũng đồng ý với cách hiểu của tôi
- Việc mô hình ghi nhớ những chi tiết tôn giáo như vậy thật kỳ lạ
  Những thông tin kiểu này nên được lấy bằng cơ chế truy xuất như RAG
  Có lẽ một mô hình trả lời “tôi không biết” sẽ hữu ích hơn
- Tôi tò mò không biết bạn đã thử lại mấy lần, và đặt temperature hay top_p như thế nào
- Thực ra điều thú vị là những câu hỏi như vậy giờ đây không còn có thể là thước đo của hàng hóa công nữa
Gần đây tôi đang chuyển quy trình làm việc chính của mình từ OpenAI sang mô hình cục bộ
Các mô hình nhỏ có xu hướng cố xử lý quá mức những trường hợp biên
Vì vậy nếu tạo cho chúng một lối thoát tên là “edge_case” thì chúng hoạt động tốt hơn nhiều
Tôi ước có một kho lưu trữ tập trung để gom các mẹo hack prompt kiểu này
- Tôi thắc mắc liệu “edge_case” có phải là khóa (key) trong một schema đầu ra có cấu trúc hay không
- Tôi cũng tò mò bạn có dùng frontend như Open WebUI hay LibreChat, hay là gọi trực tiếp
Tôi đã bấm “Show OlmoTrace” trong AllenAI Playground
Họ nói nó hiển thị tài liệu dữ liệu huấn luyện khớp với phản hồi của mô hình
Nhưng trên thực tế có vẻ chỉ ở mức tìm khớp N-gram, nên khó mà coi đó là khả năng truy vết
Có trường hợp kết quả đến từ những tài liệu không liên quan đến câu hỏi
Giải thích về N-gram
- Với tư cách là một nhà nghiên cứu Olmo, xin nói rằng mục đích của OlmoTrace không phải là quy phản hồi về một tài liệu cụ thể
  Thay vào đó, nó cho thấy mô hình đã bị ảnh hưởng bởi những mảnh dữ liệu huấn luyện nào
  Ví dụ, có thể lần ra lý do nhiều mô hình lặp lại cùng một câu đùa hoặc cùng một con số
Tôi nghĩ lineup kích thước mô hình lý tưởng là ba mức 7B, 20B và 32B
7B phù hợp với GPU 8GB, 32B hợp với GPU 24GB, và mô hình cỡ 20B thì vừa khít GPU 16GB
- Tất nhiên điều đó còn tùy kiến trúc
  Việc tìm kích thước tối ưu vẫn đang tiếp tục được thử nghiệm
  Cá nhân tôi mong GPU sẽ có VRAM mở rộng được
Tôi hỏi mô hình 7B “hi, who are u”, thì nó phân tích câu bên trong rồi dừng lại
Có vẻ đây là lỗi OpenWebUI
- Mỗi khi có mô hình mới ra mắt, luôn có nhiều trường hợp đem thử trên phần mềm chưa hỗ trợ
  Đợt GPT-OSS cũng vậy, và lần này với OLMo có lẽ tình huống tương tự sẽ lặp lại
- Tôi đã tự thử trên playground
  7B trả lời “Hi! I'm Olmo 3…”, còn 32B trả lời “Hi! I'm Olmo…”
- Tôi là nhà nghiên cứu trong nhóm post-training của Ai2, nên tôi tò mò bạn đã thử ở đâu
- Nó làm tôi nhớ tới trò đùa về việc phân tích quá mức câu “good morning”
  Cuối cùng ngay cả một lời chào đơn giản cũng kết thúc bằng diễn giải triết học
- Có lẽ nên kiểm tra xem có phải bạn đã chạm giới hạn completion token hay không
Tôi xem dataset Dolma3 trên Hugging Face
và khá sốc khi ngay từ dòng đầu đã có văn bản từ trang web người lớn
- Rất có thể nó vẫn đang ở giai đoạn trước khi tuyển chọn
  Nếu muốn công khai toàn bộ pipeline thì cũng phải bao gồm cả dữ liệu như vậy
  Dù vậy, có lẽ nên điều chỉnh để phần xem trước không hiện ngay những đoạn như thế
- Dù sao thì truyện hư cấu khiêu dâm cũng là một trong những ca sử dụng chính của các mô hình kiểu này
Tôi tò mò ứng dụng thực tế của các mô hình nhỏ là gì
Có vẻ phần lớn là để suy luận on-device, nhưng còn trường hợp nào khác không?
- Với tư cách là nhà nghiên cứu tại Ai2, 7B là mô hình cục bộ cho GPU tiêu dùng, còn 32B thì có thể ứng dụng đa dạng hơn
  Nhiều công ty hiện đang dùng các mô hình fine-tune từ Qwen 3 có thể sẽ chuyển sang Olmo 32B
- Nhóm của chúng tôi fine-tune mô hình 7B làm bộ phân loại chuyên biệt theo miền
  Kết quả tốt hơn các mô hình nhỏ không phải LLM
- Tôi luôn giữ Qwen3-30B-VL nạp sẵn trong VRAM
  Nó nhanh hơn tìm kiếm Google đơn thuần, và còn xử lý được lệnh terminal, duyệt file, và sắp xếp ghi chú
  Nhờ tốc độ (90tok/s) và độ trễ thấp, tôi xử lý các việc lặt vặt hiệu quả hơn nhiều
  Trong khi đó Sonnet 4.5 chậm và sai một cách tinh vi nên không hiệu quả cho sử dụng thực tế
Qwen3-30B-VL gần như hoàn hảo cho nhu cầu hằng ngày
Nó nhanh (90tok/s) và bao phủ được hầu hết tác vụ
Nghiên cứu kiểu này rất quan trọng, nhưng các mô hình dense khó lòng bắt kịp tốc độ đó
- Với tư cách là nhà phát triển Olmo, lý do mô hình Qwen nhanh là nhờ kiến trúc MoE
  Phiên bản Olmo tiếp theo cũng dự định sẽ áp dụng MoE
- Tôi thử chạy trên MacBook mới thì thấy chậm, nhưng bù lại Qwen2.5:14B cho phản hồi gần như tức thì
  Thậm chí còn có thể trò chuyện tự nhiên bằng Esperanto
- Tôi tò mò liệu việc Qwen3-30B-VL “thông minh” hơn có phải là do khác biệt kiến trúc chứ không chỉ vì kích thước hay không

Olmo 3: Con đường mới cho luồng mô hình nhằm dẫn đầu AI mã nguồn mở

Tổng quan về Olmo 3

Cấu hình mô hình chính

Hiệu năng và benchmark

Kiến trúc và quá trình huấn luyện

Hạ tầng huấn luyện hiệu quả

Tính minh bạch và hệ sinh thái công cụ

Ứng dụng và ý nghĩa

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News