5 điểm bởi GN⁺ 2025-11-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Olmo 3 không chỉ công khai kết quả cuối cùng của mô hình mà còn công khai toàn bộ quá trình phát triển (model flow), mang lại khả năng truy vết hoàn chỉnh tới dữ liệu, mã nguồn và checkpoint
  • Gồm bốn dòng mô hình Base, Think, Instruct, RL Zero ở quy mô tham số 7B và 32B, phù hợp cho nhiều mục đích nghiên cứu như suy luận, hội thoại, học tăng cường
  • Dựa trên các bộ dữ liệu Dolma 3Dolci, công bố dữ liệu huấn luyện minh bạch với quy mô khoảng 9,3 nghìn tỷ token trải rộng trên web, code, toán học, khoa học...
  • Thông qua công cụ OlmoTrace, có thể theo dõi theo thời gian thực đầu ra của mô hình bắt nguồn từ dữ liệu huấn luyện nào, qua đó tăng cường tính minh bạch và độ tin cậy
  • Được phát hành hoàn toàn theo mã nguồn mở, cho phép bất kỳ ai can thiệp, chỉnh sửa và huấn luyện lại mô hình ở từng giai đoạn cụ thể, từ đó xây dựng hệ sinh thái nghiên cứu AI có thể kiểm chứng

Tổng quan về Olmo 3

  • Olmo 3 là họ mô hình ngôn ngữ mã nguồn mở thế hệ tiếp theo do Allen Institute for AI (Ai2) công bố, với trọng tâm là công khai toàn bộ luồng phát triển (model flow) của mô hình
    • Luồng mô hình bao gồm mọi giai đoạn như thu thập dữ liệu, tiền xử lý, huấn luyện, tinh chỉnh và học tăng cường
    • Nhờ đó, các nhà nghiên cứu và lập trình viên có thể phân tích và chỉnh sửa cơ chế vận hành bên trong của mô hình
  • Olmo 3 được cung cấp ở các phiên bản 7B và 32B tham số, có thể chạy trong nhiều môi trường khác nhau từ notebook tới cụm nghiên cứu

Cấu hình mô hình chính

  • Olmo 3-Base (7B, 32B)
    • Mô hình nền được công khai hoàn toàn, đạt hiệu năng hàng đầu ở nhiều lĩnh vực như code, toán học và đọc hiểu
    • Cạnh tranh với các mô hình cùng hạng như Qwen 2.5, Gemma 3 và hỗ trợ context mở rộng 65K token
  • Olmo 3-Think (7B, 32B)
    • Mô hình chuyên về suy luận được huấn luyện cho các bài toán suy luận nhiều bước, phù hợp cho nghiên cứu RL và thử nghiệm tư duy dài hạn
    • Mô hình 32B đạt hiệu năng hàng đầu trong cùng phân khúc trên các bài đánh giá như MATH, OMEGA, BigBenchHard
  • Olmo 3-Instruct (7B)
    • Mô hình được tối ưu cho hội thoại, thực thi chỉ thị và sử dụng công cụ, ngang bằng hoặc vượt Qwen 2.5, Gemma 3 và Llama 3.1 trong cùng phân khúc
  • Olmo 3-RL Zero (7B)
    • Cung cấp lộ trình công khai hoàn chỉnh để đánh giá thuật toán học tăng cường, bao gồm checkpoint cho 4 miền tác vụ như toán, code và làm theo chỉ thị

Hiệu năng và benchmark

  • Olmo 3-Base 32B vượt qua các mô hình công khai hoàn toàn như Marin 32B, Apertus 70B
    • Đạt kết quả nổi bật trên các benchmark chính như GSM8k (toán) 80,5 điểm và HumanEval (code) 66,5 điểm
  • Olmo 3-Think 32B cho hiệu năng tương đương hoặc tiệm cận Qwen 3 32B, đồng thời ghi điểm cao nhất trên các bài đánh giá như HumanEvalPlus, IFEval
  • Olmo 3-Instruct 7B đạt 87,3 điểm ở hạng mục độ an toàn (Safety), cao nhất trong các mô hình được so sánh

Kiến trúc và quá trình huấn luyện

  • Sử dụng kiến trúc transformer chỉ giải mã, gồm 3 giai đoạn tiền huấn luyện (cơ sở → trung gian → ngữ cảnh dài) và 3 giai đoạn hậu huấn luyện (SFT → DPO → RLVR)
  • Checkpoint của từng giai đoạn đều được công khai, cho phép nhà nghiên cứu fork mô hình hoặc thử nghiệm tại bất kỳ thời điểm nào mong muốn
  • Bảo đảm tính minh bạch dữ liệu trong toàn bộ quá trình huấn luyện thông qua các bộ dữ liệu Dolma 3 (khoảng 9,3 nghìn tỷ token) và Dolci
    • Bao gồm các thành phần chi tiết như Dolma 3 Mix (6 nghìn tỷ token), Dolmino (100B token), Longmino (50B token)
    • Dolci cung cấp các data mix riêng cho từng giai đoạn SFT, DPO và RLVR

Hạ tầng huấn luyện hiệu quả

  • Huấn luyện với tối đa 1.024 GPU H100, đạt tốc độ xử lý 7,7K token/giây đối với mô hình 7B
  • Nhờ in-flight weight updates, continuous batchingcải tiến threading, hiệu suất huấn luyện RL được tăng 4 lần
  • Mô hình 32B của Olmo 3 được định vị là điểm cân bằng giữa hiệu năng và khả năng tiếp cận, cho phép các nhà nghiên cứu trực tiếp tinh chỉnh

Tính minh bạch và hệ sinh thái công cụ

  • Thông qua OlmoTrace, có thể theo dõi trực quan mối liên hệ giữa đầu ra của mô hình và dữ liệu huấn luyện
  • Toàn bộ dataset và toolchain đều được công bố dưới dạng mã nguồn mở
    • Bao gồm Olmo-core (framework huấn luyện phân tán), Open Instruct (pipeline hậu huấn luyện), datamap-rs (làm sạch dữ liệu), duplodocus (loại bỏ trùng lặp), OLMES (bộ công cụ đánh giá)
  • Các nhà nghiên cứu có thể phân tích các bước suy luận trung gian và điểm thất bại của mô hình để xác định nguyên nhân hành vi của mô hình

Ứng dụng và ý nghĩa

  • Olmo 3 hỗ trợ xây dựng hệ thống AI đáng tin cậy trong nghiên cứu, giáo dục và phát triển ứng dụng
  • Do mọi giai đoạn của mô hình đều được công khai, dự án thúc đẩy tính tái lập, khả năng kiểm chứng và nghiên cứu hợp tác
  • Ai2 nêu rõ rằng “AI mã nguồn mở thực sự không chỉ là khả năng tiếp cận mà còn là niềm tin, trách nhiệm và sự phát triển chung
  • Thông qua tính minh bạch hoàn toàn, Olmo 3 đề xuất một mô hình nghiên cứu mở mới nơi bất kỳ ai cũng có thể hiểu và cải thiện nội tại của AI

1 bình luận

 
GN⁺ 2025-11-22
Ý kiến trên Hacker News
  • Điều tôi nghĩ về tương lai của AI là một hệ thống có các bước suy luận hoàn toàn có thể truy vết
    Nếu không có mức độ minh bạch như vậy, có lẽ công chúng sẽ không có cách nào để hiểu hay kiểm soát các hệ thống dựa trên LLM quy mô lớn
    Cuối cùng sẽ có nguy cơ Big Tech, các thế lực độc đoán, hoặc chính AI hành động tùy ý
    • Vì vậy, thật thú vị khi nhiều người lại muốn loại bỏ chính cách tiếp cận này
    • Ít nhất chúng ta cần biết mỗi mô hình AI đã dùng dữ liệu huấn luyện nào
      Tôi nghĩ cần có một cơ chế để bên thứ ba kiểm toán và cung cấp báo cáo minh bạch
    • Minh bạch là tốt, nhưng biến phản hồi thành thứ có thể điều chỉnh được là một bài toán UI/UX lớn
      Mong rằng những nỗ lực như vậy sẽ tiếp tục được lặp lại
  • Thuật ngữ “AI mã nguồn mở” dường như đã bị marketing làm méo mó
    Chỉ đơn giản công khai trọng số mà gọi là mã nguồn mở là một thông lệ sai lầm
    Mô hình mã nguồn mở thực sự cần một tên gọi mới như “mô hình minh bạch
  • Tôi hỏi liệu hươu cao cổ có phải là đồ ăn kosher hay không, và mô hình trả lời là “không”
    Nhưng theo cách diễn giải của tôi và luật Talmud, hươu cao cổ là được, còn GPT5.1 cũng đồng ý với cách hiểu của tôi
    • Việc mô hình ghi nhớ những chi tiết tôn giáo như vậy thật kỳ lạ
      Những thông tin kiểu này nên được lấy bằng cơ chế truy xuất như RAG
      Có lẽ một mô hình trả lời “tôi không biết” sẽ hữu ích hơn
    • Tôi tò mò không biết bạn đã thử lại mấy lần, và đặt temperature hay top_p như thế nào
    • Thực ra điều thú vị là những câu hỏi như vậy giờ đây không còn có thể là thước đo của hàng hóa công nữa
  • Gần đây tôi đang chuyển quy trình làm việc chính của mình từ OpenAI sang mô hình cục bộ
    Các mô hình nhỏ có xu hướng cố xử lý quá mức những trường hợp biên
    Vì vậy nếu tạo cho chúng một lối thoát tên là “edge_case” thì chúng hoạt động tốt hơn nhiều
    Tôi ước có một kho lưu trữ tập trung để gom các mẹo hack prompt kiểu này
    • Tôi thắc mắc liệu “edge_case” có phải là khóa (key) trong một schema đầu ra có cấu trúc hay không
    • Tôi cũng tò mò bạn có dùng frontend như Open WebUI hay LibreChat, hay là gọi trực tiếp
  • Tôi đã bấm “Show OlmoTrace” trong AllenAI Playground
    Họ nói nó hiển thị tài liệu dữ liệu huấn luyện khớp với phản hồi của mô hình
    Nhưng trên thực tế có vẻ chỉ ở mức tìm khớp N-gram, nên khó mà coi đó là khả năng truy vết
    Có trường hợp kết quả đến từ những tài liệu không liên quan đến câu hỏi
    Giải thích về N-gram
    • Với tư cách là một nhà nghiên cứu Olmo, xin nói rằng mục đích của OlmoTrace không phải là quy phản hồi về một tài liệu cụ thể
      Thay vào đó, nó cho thấy mô hình đã bị ảnh hưởng bởi những mảnh dữ liệu huấn luyện nào
      Ví dụ, có thể lần ra lý do nhiều mô hình lặp lại cùng một câu đùa hoặc cùng một con số
  • Tôi nghĩ lineup kích thước mô hình lý tưởng là ba mức 7B, 20B và 32B
    7B phù hợp với GPU 8GB, 32B hợp với GPU 24GB, và mô hình cỡ 20B thì vừa khít GPU 16GB
    • Tất nhiên điều đó còn tùy kiến trúc
      Việc tìm kích thước tối ưu vẫn đang tiếp tục được thử nghiệm
      Cá nhân tôi mong GPU sẽ có VRAM mở rộng được
  • Tôi hỏi mô hình 7B “hi, who are u”, thì nó phân tích câu bên trong rồi dừng lại
    Có vẻ đây là lỗi OpenWebUI
    • Mỗi khi có mô hình mới ra mắt, luôn có nhiều trường hợp đem thử trên phần mềm chưa hỗ trợ
      Đợt GPT-OSS cũng vậy, và lần này với OLMo có lẽ tình huống tương tự sẽ lặp lại
    • Tôi đã tự thử trên playground
      7B trả lời “Hi! I'm Olmo 3…”, còn 32B trả lời “Hi! I'm Olmo…”
    • Tôi là nhà nghiên cứu trong nhóm post-training của Ai2, nên tôi tò mò bạn đã thử ở đâu
    • Nó làm tôi nhớ tới trò đùa về việc phân tích quá mức câu “good morning”
      Cuối cùng ngay cả một lời chào đơn giản cũng kết thúc bằng diễn giải triết học
    • Có lẽ nên kiểm tra xem có phải bạn đã chạm giới hạn completion token hay không
  • Tôi xem dataset Dolma3 trên Hugging Face
    và khá sốc khi ngay từ dòng đầu đã có văn bản từ trang web người lớn
    • Rất có thể nó vẫn đang ở giai đoạn trước khi tuyển chọn
      Nếu muốn công khai toàn bộ pipeline thì cũng phải bao gồm cả dữ liệu như vậy
      Dù vậy, có lẽ nên điều chỉnh để phần xem trước không hiện ngay những đoạn như thế
    • Dù sao thì truyện hư cấu khiêu dâm cũng là một trong những ca sử dụng chính của các mô hình kiểu này
  • Tôi tò mò ứng dụng thực tế của các mô hình nhỏ là gì
    Có vẻ phần lớn là để suy luận on-device, nhưng còn trường hợp nào khác không?
    • Với tư cách là nhà nghiên cứu tại Ai2, 7B là mô hình cục bộ cho GPU tiêu dùng, còn 32B thì có thể ứng dụng đa dạng hơn
      Nhiều công ty hiện đang dùng các mô hình fine-tune từ Qwen 3 có thể sẽ chuyển sang Olmo 32B
    • Nhóm của chúng tôi fine-tune mô hình 7B làm bộ phân loại chuyên biệt theo miền
      Kết quả tốt hơn các mô hình nhỏ không phải LLM
    • Tôi luôn giữ Qwen3-30B-VL nạp sẵn trong VRAM
      Nó nhanh hơn tìm kiếm Google đơn thuần, và còn xử lý được lệnh terminal, duyệt file, và sắp xếp ghi chú
      Nhờ tốc độ (90tok/s) và độ trễ thấp, tôi xử lý các việc lặt vặt hiệu quả hơn nhiều
      Trong khi đó Sonnet 4.5 chậm và sai một cách tinh vi nên không hiệu quả cho sử dụng thực tế
  • Qwen3-30B-VL gần như hoàn hảo cho nhu cầu hằng ngày
    Nó nhanh (90tok/s) và bao phủ được hầu hết tác vụ
    Nghiên cứu kiểu này rất quan trọng, nhưng các mô hình dense khó lòng bắt kịp tốc độ đó
    • Với tư cách là nhà phát triển Olmo, lý do mô hình Qwen nhanh là nhờ kiến trúc MoE
      Phiên bản Olmo tiếp theo cũng dự định sẽ áp dụng MoE
    • Tôi thử chạy trên MacBook mới thì thấy chậm, nhưng bù lại Qwen2.5:14B cho phản hồi gần như tức thì
      Thậm chí còn có thể trò chuyện tự nhiên bằng Esperanto
    • Tôi tò mò liệu việc Qwen3-30B-VL “thông minh” hơn có phải là do khác biệt kiến trúc chứ không chỉ vì kích thước hay không