5 điểm bởi GN⁺ 2026-03-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Forge là một hệ thống cho phép doanh nghiệp xây dựng mô hình AI dựa trên tri thức nội bộ của riêng mình, khắc phục giới hạn của các mô hình hiện có vốn chủ yếu dựa vào dữ liệu công khai
  • Hệ thống huấn luyện mô hình chuyên biệt theo miền bằng cách tận dụng tài liệu nội bộ, codebase và dữ liệu vận hành, đồng thời hỗ trợ đầy đủ các giai đoạn tiền huấn luyện, hậu huấn luyện và học tăng cường
  • Có thể duy trì quyền kiểm soát và bảo vệ tài sản trí tuệ đối với mô hình, dữ liệu và tri thức, nên cũng có thể được sử dụng trong các ngành chịu quản lý chặt chẽ
  • Thông qua mô hình tùy biến, các agent cho doanh nghiệp có thể hiểu hệ thống và chính sách nội bộ, đồng thời thực hiện chính xác việc sử dụng công cụ và ra quyết định
  • Hỗ trợ nhiều kiến trúc khác nhau và học tăng cường liên tục, qua đó nâng cao tính tự chủ chiến lược của AI doanh nghiệp và khả năng cải thiện dài hạn

Tổng quan về Forge

  • Forge là một hệ thống giúp doanh nghiệp xây dựng mô hình AI cấp frontier dựa trên tri thức và dữ liệu riêng
    • Trong khi các mô hình hiện có dựa trên dữ liệu công khai được tối ưu cho các tác vụ phổ quát, Forge phản ánh bối cảnh đặc thù của từng tổ chức như tiêu chuẩn, chính sách, mã nguồn và lịch sử ra quyết định trong nội bộ doanh nghiệp
    • Nhờ đó, AI có thể hoạt động phù hợp với môi trường vận hành và quy trình làm việc của doanh nghiệp
  • Mistral AI hiện đã hợp tác với ASML, Ericsson, European Space Agency, HTX Singapore và các bên khác để áp dụng công nghệ này

Huấn luyện mô hình dựa trên tri thức tổ chức

  • Forge huấn luyện mô hình bằng dữ liệu nội bộ quy mô lớn như tài liệu nội bộ, codebase, dữ liệu có cấu trúc và nhật ký vận hành
    • Mô hình sẽ tiếp thu thuật ngữ, mô hình suy luận và các điều kiện ràng buộc của môi trường đó
  • Quá trình huấn luyện gồm ba giai đoạn
    • Tiền huấn luyện (pre-training): xây dựng mô hình nhận thức miền từ dữ liệu nội bộ
    • Hậu huấn luyện (post-training): tinh chỉnh chi tiết mô hình cho phù hợp với tác vụ và môi trường cụ thể
    • Học tăng cường (reinforcement learning): căn chỉnh hành vi mô hình theo chính sách nội bộ và tiêu chí đánh giá, đồng thời cải thiện hiệu năng trong môi trường thực tế
  • Qua đó có thể phát triển mô hình phản ánh trí tuệ tổ chức

Kiểm soát và tính tự chủ chiến lược

  • Forge được thiết kế để doanh nghiệp duy trì quyền kiểm soát đối với mô hình và dữ liệu
    • Mô hình được huấn luyện trên dữ liệu nội bộ và có thể được quản lý theo chính sách nội bộ, tiêu chí đánh giá và yêu cầu vận hành
  • Có thể đáp ứng các yêu cầu về tuân thủ và quản trị trong môi trường bị quản lý
  • Việc vận hành mô hình trên hạ tầng riêng giúp đảm bảo tính tự chủ chiến lược

Mô hình tùy biến và agent có độ tin cậy cao

  • Agent doanh nghiệp không chỉ cần tạo phản hồi mà còn phải duyệt hệ thống nội bộ, sử dụng công cụ và đưa ra quyết định dựa trên chính sách
  • Các agent dựa trên mô hình đã được huấn luyện theo miền sẽ hiểu thuật ngữ và quy trình nội bộ, đồng thời nắm được mối quan hệ giữa các hệ thống
    • Cải thiện độ chính xác khi chọn công cụ, tăng độ ổn định của quy trình nhiều bước và cho phép ra quyết định phản ánh chính sách nội bộ
  • Kết quả là có thể hiện thực hóa AI agent như một thành phần vận hành

Hỗ trợ nhiều kiến trúc mô hình

  • Forge hỗ trợ cả kiến trúc DenseMixture-of-Experts (MoE)
    • Mô hình Dense mạnh ở các tác vụ phổ quát, còn MoE cho phép vận hành mô hình quy mô lớn với độ trễ thấp và hiệu quả chi phí cao
  • Hỗ trợ đầu vào đa phương thức, cho phép huấn luyện trên nhiều định dạng dữ liệu như văn bản và hình ảnh

Thiết kế lấy agent làm trung tâm

  • Forge được thiết kế với code agent là người dùng chính
    • Ví dụ: các agent tự động như Mistral Vibe có thể thực hiện tinh chỉnh mô hình, tìm kiếm siêu tham số, lập lịch tác vụ và tạo dữ liệu tổng hợp
    • Forge ngăn suy giảm hiệu năng bằng cách giám sát các chỉ số đánh giá trong quá trình huấn luyện
    • Bao gồm quản lý hạ tầng và recipe cho pipeline dữ liệu, cho phép tùy biến mô hình chỉ bằng lệnh ngôn ngữ tự nhiên

Cải tiến liên tục và đánh giá

  • Forge hỗ trợ học thích nghi liên tục
    • Thông qua pipeline học tăng cường, hành vi của mô hình được cải thiện bằng phản hồi nội bộ
    • Khung đánh giá cho phép kiểm thử với benchmark nội bộ, quy tắc quản lý và các bài toán theo từng miền
  • Kết quả là hiện thực hóa vòng đời mô hình được cải tiến liên tục thay vì triển khai tĩnh

Các trường hợp ứng dụng trong doanh nghiệp

  • Cơ quan chính phủ: học từ tài liệu chính sách đa ngôn ngữ và quy trình hành chính để hỗ trợ phân tích chính sách và dịch vụ công
  • Tổ chức tài chính: học từ tài liệu quy định và quy trình rủi ro để đảm bảo tính nhất quán trong quản trị nội bộ
  • Nhóm phần mềm: học từ codebase nội bộ để nâng cao năng suất phát triển trong triển khai, gỡ lỗi và review
  • Nhà sản xuất: học từ đặc tả thiết kế và dữ liệu bảo trì để hỗ trợ chẩn đoán và ra quyết định
  • Tập đoàn lớn: sử dụng agent dựa trên hệ thống tri thức nội bộ để hỗ trợ workflow phức tạp và nâng cao độ chính xác truy xuất thông tin

Kết luận: Chuyển dịch sang hạ tầng AI lấy doanh nghiệp làm trung tâm

  • Khi mô hình AI đang trở thành lớp cốt lõi trong hạ tầng doanh nghiệp, việc mô hình hóa tri thức tổ chức ngày càng trở nên quan trọng
  • Forge cung cấp nền tảng để doanh nghiệp xây dựng các mô hình có thể được huấn luyện, căn chỉnh và đánh giá bằng dữ liệu riêng, từ đó phát triển thành tài sản chiến lược
  • Qua đó, AI có thể được chuyển đổi từ một công cụ bên ngoài thành năng lực cốt lõi cùng tiến hóa với tri thức của tổ chức

1 bình luận

 
GN⁺ 2026-03-18
Ý kiến trên Hacker News
  • Tôi thích Mistral. Cân bằng giữa chi phí và việc lưu trữ dữ liệu trong EU là quá hoàn hảo. Chất lượng cũng hầu như không suy giảm.
    Nhưng hệ thống đặt tên model của họ quá rối. Ví dụ có model tên Devstral 2, nhưng lại không phải Codestral cũng không phải Devestral.
    Trong API thì có nhiều tên như devstral-2512, devstral-latest, devstral-medium-latest.
    Tôi nghĩ chắc devstral-latest là đúng nên đã hỏi đội hỗ trợ, rồi 12 tiếng sau họ gửi cho tôi một hướng dẫn cấu hình IntelliJ do AI tạo ra, bảo rằng “devstral 2 là devstral 2”.
    Vấn đề là màn hình trong hướng dẫn đó ngoài đời thực không hề tồn tại

    • Tôi cũng đã hoàn toàn lạc lối trên trang của họ. Nhưng nếu xem tài liệu chính thức thì
      devstral-2512, devstral-latest, devstral-medium-latest đều là devstral 2.
      labs-devstral-small-2512 và devstral-small-latest là devstral small 2,
      devstral-medium-2507 là devstral 1.0, còn devstral-small-2507 là devstral small 1.1
    • Tôi cũng có trải nghiệm y hệt. Đặc biệt là quy trình tạo API key bị tách riêng theo từng sản phẩm nên càng khó hiểu hơn
    • Ấn tượng của tôi là công ty này đang vận hành theo hướng B2B hơn là cho lập trình viên cá nhân.
      Có vẻ họ muốn cung cấp workflow được tùy biến theo từng doanh nghiệp.
      Hoặc cũng có thể là vấn đề giao tiếp giữa các bộ phận không thông suốt như Google
    • Tôi nghĩ “lưu trữ dữ liệu trong EU” là lý do Mistral nhận được ủng hộ.
      Chất lượng model thì thấp hơn, nhưng trong châu Âu đó vẫn là lựa chọn tốt nhất.
      Tất nhiên cũng có thể chạy model Trung Quốc trên máy chủ ở châu Âu
  • Không nên đánh giá thấp Mistral. Với vai trò LLM dạng dịch vụ phổ thông, nó khá rẻ,
    và chiến lược tập trung vào mô hình hóa tùy biến thay vì model khổng lồ có lẽ cuối cùng sẽ phát huy tác dụng.
    Đặc biệt nó có thể có lợi thế trong môi trường EU nhiều quy định.
    Thế giới đâu chỉ có tạo mã

    • Tôi cũng nghĩ vậy. Nếu doanh nghiệp muốn triển khai AI để tự động hóa thì cách tiếp cận này là tối ưu.
      Chỉ có điều đây là chiến lược có rào cản gia nhập thấp nên rất dễ bị sao chép.
      Nếu họ tích lũy được nhiều model huấn luyện sẵn cho từng sản phẩm như ERP, CRM,
      rồi bán các model tiếp theo có phản ánh dữ liệu tùy biến của khách hàng, thì đó mới là moat thực sự.
      Cốt lõi là lặng lẽ chốt được hợp đồng
    • Nhưng bản chất của LLM là model khổng lồ,
      nên tôi nghi ngờ việc mô hình hóa tùy biến có thể thay thế kho tri thức đồ sộ đó như thế nào
    • Tôi đã trực tiếp huấn luyện model nhỏ chuyên biệt trên nền tảng của họ.
      Chỉ cần tải dataset lên là có thể dùng model ngay ở endpoint.
      Có giới hạn nhưng nó giúp tăng khả năng tiếp cận lên rất nhiều
    • Ngay cả cho lập trình, Vibe cũng thiên về “refactor hàm” hơn là “viết cả ứng dụng”.
      Nó còn chạy được cục bộ nên lập trình viên vẫn giữ được quyền kiểm soát
    • Nói thật thì ngoài lý do “châu Âu” ra, chẳng có nhiều lý do để chọn Mistral.
      Chất lượng model thuộc nhóm thấp nhất trong các LLM
  • Tôi từng thắc mắc ý nghĩa của “pre-training” và “post-training”.
    Trên thực tế chắc họ cũng không có đủ dataset sạch đâu,
    nên tôi không rõ cái họ gọi là pre-training có thật là huấn luyện nền tảng hay chỉ là SFT (tinh chỉnh có giám sát).
    Cũng có thể họ đang tạo dữ liệu tổng hợp từ dữ liệu nội bộ để chưng cất tri thức độ phân giải thấp

    • Pre-training là cho model hiện có tiếp xúc với nhiều văn bản thô hơn (như PDF).
      Mục tiêu vẫn là dự đoán token tiếp theo, nên gọi là “continued pre-training”.
      Post-training là mọi quy trình dựa trên phản hồi của con người như SFT, DPO, RL
    • Có lẽ đây là thuật ngữ marketing để phân biệt full fine-tuning với PEFT/LoRA
    • Tôi đoán pre-training là tinh chỉnh trọng số model hiện có bằng nhiều dữ liệu hơn,
      còn post-training là thêm dữ liệu vào prompt như RAG
    • Có vẻ rốt cuộc họ muốn nói đến “continued pretraining”
    • Có lẽ đây là cách phân biệt giữa việc tinh chỉnh model nền bằng SFT và việc điều chỉnh bằng DPO hoặc SFT dựa trên hành vi
  • Đọc mô tả của Forge thì thấy họ nói có thể huấn luyện model bằng tài liệu nội bộ hoặc codebase của doanh nghiệp để nội hóa tri thức miền.
    Nhưng theo tôi, để tiếp thu tri thức thì RAG hiệu quả hơn fine-tuning.
    Fine-tuning giỏi trong việc thay đổi “giọng điệu” của model hơn là bơm thêm kiến thức mới

  • Tôi ủng hộ cách tiếp cận của Mistral.
    Thay vì lao vào cuộc đua model khổng lồ, chiến lược tập trung vào kỹ thuật tùy biến theo khách hàng và thị trường EU là rất khôn ngoan

    • Khi trò chuyện về các chủ đề triết học, Mistral là tốt nhất.
      Các model khác thường quá lo lắng về mức độ hiểu biết của người đọc,
      còn Mistral vẫn theo được những cuộc thảo luận sâu và mang tính kỹ thuật
    • Model OCR của họ thực sự là đỉnh của chóp
    • Họ cũng hỗ trợ triển khai cục bộ
    • Go Mistral!
    • Có vẻ sau thời .ai sẽ đến thời của .eu. Cũng mong chờ domain ai.eu
  • Gần đây Mistral đang thử rất nhiều hướng đi thật sự thú vị.
    Dù khó cạnh tranh với OpenAI hay Anthropic,
    nhưng tính độc đáo trong thiết kế sản phẩm của họ rất nổi bật.
    Cá nhân tôi còn thấy muốn vào làm ở công ty đó

  • Mistral gần đây tung ra khá nhiều tính năng hay.
    Dù không có model ở tuyến đầu, nhưng nếu xét việc doanh nghiệp nhỏ khó tự huấn luyện model,
    thì những công cụ kiểu này là cơ hội lớn.
    Đặc biệt khi đi cùng các công cụ như unsloth thì việc huấn luyện trở nên thực tế hơn nhiều

  • Tôi tự hỏi trên thực tế có bao nhiêu trường hợp doanh nghiệp thật sự cần fine-tuning.
    Chẳng phải chỉ cần RAG là đủ sao?

    • Nếu huấn luyện chuyên biệt cho model nhỏ một cách nhanh và rẻ,
      thì có thể giảm số lần gọi tới LLM qua mạng trong các việc như phân tích log, dùng công cụ, hay phản ánh tri thức miền
    • RAG đơn giản là cách tìm tài liệu rồi lấy câu trả lời từ đó.
      Còn fine-tuning thì nâng cao chính năng lực suy luận của model
    • RAG hết thời rồi
  • Điều mà cách tiếp cận này gợi ra về cấu trúc doanh thu của AI khá thú vị.
    Có vẻ số lượng GPU sẽ không phải rào cản gia nhập.
    Ngược lại, dữ liệu chuyên biệt và độc quyền mới là moat thực sự.
    Dữ liệu nội bộ của doanh nghiệp chứa những tri thức không thể thay thế.
    Mistral đang đặt cược đúng vào điểm đó

    • Con người học từ lượng dữ liệu ít hơn rất nhiều so với toàn bộ internet,
      nhưng cũng có thể xem như được huấn luyện bằng 3,5 tỷ năm dữ liệu tiến hóa
  • Đây là con đường khôn ngoan nhất để kiếm tiền từ AI.
    MongoDB cũng đang bước vào thị trường tư vấn RAG doanh nghiệp và model tùy biến thông qua VoyageAI