- Forge là một hệ thống cho phép doanh nghiệp xây dựng mô hình AI dựa trên tri thức nội bộ của riêng mình, khắc phục giới hạn của các mô hình hiện có vốn chủ yếu dựa vào dữ liệu công khai
- Hệ thống huấn luyện mô hình chuyên biệt theo miền bằng cách tận dụng tài liệu nội bộ, codebase và dữ liệu vận hành, đồng thời hỗ trợ đầy đủ các giai đoạn tiền huấn luyện, hậu huấn luyện và học tăng cường
- Có thể duy trì quyền kiểm soát và bảo vệ tài sản trí tuệ đối với mô hình, dữ liệu và tri thức, nên cũng có thể được sử dụng trong các ngành chịu quản lý chặt chẽ
- Thông qua mô hình tùy biến, các agent cho doanh nghiệp có thể hiểu hệ thống và chính sách nội bộ, đồng thời thực hiện chính xác việc sử dụng công cụ và ra quyết định
- Hỗ trợ nhiều kiến trúc khác nhau và học tăng cường liên tục, qua đó nâng cao tính tự chủ chiến lược của AI doanh nghiệp và khả năng cải thiện dài hạn
Tổng quan về Forge
- Forge là một hệ thống giúp doanh nghiệp xây dựng mô hình AI cấp frontier dựa trên tri thức và dữ liệu riêng
- Trong khi các mô hình hiện có dựa trên dữ liệu công khai được tối ưu cho các tác vụ phổ quát, Forge phản ánh bối cảnh đặc thù của từng tổ chức như tiêu chuẩn, chính sách, mã nguồn và lịch sử ra quyết định trong nội bộ doanh nghiệp
- Nhờ đó, AI có thể hoạt động phù hợp với môi trường vận hành và quy trình làm việc của doanh nghiệp
- Mistral AI hiện đã hợp tác với ASML, Ericsson, European Space Agency, HTX Singapore và các bên khác để áp dụng công nghệ này
Huấn luyện mô hình dựa trên tri thức tổ chức
- Forge huấn luyện mô hình bằng dữ liệu nội bộ quy mô lớn như tài liệu nội bộ, codebase, dữ liệu có cấu trúc và nhật ký vận hành
- Mô hình sẽ tiếp thu thuật ngữ, mô hình suy luận và các điều kiện ràng buộc của môi trường đó
- Quá trình huấn luyện gồm ba giai đoạn
- Tiền huấn luyện (pre-training): xây dựng mô hình nhận thức miền từ dữ liệu nội bộ
- Hậu huấn luyện (post-training): tinh chỉnh chi tiết mô hình cho phù hợp với tác vụ và môi trường cụ thể
- Học tăng cường (reinforcement learning): căn chỉnh hành vi mô hình theo chính sách nội bộ và tiêu chí đánh giá, đồng thời cải thiện hiệu năng trong môi trường thực tế
- Qua đó có thể phát triển mô hình phản ánh trí tuệ tổ chức
Kiểm soát và tính tự chủ chiến lược
- Forge được thiết kế để doanh nghiệp duy trì quyền kiểm soát đối với mô hình và dữ liệu
- Mô hình được huấn luyện trên dữ liệu nội bộ và có thể được quản lý theo chính sách nội bộ, tiêu chí đánh giá và yêu cầu vận hành
- Có thể đáp ứng các yêu cầu về tuân thủ và quản trị trong môi trường bị quản lý
- Việc vận hành mô hình trên hạ tầng riêng giúp đảm bảo tính tự chủ chiến lược
Mô hình tùy biến và agent có độ tin cậy cao
- Agent doanh nghiệp không chỉ cần tạo phản hồi mà còn phải duyệt hệ thống nội bộ, sử dụng công cụ và đưa ra quyết định dựa trên chính sách
- Các agent dựa trên mô hình đã được huấn luyện theo miền sẽ hiểu thuật ngữ và quy trình nội bộ, đồng thời nắm được mối quan hệ giữa các hệ thống
- Cải thiện độ chính xác khi chọn công cụ, tăng độ ổn định của quy trình nhiều bước và cho phép ra quyết định phản ánh chính sách nội bộ
- Kết quả là có thể hiện thực hóa AI agent như một thành phần vận hành
Hỗ trợ nhiều kiến trúc mô hình
- Forge hỗ trợ cả kiến trúc Dense và Mixture-of-Experts (MoE)
- Mô hình Dense mạnh ở các tác vụ phổ quát, còn MoE cho phép vận hành mô hình quy mô lớn với độ trễ thấp và hiệu quả chi phí cao
- Hỗ trợ đầu vào đa phương thức, cho phép huấn luyện trên nhiều định dạng dữ liệu như văn bản và hình ảnh
Thiết kế lấy agent làm trung tâm
- Forge được thiết kế với code agent là người dùng chính
- Ví dụ: các agent tự động như Mistral Vibe có thể thực hiện tinh chỉnh mô hình, tìm kiếm siêu tham số, lập lịch tác vụ và tạo dữ liệu tổng hợp
- Forge ngăn suy giảm hiệu năng bằng cách giám sát các chỉ số đánh giá trong quá trình huấn luyện
- Bao gồm quản lý hạ tầng và recipe cho pipeline dữ liệu, cho phép tùy biến mô hình chỉ bằng lệnh ngôn ngữ tự nhiên
Cải tiến liên tục và đánh giá
- Forge hỗ trợ học thích nghi liên tục
- Thông qua pipeline học tăng cường, hành vi của mô hình được cải thiện bằng phản hồi nội bộ
- Khung đánh giá cho phép kiểm thử với benchmark nội bộ, quy tắc quản lý và các bài toán theo từng miền
- Kết quả là hiện thực hóa vòng đời mô hình được cải tiến liên tục thay vì triển khai tĩnh
Các trường hợp ứng dụng trong doanh nghiệp
- Cơ quan chính phủ: học từ tài liệu chính sách đa ngôn ngữ và quy trình hành chính để hỗ trợ phân tích chính sách và dịch vụ công
- Tổ chức tài chính: học từ tài liệu quy định và quy trình rủi ro để đảm bảo tính nhất quán trong quản trị nội bộ
- Nhóm phần mềm: học từ codebase nội bộ để nâng cao năng suất phát triển trong triển khai, gỡ lỗi và review
- Nhà sản xuất: học từ đặc tả thiết kế và dữ liệu bảo trì để hỗ trợ chẩn đoán và ra quyết định
- Tập đoàn lớn: sử dụng agent dựa trên hệ thống tri thức nội bộ để hỗ trợ workflow phức tạp và nâng cao độ chính xác truy xuất thông tin
Kết luận: Chuyển dịch sang hạ tầng AI lấy doanh nghiệp làm trung tâm
- Khi mô hình AI đang trở thành lớp cốt lõi trong hạ tầng doanh nghiệp, việc mô hình hóa tri thức tổ chức ngày càng trở nên quan trọng
- Forge cung cấp nền tảng để doanh nghiệp xây dựng các mô hình có thể được huấn luyện, căn chỉnh và đánh giá bằng dữ liệu riêng, từ đó phát triển thành tài sản chiến lược
- Qua đó, AI có thể được chuyển đổi từ một công cụ bên ngoài thành năng lực cốt lõi cùng tiến hóa với tri thức của tổ chức
1 bình luận
Ý kiến trên Hacker News
Tôi thích Mistral. Cân bằng giữa chi phí và việc lưu trữ dữ liệu trong EU là quá hoàn hảo. Chất lượng cũng hầu như không suy giảm.
Nhưng hệ thống đặt tên model của họ quá rối. Ví dụ có model tên Devstral 2, nhưng lại không phải Codestral cũng không phải Devestral.
Trong API thì có nhiều tên như devstral-2512, devstral-latest, devstral-medium-latest.
Tôi nghĩ chắc devstral-latest là đúng nên đã hỏi đội hỗ trợ, rồi 12 tiếng sau họ gửi cho tôi một hướng dẫn cấu hình IntelliJ do AI tạo ra, bảo rằng “devstral 2 là devstral 2”.
Vấn đề là màn hình trong hướng dẫn đó ngoài đời thực không hề tồn tại
devstral-2512, devstral-latest, devstral-medium-latest đều là devstral 2.
labs-devstral-small-2512 và devstral-small-latest là devstral small 2,
devstral-medium-2507 là devstral 1.0, còn devstral-small-2507 là devstral small 1.1
Có vẻ họ muốn cung cấp workflow được tùy biến theo từng doanh nghiệp.
Hoặc cũng có thể là vấn đề giao tiếp giữa các bộ phận không thông suốt như Google
Chất lượng model thì thấp hơn, nhưng trong châu Âu đó vẫn là lựa chọn tốt nhất.
Tất nhiên cũng có thể chạy model Trung Quốc trên máy chủ ở châu Âu
Không nên đánh giá thấp Mistral. Với vai trò LLM dạng dịch vụ phổ thông, nó khá rẻ,
và chiến lược tập trung vào mô hình hóa tùy biến thay vì model khổng lồ có lẽ cuối cùng sẽ phát huy tác dụng.
Đặc biệt nó có thể có lợi thế trong môi trường EU nhiều quy định.
Thế giới đâu chỉ có tạo mã
Chỉ có điều đây là chiến lược có rào cản gia nhập thấp nên rất dễ bị sao chép.
Nếu họ tích lũy được nhiều model huấn luyện sẵn cho từng sản phẩm như ERP, CRM,
rồi bán các model tiếp theo có phản ánh dữ liệu tùy biến của khách hàng, thì đó mới là moat thực sự.
Cốt lõi là lặng lẽ chốt được hợp đồng
nên tôi nghi ngờ việc mô hình hóa tùy biến có thể thay thế kho tri thức đồ sộ đó như thế nào
Chỉ cần tải dataset lên là có thể dùng model ngay ở endpoint.
Có giới hạn nhưng nó giúp tăng khả năng tiếp cận lên rất nhiều
Nó còn chạy được cục bộ nên lập trình viên vẫn giữ được quyền kiểm soát
Chất lượng model thuộc nhóm thấp nhất trong các LLM
Tôi từng thắc mắc ý nghĩa của “pre-training” và “post-training”.
Trên thực tế chắc họ cũng không có đủ dataset sạch đâu,
nên tôi không rõ cái họ gọi là pre-training có thật là huấn luyện nền tảng hay chỉ là SFT (tinh chỉnh có giám sát).
Cũng có thể họ đang tạo dữ liệu tổng hợp từ dữ liệu nội bộ để chưng cất tri thức độ phân giải thấp
Mục tiêu vẫn là dự đoán token tiếp theo, nên gọi là “continued pre-training”.
Post-training là mọi quy trình dựa trên phản hồi của con người như SFT, DPO, RL
còn post-training là thêm dữ liệu vào prompt như RAG
Đọc mô tả của Forge thì thấy họ nói có thể huấn luyện model bằng tài liệu nội bộ hoặc codebase của doanh nghiệp để nội hóa tri thức miền.
Nhưng theo tôi, để tiếp thu tri thức thì RAG hiệu quả hơn fine-tuning.
Fine-tuning giỏi trong việc thay đổi “giọng điệu” của model hơn là bơm thêm kiến thức mới
Tôi ủng hộ cách tiếp cận của Mistral.
Thay vì lao vào cuộc đua model khổng lồ, chiến lược tập trung vào kỹ thuật tùy biến theo khách hàng và thị trường EU là rất khôn ngoan
Các model khác thường quá lo lắng về mức độ hiểu biết của người đọc,
còn Mistral vẫn theo được những cuộc thảo luận sâu và mang tính kỹ thuật
Gần đây Mistral đang thử rất nhiều hướng đi thật sự thú vị.
Dù khó cạnh tranh với OpenAI hay Anthropic,
nhưng tính độc đáo trong thiết kế sản phẩm của họ rất nổi bật.
Cá nhân tôi còn thấy muốn vào làm ở công ty đó
Mistral gần đây tung ra khá nhiều tính năng hay.
Dù không có model ở tuyến đầu, nhưng nếu xét việc doanh nghiệp nhỏ khó tự huấn luyện model,
thì những công cụ kiểu này là cơ hội lớn.
Đặc biệt khi đi cùng các công cụ như unsloth thì việc huấn luyện trở nên thực tế hơn nhiều
Tôi tự hỏi trên thực tế có bao nhiêu trường hợp doanh nghiệp thật sự cần fine-tuning.
Chẳng phải chỉ cần RAG là đủ sao?
thì có thể giảm số lần gọi tới LLM qua mạng trong các việc như phân tích log, dùng công cụ, hay phản ánh tri thức miền
Còn fine-tuning thì nâng cao chính năng lực suy luận của model
Điều mà cách tiếp cận này gợi ra về cấu trúc doanh thu của AI khá thú vị.
Có vẻ số lượng GPU sẽ không phải rào cản gia nhập.
Ngược lại, dữ liệu chuyên biệt và độc quyền mới là moat thực sự.
Dữ liệu nội bộ của doanh nghiệp chứa những tri thức không thể thay thế.
Mistral đang đặt cược đúng vào điểm đó
nhưng cũng có thể xem như được huấn luyện bằng 3,5 tỷ năm dữ liệu tiến hóa
Đây là con đường khôn ngoan nhất để kiếm tiền từ AI.
MongoDB cũng đang bước vào thị trường tư vấn RAG doanh nghiệp và model tùy biến thông qua VoyageAI