MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash là mô hình lập trình mới của Microsoft, hướng tới hỗ trợ viết mã nhanh và hiệu quả trong quy trình làm việc hằng ngày của lập trình viên, và đang được triển khai cho người dùng cá nhân GitHub Copilot trên VS Code
- Microsoft đã huấn luyện trực tiếp mô hình này trong GitHub Copilot harness để nó được thiết kế tương tác tốt hơn với các công cụ và hệ thống trong môi trường phát triển thực tế
- Với điều khiển độ dài phản hồi thích ứng, mô hình trả lời ngắn gọn cho các yêu cầu đơn giản và dùng nhiều ngân sách suy luận hơn cho tác vụ phức tạp, giải được bài toán khó hơn với lượng token ít hơn tới 60% {p:60}
- Trong đánh giá harness môi trường production của Microsoft, mô hình cho tỷ lệ vượt qua cao hơn Claude Haiku 4.5 trên cả 4 benchmark lập trình cốt lõi, và dẫn trước 16 điểm trên SWE-Bench Pro với 51.2% so với 35.2%
- Trên benchmark suy luận đối kháng riêng biệt, mô hình đạt độ chính xác điều chỉnh 85.8% ở 186 câu hỏi thuộc 34 danh mục, nhưng các danh mục đối kháng cốt lõi như Einstellung trap vẫn dưới 50% độ chính xác, cho thấy còn dư địa để cải thiện
Ra mắt và triển khai
- MAI-Code-1-Flash là mô hình lập trình mới của Microsoft được tạo ra để hỗ trợ lập trình viên hằng ngày một cách nhanh và hiệu quả
- Microsoft xây dựng mô hình này từ đầu đến cuối và sử dụng dữ liệu sạch, được cấp phép phù hợp
- Mô hình đang được triển khai cho người dùng cá nhân GitHub Copilot trên VS Code, có thể dùng dưới trình chọn mô hình và Auto picker mặc định
- Không cần cấu hình thêm; khi quá trình triển khai đến lượt, GitHub Copilot sẽ định tuyến tác vụ sang MAI-Code-1-Flash thông qua Auto picker hoặc hiển thị trực tiếp trong trình chọn mô hình
- Microsoft sẽ nhận phản hồi qua GitHub Community
Thiết kế xoay quanh quy trình làm việc của lập trình viên
- MAI-Code-1-Flash không chỉ được tối ưu cho benchmark mà được xây dựng với trọng tâm là các quy trình làm việc production mà lập trình viên sử dụng mỗi ngày
- Mô hình được huấn luyện trực tiếp bằng GitHub Copilot harness dùng trong môi trường production để học cách xử lý các công cụ và hệ thống xung quanh trong các tác vụ lập trình kiểu agent
- Trong quá trình huấn luyện, các checkpoint được đánh giá bằng các tác vụ kỹ thuật phần mềm cốt lõi, hỏi đáp trên kho mã, refactor và các tác vụ dựa trên telemetry được điều chỉnh từ cách dùng GitHub Copilot thực tế
- Mục tiêu thiết kế là căn chỉnh môi trường huấn luyện, đánh giá và production để những cải thiện offline có thể chuyển thành chất lượng thực tế cho lập trình viên
Hiệu quả token và cách phản hồi
- Mô hình học cách điều khiển độ dài lời giải thích ứng để điều chỉnh độ sâu phản hồi theo độ khó của tác vụ
- Với yêu cầu đơn giản, mô hình trả lời ngắn gọn; với bài toán cần phân tích sâu hơn hoặc thay đổi mã rộng hơn, mô hình dùng nhiều ngân sách suy luận hơn
- Nhờ đó, lập trình viên có thể bắt đầu thấy đầu ra hữu ích nhanh hơn
- MAI-Code-1-Flash giải được bài toán khó hơn với lượng token ít hơn tới 60%, hướng tới giảm độ trễ, tiết kiệm chi phí, cải thiện lợi nhuận trên mỗi token và mang lại quy trình làm việc hội thoại mượt hơn
Kết quả benchmark lập trình
- Microsoft đã đánh giá MAI-Code-1-Flash và Claude Haiku 4.5 trên cùng một harness production ở SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual và Terminal Bench 2
- Việc đánh giá đo tỷ lệ thành công của tác vụ và số token lời giải trung bình cần thiết để hoàn thành từng tác vụ
- MAI-Code-1-Flash ghi nhận tỷ lệ vượt qua cao hơn Claude Haiku 4.5 trên cả 4 benchmark lập trình cốt lõi được thử nghiệm
- Trên các tác vụ thực tế đa dạng của SWE-Bench Pro, mô hình dẫn trước 16 điểm với 51.2% so với 35.2%
- Trên SWE-Bench Verified, mô hình giải được bài toán khó hơn với lượng token ít hơn tới 60%, cho thấy độ chính xác và hiệu quả có thể cùng được cải thiện
Khả năng làm theo chỉ dẫn, suy luận và giới hạn
- MAI-Code-1-Flash vượt Claude Haiku 4.5 trên mọi benchmark trong bảng, với khoảng cách lớn nhất là +28.9 ở khả năng làm theo chỉ dẫn chính xác trên IF Bench
- Trên đánh giá dựa trên rubric của Advanced IF, khoảng cách hẹp nhất là +14.5
- Khả năng làm theo chỉ dẫn mạnh cũng chuyển thành hiệu quả khi sử dụng công cụ kiểu agent
- Mô hình cũng vượt Claude Haiku 4.5 ở các năng lực suy luận cốt lõi trong toán học, khoa học và viết mã cho tạo sinh thị giác
- Benchmark tiêu chuẩn có thể thưởng cho việc ghi nhớ không kém gì suy luận; một mô hình từng gặp bài toán Monty Hall có thể trả lời đúng nhưng vẫn thất bại nếu thay đổi phần thưởng phía sau cánh cửa
- Microsoft đã tạo một benchmark gồm 186 câu hỏi thuộc 34 danh mục, tập trung vào các bẫy đối kháng như inverted classics, impossible tasks và underdetermined scenarios
- Trên benchmark đối kháng này, MAI-Code-1-Flash nhìn chung vượt Claude Haiku 4.5 và đạt độ chính xác điều chỉnh 85.8%
- Mô hình thể hiện đặc biệt mạnh ở suy luận, làm theo chỉ dẫn và nhận biết bài toán bất khả thi, nhưng các danh mục đối kháng cốt lõi như Einstellung trap vẫn dưới 50% độ chính xác, cho thấy vẫn còn chỗ để cải thiện
1 bình luận
Ý kiến trên Hacker News
Theo model card, đây là mô hình 137B tham số
Hiệu năng trông không quá ấn tượng: MAI-Code-1-Flash (137B-A5B) đạt 51% trên SWE-bench pro, còn Qwen3.6-35B-A3B đạt 49,5% trên SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Có so sánh với Claude Haiku, nhưng Haiku không phải mô hình tốt, thậm chí còn kém hơn các mô hình mở nhỏ có thể chạy cục bộ hoặc qua API với chi phí chỉ khoảng 10%
Tôi từng thắc mắc vì sao Microsoft lại trì hoãn lâu như vậy trong việc đưa mô hình do họ tự làm vào Copilot, và giờ nghĩ có thể đó là một phần trong thỏa thuận với OpenAI
Khởi đầu như vậy là tốt và cạnh tranh thì đáng hoan nghênh, nhưng tôi hầu như chưa bao giờ dùng các mô hình cloud nhỏ như Haiku 4.5 để viết code
Chúng dễ thương đấy, nhưng trong lập trình nghiêm túc thì thường chỉ làm phí thời gian đắt đỏ của tôi, và cũng không đủ để khiến tôi quay lại GitHub Copilot, thứ tôi đã hủy hôm qua
GitHub Copilot cho đến hôm qua vẫn còn cạnh tranh về giá, nhưng giờ đã chuyển sang kiểu hạn ngạch theo token thuộc hàng đắt nhất trong mô hình tính phí theo yêu cầu. Muốn cười thì cứ xem subreddit đang bốc cháy: https://www.reddit.com/r/GithubCopilot
Sau đó tôi gần như chuyển sang DeepSeek Flash high miễn phí với chất lượng cỡ Sonnet+, và nếu cần mô hình thông minh hơn thì có lẽ sẽ đăng ký Codex $20/tháng để dùng GPT 5.5, thứ mà tôi xem là tốt nhất hiện có thể tiếp cận
Với cách này, tôi dùng Haiku khá thường xuyên cho các tác vụ thường nhật, và cả những công việc độ phức tạp cao kéo dài nhiều giờ cũng xử lý được với kết quả tốt hơn và chi phí thấp hơn rất nhiều. Bộ điều phối cha sắp xếp công việc hiệu quả, rà chất lượng và tích hợp ở những nơi cần thiết, thực hiện một khối lượng lao động khổng lồ trong một cửa sổ ngữ cảnh duy nhất
Tôi không dùng Haiku trực tiếp, nhưng nó thường chiếm 30–40% lượng token trong các tác vụ lớn. Cả thời gian hoàn thành lẫn chi phí đều được cải thiện, và Haiku giỏi hơn ở chỗ làm theo các chỉ thị và kế hoạch theo đúng nghĩa đen mà không “diễn giải lại”, trong khi các mô hình cỡ Opus lại hay liên tục nghi ngờ và hỏi ngược trong quá trình suy luận
Vì vậy Haiku không phải là lãng phí thời gian mà ngược lại tiết kiệm một lượng thời gian khổng lồ. Dù vậy, để đến được mức này tôi đã phải dành rất nhiều thời gian xây dựng trước hệ thống điều phối và liên tục cải tiến nó qua nhiều vòng. Điều thú vị là kinh nghiệm làm director rồi distinguished engineer đã cho tôi công cụ để vận hành việc này ổn định đến cùng, và luồng đa tác nhân với năng lực đa dạng thực ra không khác quá nhiều so với động lực trong một tổ chức kỹ sư 1.000 người
Qwen 3.6 27B tự host liên tục vượt cả hai trong việc phát hiện lỗi bảo mật, và đó là kết quả khá gây sốc. Tôi từng nghĩ Qwen sẽ ngang Haiku hoặc hơi kém một chút, và chắc chắn kém Sonnet
DeepSeek và MiMo làm tốt hơn Haiku và Sonnet rất nhiều, chi phí chỉ bằng một phần nhỏ nhưng lại gần với mức Opus/GPT 5.5
Trừ khi được dùng miễn phí hoặc nằm trong gói thuê bao mà bình thường bạn cũng không dùng hết, còn không thì gần như chẳng có lý do gì để dùng Haiku hay Sonnet
Kể cả Copilot có giảm giá 90% thì tôi cũng không nghĩ mình sẽ quay lại
Có rất nhiều mô hình cạnh tranh được với Haiku, thậm chí có những cái nhỏ và rẻ hơn nhiều như Qwen 3.6 35B-A3B. Mấy mô hình đó có thể chạy trên laptop nên không cần phải thuê từ Microsoft
Tôi bị sốc với hóa đơn Copilot mới, nhưng với những ai muốn ở lại trong hệ sinh thái thì đây vẫn có thể là một lựa chọn đáng dùng; còn với đa số thì có vô số lựa chọn tốt hơn
Chỉ cần ChatGPT premium thôi cũng đã ổn, dù thỉnh thoảng vẫn đụng giới hạn sử dụng định kỳ nhưng vẫn làm được hầu hết công việc
Thực sự có ai dùng những mô hình nhỏ này để lập trình không? Nếu có thì dùng như thế nào, khá tò mò
Thường thì tôi xử lý hết bằng Opus. Không biết có phải là dùng mô hình nặng hơn để lên kế hoạch/thiết kế/kiến trúc rồi giao các tác vụ có cấu trúc cho những mô hình nhỏ này hay không; tôi muốn nghe ý kiến của người đã thử cả hai và kiểm chứng rồi
Tiếc là hiện tại vẫn chưa thể so sánh được
Với Opus, có thể tin tưởng làm việc với cả codebase phức tạp để thiết kế, đề xuất kiến trúc và chỉnh sửa mã
Các mô hình nhỏ thì cho cảm giác là chúng chỉ đang “cố thử”. Với tác vụ nhỏ thì được, nhưng với tác vụ phức tạp thì khá thường xuyên khiến công việc còn nhiều hơn tự làm
Tôi mong điều đó khác đi, và 1~2 năm nữa có thể sẽ khác
Trong claude code có opusplan, ở chế độ lập kế hoạch thì dùng Opus rồi khi thực thi thì chuyển sang Sonnet
https://code.claude.com/docs/en/model-config#opusplan-model-...
Sửa lại: cũng có thể cấu hình theo kiểu lập kế hoạch bằng Sonnet, thực thi bằng Haiku, hoặc bất kỳ tổ hợp nào khác bạn muốn
https://code.claude.com/docs/en/model-config#control-the-mod...
Với tính năng đơn giản thì tôi không lập kế hoạch hoàn chỉnh. Tôi viết một ít mã rồi dùng một prompt ngắn một dòng để nói cho mô hình biết cần làm gì. Thỉnh thoảng tôi chèn chú thích tạm vào mã để định hướng
Thường thì nếu thay đổi mã chỉ nằm trong một file hoặc một package thì Haiku vẫn theo được yêu cầu và đủ để không phá quá mức. Theo thời gian tôi cũng rèn được kỹ năng định hướng. Trong vài tháng dùng GitHub Copilot, có lúc tôi còn phải cuống cuồng tiêu nốt số credit còn dư vào cuối tháng
Chỉ riêng việc tự hoàn thành mã bằng AI đôi khi cũng đã khá ổn. Viết chú thích tạm mô tả điều đoạn mã cần làm rồi chỉ cần Tab-Tab-Tab là có khi cả hàm được hoàn thành luôn
Mọi người có xu hướng chọn mô hình cao cấp hơn vì nghĩ nó sẽ ít làm hỏng hơn, nhưng nếu bạn thực sự hiểu mã thì làm việc tương tác với mô hình thấp lại dễ hơn
Đặt cuộc chat chính là Opus làm “điều phối viên”, xác định mục tiêu rồi để nó liên tục đẩy tiến trình cho đến khi đạt được mục tiêu bằng cách lần lượt dùng các tác nhân phụ sau
Lặp lại: tiếp tục cho đến khi cạn ngân sách token của phiên điều phối viên. Có thể đặt thành giá trị như 1M
Logic cơ bản là giữ mỗi bước ở kích thước có thể quản lý để tăng tỷ lệ tuân thủ chỉ thị và giảm chi phí. Vì token được cache cũng tốn tiền. Token prompt rẻ hơn token sinh ra rất nhiều, nên càng để Opus chủ yếu làm phần rà soát thay vì trực tiếp dẫn dắt thì càng tiết kiệm được nhiều chi phí
Bước tự cải thiện rất đắt nhưng hiệu quả cải thiện sẽ tích lũy. Nếu bạn định chạy các công việc kéo dài vài ngày hay vài tuần thì không làm bước này mới là thứ tốn hơn nhiều
Sửa lại: tôi làm vậy cả với mô hình Anthropic trong Claude Code lẫn với các mô hình dòng Qwen cho nhu cầu dùng offline
Mô hình này có tỷ lệ ảo giác thấp, nên rất hợp cho tác vụ khám phá, và có vẻ mô hình ở đây cũng sẽ phù hợp nhất với kiểu dùng tương tự. Nhiều tác vụ sẽ khởi chạy vài tác nhân khám phá trước khi lập kế hoạch hoặc sửa đổi, rồi sau đó chỉ kết thúc bằng vài lần gọi công cụ nên lượng token sử dụng cũng lớn
Họ đang so mô hình này với Haiku 4.5
Không phải Opus hay Sonnet, mà là Haiku, mô hình nhỏ nhất của Anthropic, và còn là bản từ 3 phiên bản trước
Tại sao ai cũng cứ tái triển khai cuộn cửa sổ kiểu lộn xộn thế này nhỉ?
Benchmark vẫn thấp thế này mà lại được marketing như thể mô hình mang tính cách mạng, thật quá kỳ lạ
Nếu bảo năng lực lập trình thấp cũng không thành vấn đề, thì phải nhìn cùng với việc tăng giá token và thiết lập mô hình “đa dụng”
Tại sao không bán nó như một tác nhân toán học? Tại sao tôi phải tự cấu hình 4 tác nhân để chúng kiểm tra công việc của nhau?
Với 5B tham số mà đạt mức điểm đó thì khá tốt, và cho đến không lâu trước đây còn gần như khó tin
Mô hình nhỏ sẽ ngày càng tốt hơn, và tôi nghĩ các mô hình đỉnh cao trên cloud cũng sẽ nhỏ dần đi
Đây là thêm một lý do vì sao việc mở rộng hạ tầng quy mô lớn hiện nay sẽ có cảm giác giống đường sắt
Bài blog giới thiệu có nhiều thông tin hơn hẳn
https://microsoft.ai/news/introducingmai-code-1-flash/
Và cũng có model card
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Có vẻ phần active 5B trong tiêu đề đến từ một thông báo rộng hơn về 7 mô hình MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Cần nhớ lại ngay từ đầu Haiku vốn là mô hình dùng để làm gì
Gần đây Anthropic không dồn nhiều sức cho việc marketing Haiku
Nếu cần mô hình nhẹ thì dùng Sonnet. Với gói Max thì gần như rẻ như cho và cũng khá nhanh. Trong các tác vụ lập trình thông thường, khó thấy Haiku có chỗ đứng rõ ràng
Có vẻ Haiku là mô hình dùng khi cần tóm tắt/phân loại ở quy mô lớn
Việc Microsoft lấy Haiku làm mốc so sánh là một tiêu chuẩn thấp
Mong là website được kiểm thử trên Safari
Người dùng iOS gần như ai cũng mặc định dùng Safari, và trải nghiệm trên desktop cũng khá giống mobile nên kiểm thử cũng dễ
Hiệu ứng cuộn đó trên môi trường của tôi bị giật lag hoàn toàn. Tôi hiểu là trên Chrome/Edge thì nó chạy ổn
Nếu nó ra mắt chỉ từ hôm qua thôi thì có lẽ đã tránh được việc tính năng tự động chọn mô hình của Copilot dùng mô hình đắt gấp 9 lần rồi lặng lẽ đốt sạch hạn mức tháng chỉ trong một buổi chiều