2 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • MAI-Code-1-Flash là mô hình lập trình mới của Microsoft, hướng tới hỗ trợ viết mã nhanh và hiệu quả trong quy trình làm việc hằng ngày của lập trình viên, và đang được triển khai cho người dùng cá nhân GitHub Copilot trên VS Code
  • Microsoft đã huấn luyện trực tiếp mô hình này trong GitHub Copilot harness để nó được thiết kế tương tác tốt hơn với các công cụ và hệ thống trong môi trường phát triển thực tế
  • Với điều khiển độ dài phản hồi thích ứng, mô hình trả lời ngắn gọn cho các yêu cầu đơn giản và dùng nhiều ngân sách suy luận hơn cho tác vụ phức tạp, giải được bài toán khó hơn với lượng token ít hơn tới 60% {p:60}
  • Trong đánh giá harness môi trường production của Microsoft, mô hình cho tỷ lệ vượt qua cao hơn Claude Haiku 4.5 trên cả 4 benchmark lập trình cốt lõi, và dẫn trước 16 điểm trên SWE-Bench Pro với 51.2% so với 35.2%
  • Trên benchmark suy luận đối kháng riêng biệt, mô hình đạt độ chính xác điều chỉnh 85.8% ở 186 câu hỏi thuộc 34 danh mục, nhưng các danh mục đối kháng cốt lõi như Einstellung trap vẫn dưới 50% độ chính xác, cho thấy còn dư địa để cải thiện

Ra mắt và triển khai

  • MAI-Code-1-Flash là mô hình lập trình mới của Microsoft được tạo ra để hỗ trợ lập trình viên hằng ngày một cách nhanh và hiệu quả
  • Microsoft xây dựng mô hình này từ đầu đến cuối và sử dụng dữ liệu sạch, được cấp phép phù hợp
  • Mô hình đang được triển khai cho người dùng cá nhân GitHub Copilot trên VS Code, có thể dùng dưới trình chọn mô hình và Auto picker mặc định
  • Không cần cấu hình thêm; khi quá trình triển khai đến lượt, GitHub Copilot sẽ định tuyến tác vụ sang MAI-Code-1-Flash thông qua Auto picker hoặc hiển thị trực tiếp trong trình chọn mô hình
  • Microsoft sẽ nhận phản hồi qua GitHub Community

Thiết kế xoay quanh quy trình làm việc của lập trình viên

  • MAI-Code-1-Flash không chỉ được tối ưu cho benchmark mà được xây dựng với trọng tâm là các quy trình làm việc production mà lập trình viên sử dụng mỗi ngày
  • Mô hình được huấn luyện trực tiếp bằng GitHub Copilot harness dùng trong môi trường production để học cách xử lý các công cụ và hệ thống xung quanh trong các tác vụ lập trình kiểu agent
  • Trong quá trình huấn luyện, các checkpoint được đánh giá bằng các tác vụ kỹ thuật phần mềm cốt lõi, hỏi đáp trên kho mã, refactor và các tác vụ dựa trên telemetry được điều chỉnh từ cách dùng GitHub Copilot thực tế
  • Mục tiêu thiết kế là căn chỉnh môi trường huấn luyện, đánh giá và production để những cải thiện offline có thể chuyển thành chất lượng thực tế cho lập trình viên

Hiệu quả token và cách phản hồi

  • Mô hình học cách điều khiển độ dài lời giải thích ứng để điều chỉnh độ sâu phản hồi theo độ khó của tác vụ
  • Với yêu cầu đơn giản, mô hình trả lời ngắn gọn; với bài toán cần phân tích sâu hơn hoặc thay đổi mã rộng hơn, mô hình dùng nhiều ngân sách suy luận hơn
  • Nhờ đó, lập trình viên có thể bắt đầu thấy đầu ra hữu ích nhanh hơn
  • MAI-Code-1-Flash giải được bài toán khó hơn với lượng token ít hơn tới 60%, hướng tới giảm độ trễ, tiết kiệm chi phí, cải thiện lợi nhuận trên mỗi token và mang lại quy trình làm việc hội thoại mượt hơn

Kết quả benchmark lập trình

  • Microsoft đã đánh giá MAI-Code-1-Flash và Claude Haiku 4.5 trên cùng một harness production ở SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual và Terminal Bench 2
  • Việc đánh giá đo tỷ lệ thành công của tác vụ và số token lời giải trung bình cần thiết để hoàn thành từng tác vụ
  • MAI-Code-1-Flash ghi nhận tỷ lệ vượt qua cao hơn Claude Haiku 4.5 trên cả 4 benchmark lập trình cốt lõi được thử nghiệm
  • Trên các tác vụ thực tế đa dạng của SWE-Bench Pro, mô hình dẫn trước 16 điểm với 51.2% so với 35.2%
  • Trên SWE-Bench Verified, mô hình giải được bài toán khó hơn với lượng token ít hơn tới 60%, cho thấy độ chính xác và hiệu quả có thể cùng được cải thiện

Khả năng làm theo chỉ dẫn, suy luận và giới hạn

  • MAI-Code-1-Flash vượt Claude Haiku 4.5 trên mọi benchmark trong bảng, với khoảng cách lớn nhất là +28.9 ở khả năng làm theo chỉ dẫn chính xác trên IF Bench
  • Trên đánh giá dựa trên rubric của Advanced IF, khoảng cách hẹp nhất là +14.5
  • Khả năng làm theo chỉ dẫn mạnh cũng chuyển thành hiệu quả khi sử dụng công cụ kiểu agent
  • Mô hình cũng vượt Claude Haiku 4.5 ở các năng lực suy luận cốt lõi trong toán học, khoa học và viết mã cho tạo sinh thị giác
  • Benchmark tiêu chuẩn có thể thưởng cho việc ghi nhớ không kém gì suy luận; một mô hình từng gặp bài toán Monty Hall có thể trả lời đúng nhưng vẫn thất bại nếu thay đổi phần thưởng phía sau cánh cửa
  • Microsoft đã tạo một benchmark gồm 186 câu hỏi thuộc 34 danh mục, tập trung vào các bẫy đối kháng như inverted classics, impossible tasks và underdetermined scenarios
  • Trên benchmark đối kháng này, MAI-Code-1-Flash nhìn chung vượt Claude Haiku 4.5 và đạt độ chính xác điều chỉnh 85.8%
  • Mô hình thể hiện đặc biệt mạnh ở suy luận, làm theo chỉ dẫn và nhận biết bài toán bất khả thi, nhưng các danh mục đối kháng cốt lõi như Einstellung trap vẫn dưới 50% độ chính xác, cho thấy vẫn còn chỗ để cải thiện

1 bình luận

 
Ý kiến trên Hacker News
  • Theo model card, đây là mô hình 137B tham số
    Hiệu năng trông không quá ấn tượng: MAI-Code-1-Flash (137B-A5B) đạt 51% trên SWE-bench pro, còn Qwen3.6-35B-A3B đạt 49,5% trên SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Có so sánh với Claude Haiku, nhưng Haiku không phải mô hình tốt, thậm chí còn kém hơn các mô hình mở nhỏ có thể chạy cục bộ hoặc qua API với chi phí chỉ khoảng 10%

    • Có vẻ điểm chính là mô hình này là một mô hình nhỏ cạnh tranh với Haiku, và hy vọng tiếp theo sẽ có đối thủ cấp "Sonnet", rồi sau đó là cấp Opus
      Tôi từng thắc mắc vì sao Microsoft lại trì hoãn lâu như vậy trong việc đưa mô hình do họ tự làm vào Copilot, và giờ nghĩ có thể đó là một phần trong thỏa thuận với OpenAI
    • Nếu là 137B-A5B, thì đây không phải mô hình 5B tham số như tiêu đề trước đó ám chỉ
  • Khởi đầu như vậy là tốt và cạnh tranh thì đáng hoan nghênh, nhưng tôi hầu như chưa bao giờ dùng các mô hình cloud nhỏ như Haiku 4.5 để viết code
    Chúng dễ thương đấy, nhưng trong lập trình nghiêm túc thì thường chỉ làm phí thời gian đắt đỏ của tôi, và cũng không đủ để khiến tôi quay lại GitHub Copilot, thứ tôi đã hủy hôm qua
    GitHub Copilot cho đến hôm qua vẫn còn cạnh tranh về giá, nhưng giờ đã chuyển sang kiểu hạn ngạch theo token thuộc hàng đắt nhất trong mô hình tính phí theo yêu cầu. Muốn cười thì cứ xem subreddit đang bốc cháy: https://www.reddit.com/r/GithubCopilot
    Sau đó tôi gần như chuyển sang DeepSeek Flash high miễn phí với chất lượng cỡ Sonnet+, và nếu cần mô hình thông minh hơn thì có lẽ sẽ đăng ký Codex $20/tháng để dùng GPT 5.5, thứ mà tôi xem là tốt nhất hiện có thể tiếp cận

    • Tổ chức công việc bằng mô hình lớn thành một đồ thị công việc được sắp xếp topo, rồi gán các mô hình nhỏ cho từng tác vụ tùy theo độ phức tạp, sau đó để mô hình lớn đánh giá và vá những chỗ cần thiết
      Với cách này, tôi dùng Haiku khá thường xuyên cho các tác vụ thường nhật, và cả những công việc độ phức tạp cao kéo dài nhiều giờ cũng xử lý được với kết quả tốt hơn và chi phí thấp hơn rất nhiều. Bộ điều phối cha sắp xếp công việc hiệu quả, rà chất lượng và tích hợp ở những nơi cần thiết, thực hiện một khối lượng lao động khổng lồ trong một cửa sổ ngữ cảnh duy nhất
      Tôi không dùng Haiku trực tiếp, nhưng nó thường chiếm 30–40% lượng token trong các tác vụ lớn. Cả thời gian hoàn thành lẫn chi phí đều được cải thiện, và Haiku giỏi hơn ở chỗ làm theo các chỉ thị và kế hoạch theo đúng nghĩa đen mà không “diễn giải lại”, trong khi các mô hình cỡ Opus lại hay liên tục nghi ngờ và hỏi ngược trong quá trình suy luận
      Vì vậy Haiku không phải là lãng phí thời gian mà ngược lại tiết kiệm một lượng thời gian khổng lồ. Dù vậy, để đến được mức này tôi đã phải dành rất nhiều thời gian xây dựng trước hệ thống điều phối và liên tục cải tiến nó qua nhiều vòng. Điều thú vị là kinh nghiệm làm director rồi distinguished engineer đã cho tôi công cụ để vận hành việc này ổn định đến cùng, và luồng đa tác nhân với năng lực đa dạng thực ra không khác quá nhiều so với động lực trong một tổ chức kỹ sư 1.000 người
    • Khi benchmark nhiều mô hình cho mục đích tìm các lỗi bảo mật khó, tôi đã nhanh chóng mất niềm tin vào Haiku và Sonnet
      Qwen 3.6 27B tự host liên tục vượt cả hai trong việc phát hiện lỗi bảo mật, và đó là kết quả khá gây sốc. Tôi từng nghĩ Qwen sẽ ngang Haiku hoặc hơi kém một chút, và chắc chắn kém Sonnet
      DeepSeek và MiMo làm tốt hơn Haiku và Sonnet rất nhiều, chi phí chỉ bằng một phần nhỏ nhưng lại gần với mức Opus/GPT 5.5
      Trừ khi được dùng miễn phí hoặc nằm trong gói thuê bao mà bình thường bạn cũng không dùng hết, còn không thì gần như chẳng có lý do gì để dùng Haiku hay Sonnet
    • Gần như cùng một tình huống. DeepSeek hầu như cũng không từ chối, và nhờ hệ giá trị kiểu Trung Quốc nên ma sát thấp hơn nhiều trong các việc như dịch ngược, tìm file có bản quyền, hay làm việc với mã nguồn có xuất xứ đáng ngờ
      Kể cả Copilot có giảm giá 90% thì tôi cũng không nghĩ mình sẽ quay lại
    • Cái này có vẻ nằm cùng nhóm với Qwen 3.6, Gemma 4, Nemotron 3 Super
      Có rất nhiều mô hình cạnh tranh được với Haiku, thậm chí có những cái nhỏ và rẻ hơn nhiều như Qwen 3.6 35B-A3B. Mấy mô hình đó có thể chạy trên laptop nên không cần phải thuê từ Microsoft
      Tôi bị sốc với hóa đơn Copilot mới, nhưng với những ai muốn ở lại trong hệ sinh thái thì đây vẫn có thể là một lựa chọn đáng dùng; còn với đa số thì có vô số lựa chọn tốt hơn
    • Gói ChatGPT $20/tháng có kèm Codex đúng là rất đáng tiền
      Chỉ cần ChatGPT premium thôi cũng đã ổn, dù thỉnh thoảng vẫn đụng giới hạn sử dụng định kỳ nhưng vẫn làm được hầu hết công việc
  • Thực sự có ai dùng những mô hình nhỏ này để lập trình không? Nếu có thì dùng như thế nào, khá tò mò
    Thường thì tôi xử lý hết bằng Opus. Không biết có phải là dùng mô hình nặng hơn để lên kế hoạch/thiết kế/kiến trúc rồi giao các tác vụ có cấu trúc cho những mô hình nhỏ này hay không; tôi muốn nghe ý kiến của người đã thử cả hai và kiểm chứng rồi

    • Ở chỗ làm tôi dùng Opus 4.x, còn ở nhà thì dùng những mô hình “nhỏ” kiểu này (20~80B, hoạt động 3~4B)
      Tiếc là hiện tại vẫn chưa thể so sánh được
      Với Opus, có thể tin tưởng làm việc với cả codebase phức tạp để thiết kế, đề xuất kiến trúc và chỉnh sửa mã
      Các mô hình nhỏ thì cho cảm giác là chúng chỉ đang “cố thử”. Với tác vụ nhỏ thì được, nhưng với tác vụ phức tạp thì khá thường xuyên khiến công việc còn nhiều hơn tự làm
      Tôi mong điều đó khác đi, và 1~2 năm nữa có thể sẽ khác
    • Dùng mô hình nặng hơn để lên kế hoạch/thiết kế/kiến trúc rồi giao việc có cấu trúc cho mô hình nhỏ là cách làm vẫn luôn như vậy
      Trong claude code có opusplan, ở chế độ lập kế hoạch thì dùng Opus rồi khi thực thi thì chuyển sang Sonnet
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Sửa lại: cũng có thể cấu hình theo kiểu lập kế hoạch bằng Sonnet, thực thi bằng Haiku, hoặc bất kỳ tổ hợp nào khác bạn muốn
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • Haiku khá rẻ mà cũng không phá hỏng mọi thứ quá nặng, nên trước đây tôi dùng nó cho lập trình tương tác trên dự án hiện có trong gói Copilot cũ
      Với tính năng đơn giản thì tôi không lập kế hoạch hoàn chỉnh. Tôi viết một ít mã rồi dùng một prompt ngắn một dòng để nói cho mô hình biết cần làm gì. Thỉnh thoảng tôi chèn chú thích tạm vào mã để định hướng
      Thường thì nếu thay đổi mã chỉ nằm trong một file hoặc một package thì Haiku vẫn theo được yêu cầu và đủ để không phá quá mức. Theo thời gian tôi cũng rèn được kỹ năng định hướng. Trong vài tháng dùng GitHub Copilot, có lúc tôi còn phải cuống cuồng tiêu nốt số credit còn dư vào cuối tháng
      Chỉ riêng việc tự hoàn thành mã bằng AI đôi khi cũng đã khá ổn. Viết chú thích tạm mô tả điều đoạn mã cần làm rồi chỉ cần Tab-Tab-Tab là có khi cả hàm được hoàn thành luôn
      Mọi người có xu hướng chọn mô hình cao cấp hơn vì nghĩ nó sẽ ít làm hỏng hơn, nhưng nếu bạn thực sự hiểu mã thì làm việc tương tác với mô hình thấp lại dễ hơn
    • Tách phần thực thi thay đổi thành một trách nhiệm riêng
      Đặt cuộc chat chính là Opus làm “điều phối viên”, xác định mục tiêu rồi để nó liên tục đẩy tiến trình cho đến khi đạt được mục tiêu bằng cách lần lượt dùng các tác nhân phụ sau
      1. Thực thi bước (Sonnet): làm việc trong 30 phút/100k token theo chỉ thị của điều phối viên
      2. Rà soát (Opus): kiểm tra kỹ lỗi và mức độ tuân thủ chỉ thị trong công việc của bước trước, sửa lại, rồi ghi vào file các cơ hội cải thiện cấu hình tác nhân+công cụ để giảm lỗi và giảm dùng token
      3. Tự cải thiện (Opus): triển khai các hạng mục tự cải thiện có tác động lớn mà không cần người dùng can thiệp
        Lặp lại: tiếp tục cho đến khi cạn ngân sách token của phiên điều phối viên. Có thể đặt thành giá trị như 1M
        Logic cơ bản là giữ mỗi bước ở kích thước có thể quản lý để tăng tỷ lệ tuân thủ chỉ thị và giảm chi phí. Vì token được cache cũng tốn tiền. Token prompt rẻ hơn token sinh ra rất nhiều, nên càng để Opus chủ yếu làm phần rà soát thay vì trực tiếp dẫn dắt thì càng tiết kiệm được nhiều chi phí
        Bước tự cải thiện rất đắt nhưng hiệu quả cải thiện sẽ tích lũy. Nếu bạn định chạy các công việc kéo dài vài ngày hay vài tuần thì không làm bước này mới là thứ tốn hơn nhiều
        Sửa lại: tôi làm vậy cả với mô hình Anthropic trong Claude Code lẫn với các mô hình dòng Qwen cho nhu cầu dùng offline
    • Bản thân Claude Code cũng khởi chạy nhiều tác nhân phụ bằng Haiku
      Mô hình này có tỷ lệ ảo giác thấp, nên rất hợp cho tác vụ khám phá, và có vẻ mô hình ở đây cũng sẽ phù hợp nhất với kiểu dùng tương tự. Nhiều tác vụ sẽ khởi chạy vài tác nhân khám phá trước khi lập kế hoạch hoặc sửa đổi, rồi sau đó chỉ kết thúc bằng vài lần gọi công cụ nên lượng token sử dụng cũng lớn
  • Họ đang so mô hình này với Haiku 4.5
    Không phải Opus hay Sonnet, mà là Haiku, mô hình nhỏ nhất của Anthropic, và còn là bản từ 3 phiên bản trước

    • 4.5 vẫn là mô hình Haiku mới nhất
  • Tại sao ai cũng cứ tái triển khai cuộn cửa sổ kiểu lộn xộn thế này nhỉ?

    • Chắc là làm bằng vibe coding. Tôi chặn bằng StopTheMadness
    • Vừa đập vào mắt là tôi đóng ngay
  • Benchmark vẫn thấp thế này mà lại được marketing như thể mô hình mang tính cách mạng, thật quá kỳ lạ
    Nếu bảo năng lực lập trình thấp cũng không thành vấn đề, thì phải nhìn cùng với việc tăng giá token và thiết lập mô hình “đa dụng”
    Tại sao không bán nó như một tác nhân toán học? Tại sao tôi phải tự cấu hình 4 tác nhân để chúng kiểm tra công việc của nhau?

    • Theo tôi hiểu thì khác với các mô hình khác, mô hình MAI vẫn chưa được fine-tune bằng các bộ dữ liệu tổng hợp được thiết kế đặc biệt để kéo điểm benchmark lên
    • Điểm mấu chốt là hiệu năng trên giá thành
      Với 5B tham số mà đạt mức điểm đó thì khá tốt, và cho đến không lâu trước đây còn gần như khó tin
      Mô hình nhỏ sẽ ngày càng tốt hơn, và tôi nghĩ các mô hình đỉnh cao trên cloud cũng sẽ nhỏ dần đi
      Đây là thêm một lý do vì sao việc mở rộng hạ tầng quy mô lớn hiện nay sẽ có cảm giác giống đường sắt
  • Bài blog giới thiệu có nhiều thông tin hơn hẳn
    https://microsoft.ai/news/introducingmai-code-1-flash/
    Và cũng có model card
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    Có vẻ phần active 5B trong tiêu đề đến từ một thông báo rộng hơn về 7 mô hình MAI
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Cần nhớ lại ngay từ đầu Haiku vốn là mô hình dùng để làm gì
    Gần đây Anthropic không dồn nhiều sức cho việc marketing Haiku
    Nếu cần mô hình nhẹ thì dùng Sonnet. Với gói Max thì gần như rẻ như cho và cũng khá nhanh. Trong các tác vụ lập trình thông thường, khó thấy Haiku có chỗ đứng rõ ràng
    Có vẻ Haiku là mô hình dùng khi cần tóm tắt/phân loại ở quy mô lớn
    Việc Microsoft lấy Haiku làm mốc so sánh là một tiêu chuẩn thấp

    • Câu “với gói Max thì gần như rẻ như cho” nghe là một nghịch lý buồn cười
  • Mong là website được kiểm thử trên Safari
    Người dùng iOS gần như ai cũng mặc định dùng Safari, và trải nghiệm trên desktop cũng khá giống mobile nên kiểm thử cũng dễ
    Hiệu ứng cuộn đó trên môi trường của tôi bị giật lag hoàn toàn. Tôi hiểu là trên Chrome/Edge thì nó chạy ổn

    • Trên Firefox+macOS cũng rõ ràng có kiểu chiếm quyền cuộn gì đó và cảm giác rất tệ
  • Nếu nó ra mắt chỉ từ hôm qua thôi thì có lẽ đã tránh được việc tính năng tự động chọn mô hình của Copilot dùng mô hình đắt gấp 9 lần rồi lặng lẽ đốt sạch hạn mức tháng chỉ trong một buổi chiều