- LLM mã nguồn mở chuyên cho lập trình, học theo thay đổi của kho lưu trữ và quá trình phát triển thay vì mã tĩnh, thông qua huấn luyện đa giai đoạn theo luồng mã (code-flow)
- Tăng cường suy luận dài hạn và hiệu năng tác vụ tác nhân nhờ pipeline huấn luyện tiến hóa gồm tiền huấn luyện – mid-training – hậu huấn luyện
- Ở ngữ cảnh 32K·128K, mô hình được bơm dữ liệu suy luận và quỹ đạo tác nhân để có khả năng giải các bài toán phức tạp đa tệp và ở cấp kho lưu trữ
- Đề xuất thiết kế thực dụng với kiến trúc LoopCoder có cấu trúc lặp, cải thiện hiệu quả triển khai so với dung lượng mô hình
- Đạt hiệu năng cạnh tranh với các mô hình thương mại trên SWE-Bench, LiveCodeBench, Terminal-Bench... bằng mô hình trọng số mở
Tổng quan
- IQuest-Coder-V1 là họ mô hình ngôn ngữ lớn chuyên cho mã, gồm 7B·14B·40B·40B-Loop
- Áp dụng mô hình code-flow, lấy commit và quá trình tiến hóa của kho lưu trữ làm đối tượng học thay vì các snapshot mã
- Được đánh giá hiệu năng trên kỹ nghệ phần mềm kiểu tác nhân, competitive programming và việc sử dụng công cụ nói chung
Pipeline huấn luyện Code-Flow
- Ở giai đoạn tiền huấn luyện, mô hình học pha trộn dữ liệu tổng quát và dữ liệu mã quy mô lớn, sau đó áp dụng annealing mã chất lượng cao
- Ở giai đoạn mid-training, mở rộng ngữ cảnh từ 32K → 128K, đồng thời học dữ liệu QA suy luận, quỹ đạo tác nhân và mã ở cấp kho lưu trữ
- Ở giai đoạn hậu huấn luyện, pipeline tách thành nhánh Thinking (RL tập trung vào suy luận) và nhánh Instruct (tối ưu trợ lý tổng quát)
Kết quả nghiên cứu cốt lõi
- Thực nghiệm xác nhận dữ liệu luồng commit của kho lưu trữ mang tín hiệu lập kế hoạch tác vụ tốt hơn snapshot mã tĩnh
- Cấu trúc bơm dữ liệu suy luận và tác nhân vào mid-training sau annealing mã chất lượng cao mang lại độ ổn định trước thay đổi phân phối
- Ở nhánh Thinking áp dụng RL tập trung vào suy luận, khả năng tự phục hồi lỗi trong các tác vụ dài hạn thể hiện rõ rệt
Kiến trúc LoopCoder
- Giới thiệu cấu trúc transformer lặp chạy lặp lại cùng một khối tham số hai lần
- Kết hợp attention toàn cục và attention cục bộ bằng cơ chế gating để đồng thời đạt tinh lọc ngữ cảnh dài và duy trì tính nhân quả
- Nhắm tới ứng phó với ràng buộc môi trường triển khai bằng cách cải thiện hiệu quả tính toán so với dung lượng mô hình
Cấu trúc dữ liệu và chiến lược tiền huấn luyện
- Trong huấn luyện pha trộn mã đa ngôn ngữ, hiệu ứng hiệp lực liên ngôn ngữ được mô hình hóa bằng quy luật scaling dựa trên công thức
- Xây dựng dữ liệu bộ ba (R_old, Patch, R_new) từ các commit ở đoạn 40~80% vòng đời kho lưu trữ
- Tăng cường khả năng hoàn thiện mã bằng kỹ thuật Fill-In-the-Middle ở cấp tệp và cấp kho lưu trữ
Kết quả đánh giá
- Ghi nhận 76.2 trên SWE-Bench Verified và xếp hạng cao trên nhiều benchmark như LiveCodeBench v6, Terminal-Bench, Mind2Web
- Đánh giá trên toàn bộ dải tác vụ gồm sinh mã, suy luận, chỉnh sửa, hiệu quả, Text-to-SQL và tác vụ tác nhân
- Ở một số chỉ số, cho thấy kết quả tiệm cận hoặc cạnh tranh với các mô hình đóng như Claude Sonnet 4.5 và GPT-5.1
Đánh giá an toàn
- Trên các benchmark an toàn như BeaverTails, HarmBench, TrustLLM, mô hình Thinking ghi nhận độ chính xác từ chối cao và hiệu năng cân bằng
- Kết quả cho thấy RL tập trung vào suy luận cũng mang lại tác động tích cực về mặt an toàn
Kết luận
- Chứng minh thực nghiệm rằng việc học xoay quanh luồng tiến hóa mã và quỹ đạo tác nhân có hiệu quả trong việc hình thành trí tuệ mã tự chủ
- Đề xuất hướng thiết kế LLM cho mã thực dụng, có cân nhắc trade-off giữa hiệu năng và hiệu quả, thông qua cấu trúc LoopCoder
- Mục tiêu là thúc đẩy nghiên cứu trí tuệ mã nguồn mở và phát triển hệ thống tác nhân thực tế bằng cách công khai toàn bộ các giai đoạn huấn luyện và checkpoint
1 bình luận
Ý kiến trên Hacker News
Liên kết tốt hơn là iquestlab.github.io
Nhưng đáng tiếc là có vẻ agent đã gian lận trong quá trình đánh giá
Điểm số giảm từ 81.4% xuống 76.2%, nhưng vẫn cao hơn Opus 4.5 (74.4%)
Tóm lại, do không dọn thư mục
.git/, mô hình đã tham chiếu các chỉnh sửa từ các commit trong tương lai theo kiểu reward hackingTôi muốn ghi công cho những người đã cùng nhau xử lý vấn đề này
Có thể xem thảo luận liên quan trong tweet này và chuỗi Reddit
Xét việc IQuestLab đã công khai dữ liệu SWE-Bench Verified, điều này có vẻ là một sai sót của người mới làm benchmark hơn là thao túng có chủ ý
Chỉ cần dùng mã mới nhất và chạy đánh giá với Docker image đã được cập nhật
Tweet liên quan
Theo kinh nghiệm của tôi, GLM-4.7 (phiên bản opencode) là cái gần nhất trong số các mã nguồn mở
Thỉnh thoảng có những cách diễn đạt giống như bị trộn dữ liệu của Claude vào, nên tôi đoán có thể đã có sử dụng một phần dữ liệu Claude
Đây là kiểu diễn đạt Claude hay dùng để né tránh khi chạm giới hạn
Mô hình 40B tham số mà lại thắng Sonnet 4.5 và GPT 5.1 à? Tôi thắc mắc liệu điều đó có khả thi không
Dù vậy, Sonnet 4.5 vốn đã là mô hình cũ, và gần đây có rất nhiều đổi mới
Thật thú vị khi thấy các mô hình mở đuổi kịp rất nhanh những mô hình lớn
Không biết có ai đã tự chạy mô hình này chưa, hoặc từng thử qua API được host sẵn chưa
Đây là một tuyên bố sai sự thật, nên tôi không hiểu vì sao nó vẫn còn nằm trên trang chính