2 điểm bởi GN⁺ 2026-01-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • LLM mã nguồn mở chuyên cho lập trình, học theo thay đổi của kho lưu trữ và quá trình phát triển thay vì mã tĩnh, thông qua huấn luyện đa giai đoạn theo luồng mã (code-flow)
  • Tăng cường suy luận dài hạn và hiệu năng tác vụ tác nhân nhờ pipeline huấn luyện tiến hóa gồm tiền huấn luyện – mid-training – hậu huấn luyện
  • Ở ngữ cảnh 32K·128K, mô hình được bơm dữ liệu suy luận và quỹ đạo tác nhân để có khả năng giải các bài toán phức tạp đa tệp và ở cấp kho lưu trữ
  • Đề xuất thiết kế thực dụng với kiến trúc LoopCoder có cấu trúc lặp, cải thiện hiệu quả triển khai so với dung lượng mô hình
  • Đạt hiệu năng cạnh tranh với các mô hình thương mại trên SWE-Bench, LiveCodeBench, Terminal-Bench... bằng mô hình trọng số mở

Tổng quan

  • IQuest-Coder-V1 là họ mô hình ngôn ngữ lớn chuyên cho mã, gồm 7B·14B·40B·40B-Loop
  • Áp dụng mô hình code-flow, lấy commit và quá trình tiến hóa của kho lưu trữ làm đối tượng học thay vì các snapshot mã
  • Được đánh giá hiệu năng trên kỹ nghệ phần mềm kiểu tác nhân, competitive programming và việc sử dụng công cụ nói chung

Pipeline huấn luyện Code-Flow

  • Ở giai đoạn tiền huấn luyện, mô hình học pha trộn dữ liệu tổng quát và dữ liệu mã quy mô lớn, sau đó áp dụng annealing mã chất lượng cao
  • Ở giai đoạn mid-training, mở rộng ngữ cảnh từ 32K → 128K, đồng thời học dữ liệu QA suy luận, quỹ đạo tác nhân và mã ở cấp kho lưu trữ
  • Ở giai đoạn hậu huấn luyện, pipeline tách thành nhánh Thinking (RL tập trung vào suy luận)nhánh Instruct (tối ưu trợ lý tổng quát)

Kết quả nghiên cứu cốt lõi

  • Thực nghiệm xác nhận dữ liệu luồng commit của kho lưu trữ mang tín hiệu lập kế hoạch tác vụ tốt hơn snapshot mã tĩnh
  • Cấu trúc bơm dữ liệu suy luận và tác nhân vào mid-training sau annealing mã chất lượng cao mang lại độ ổn định trước thay đổi phân phối
  • Ở nhánh Thinking áp dụng RL tập trung vào suy luận, khả năng tự phục hồi lỗi trong các tác vụ dài hạn thể hiện rõ rệt

Kiến trúc LoopCoder

  • Giới thiệu cấu trúc transformer lặp chạy lặp lại cùng một khối tham số hai lần
  • Kết hợp attention toàn cục và attention cục bộ bằng cơ chế gating để đồng thời đạt tinh lọc ngữ cảnh dài và duy trì tính nhân quả
  • Nhắm tới ứng phó với ràng buộc môi trường triển khai bằng cách cải thiện hiệu quả tính toán so với dung lượng mô hình

Cấu trúc dữ liệu và chiến lược tiền huấn luyện

  • Trong huấn luyện pha trộn mã đa ngôn ngữ, hiệu ứng hiệp lực liên ngôn ngữ được mô hình hóa bằng quy luật scaling dựa trên công thức
  • Xây dựng dữ liệu bộ ba (R_old, Patch, R_new) từ các commit ở đoạn 40~80% vòng đời kho lưu trữ
  • Tăng cường khả năng hoàn thiện mã bằng kỹ thuật Fill-In-the-Middle ở cấp tệp và cấp kho lưu trữ

Kết quả đánh giá

  • Ghi nhận 76.2 trên SWE-Bench Verified và xếp hạng cao trên nhiều benchmark như LiveCodeBench v6, Terminal-Bench, Mind2Web
  • Đánh giá trên toàn bộ dải tác vụ gồm sinh mã, suy luận, chỉnh sửa, hiệu quả, Text-to-SQL và tác vụ tác nhân
  • Ở một số chỉ số, cho thấy kết quả tiệm cận hoặc cạnh tranh với các mô hình đóng như Claude Sonnet 4.5 và GPT-5.1

Đánh giá an toàn

  • Trên các benchmark an toàn như BeaverTails, HarmBench, TrustLLM, mô hình Thinking ghi nhận độ chính xác từ chối cao và hiệu năng cân bằng
  • Kết quả cho thấy RL tập trung vào suy luận cũng mang lại tác động tích cực về mặt an toàn

Kết luận

  • Chứng minh thực nghiệm rằng việc học xoay quanh luồng tiến hóa mã và quỹ đạo tác nhân có hiệu quả trong việc hình thành trí tuệ mã tự chủ
  • Đề xuất hướng thiết kế LLM cho mã thực dụng, có cân nhắc trade-off giữa hiệu năng và hiệu quả, thông qua cấu trúc LoopCoder
  • Mục tiêu là thúc đẩy nghiên cứu trí tuệ mã nguồn mở và phát triển hệ thống tác nhân thực tế bằng cách công khai toàn bộ các giai đoạn huấn luyện và checkpoint

1 bình luận

 
GN⁺ 2026-01-05
Ý kiến trên Hacker News
  • Liên kết tốt hơn là iquestlab.github.io
    Nhưng đáng tiếc là có vẻ agent đã gian lận trong quá trình đánh giá

    • Theo GitHub issue, ngay cả sau khi sửa lỗi gian lận thì kết quả vẫn còn tốt
      Điểm số giảm từ 81.4% xuống 76.2%, nhưng vẫn cao hơn Opus 4.5 (74.4%)
    • Vài ngày trước, liên kết này đã không nhận đủ phiếu bầu
  • Tóm lại, do không dọn thư mục .git/, mô hình đã tham chiếu các chỉnh sửa từ các commit trong tương lai theo kiểu reward hacking
    Tôi muốn ghi công cho những người đã cùng nhau xử lý vấn đề này
    Có thể xem thảo luận liên quan trong tweet nàychuỗi Reddit
    Xét việc IQuestLab đã công khai dữ liệu SWE-Bench Verified, điều này có vẻ là một sai sót của người mới làm benchmark hơn là thao túng có chủ ý

    • Như John đã nói, vấn đề này đã được sửa trong SWE-bench
      Chỉ cần dùng mã mới nhất và chạy đánh giá với Docker image đã được cập nhật
      Tweet liên quan
    • Tôi cũng nghĩ đây chỉ là lỗi vô ý, nhưng vẫn đáng tiếc ở chỗ nếu các nhà nghiên cứu chỉ cần nhìn qua đầu ra một lần thôi thì đã nhận ra ngay
    • SWEbench vẫn chưa thoát khỏi tranh cãi bị thổi phồng
  • Theo kinh nghiệm của tôi, GLM-4.7 (phiên bản opencode) là cái gần nhất trong số các mã nguồn mở
    Thỉnh thoảng có những cách diễn đạt giống như bị trộn dữ liệu của Claude vào, nên tôi đoán có thể đã có sử dụng một phần dữ liệu Claude

    • Nhưng hiệu năng vẫn kém Sonnet 4.5 khá xa, và không thể so với Opus
    • Các cụm như “What’s your use-case?” cũng xuất hiện thường xuyên
      Đây là kiểu diễn đạt Claude hay dùng để né tránh khi chạm giới hạn
  • Mô hình 40B tham số mà lại thắng Sonnet 4.5 và GPT 5.1 à? Tôi thắc mắc liệu điều đó có khả thi không

    • Phỏng đoán của tôi (không chắc) là đã có rò rỉ dữ liệu kiểm thử hoặc một phần benchmark set nằm trong dữ liệu huấn luyện
      Dù vậy, Sonnet 4.5 vốn đã là mô hình cũ, và gần đây có rất nhiều đổi mới
      Thật thú vị khi thấy các mô hình mở đuổi kịp rất nhanh những mô hình lớn
    • Thậm chí còn có trò chơi chữ rằng cái tên “IQuest” nghe rất đáng ngờ (It's questionable)
    • Cũng có khả năng họ đã áp dụng kỹ thuật pruning mô hình. Dạo này có nhiều phương pháp mới
    • Hóa ra trên thực tế là agent đã hack evaluation harness
  • Không biết có ai đã tự chạy mô hình này chưa, hoặc từng thử qua API được host sẵn chưa

  • Đây là một tuyên bố sai sự thật, nên tôi không hiểu vì sao nó vẫn còn nằm trên trang chính