3 điểm bởi kurthong 20 ngày trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Xin chào.

Tôi đã công khai một kho lưu trữ để thử nghiệm xem các LLM cục bộ nhỏ có thể trụ được với các tác vụ dài đến mức nào.

Gemento
https://github.com/hang-in/gemento

Dự án này không phải là một kiến trúc mô hình mới, không phải là một bài báo, và cũng không khẳng định rằng mô hình 4B có thể thay thế các frontier model.

Đúng hơn, nó gần với một bộ khung thử nghiệm để đo lường theo cách có thể tái lập rằng: “Nếu đưa một phần những thứ vốn được cho là phải nằm bên trong mô hình ra ngoài workflow, thì hiệu năng của mô hình nhỏ có phục hồi được phần nào không?”

Điểm khởi đầu là những vấn đề tôi liên tục gặp phải khi làm seCall và tunaFlow.

  • Tác vụ dài không thể sống sót qua nhiều phiên
  • Context trở nên đắt đỏ quá nhanh
  • Mô hình không tự phát hiện tốt lỗi của chính nó
  • Mô hình cục bộ nhỏ có giới hạn rất rõ trong suy luận một lần

Vì vậy, tôi bắt đầu từ một câu hỏi đơn giản.

Thay vì cứ tiếp tục kéo dài prompt context, điều gì sẽ xảy ra nếu đưa trí nhớ, trạng thái, xác minh, tính toán và điều khiển vòng lặp ra bên ngoài?

Trong Gemento, tôi chia điều này thành bốn trục.

  1. Tattoo
    Ngoại hóa bộ nhớ làm việc / trạng thái trung gian thành trạng thái JSON có cấu trúc

  2. Tools
    Ngoại hóa việc tính toán thành các công cụ dựa trên function calling

  3. Role
    Ngoại hóa việc tự kiểm chứng bằng cách tách vai trò Proposer / Critic / Judge

  4. Orchestrator
    Ngoại hóa điều kiện dừng và điều khiển lặp thành vòng lặp Python

Tên gọi được lấy từ phép ẩn dụ hình xăm, ảnh Polaroid và ghi chú trong phim Memento.

Cho đến nay, mô hình tôi dùng chủ yếu là Gemma 4 E4B, một mô hình cục bộ cấp effective 4B.

Hiện số mẫu vẫn còn nhỏ, và một số kết quả chưa có ý nghĩa thống kê. Vì vậy trong README tôi cũng phân biệt rõ supported / conditionally supported / inconclusive / rejected.

Một số kết quả đáng chú ý là như sau.

  • Vòng lặp nhiều bước rõ ràng tốt hơn suy luận một lần.
    Exp02: 50% → 94.4%
    Exp10: 1-loop 41.3% → 8-loop ABC 78.1%

  • Cách yêu cầu cùng một mô hình “hãy kiểm tra xem mình có sai không” gần như thất bại hoàn toàn.
    Exp03: phát hiện được 0/15 lỗi cài sẵn

  • Ngược lại, khi tách vai trò thì khả năng phát hiện lỗi cải thiện đáng kể.
    Exp035: phát hiện 12/15 lỗi, đạt 80%

  • Với tính toán toán học, hiệu quả của việc ngoại hóa sang công cụ là rất rõ ràng.
    Khi ép buộc tool call và error hint trong Exp08 / Exp08b, một số math task cụ thể đã phục hồi từ 0% lên 100%.

  • Với các tác vụ context dài, chunked ABC+Tattoo cho kết quả mạnh hơn hẳn so với dump đơn thuần.
    Ở điều kiện Exp09 Large 20K: Solo 0%, RAG 67%, ABC+Tattoo 100%
    Tuy vậy, tôi vẫn chưa kết luận rằng ABC+Tattoo nhìn chung tốt hơn RAG. H9b vẫn là inconclusive.

  • Cách đưa một mô hình mạnh hơn vào làm Judge lại thất bại.
    Trong Exp11, tôi chỉ thay Judge bằng Gemini 2.5 Flash, nhưng điều kiện mixed lại thấp hơn baseline all-Gemma.
    Cơ chế quan sát được nghiêng về hướng: “một Judge mạnh hơn không giúp quá trình tự khám phá của mô hình yếu hơn, mà có thể cản trở schema trạng thái trung gian và sự hội tụ kết luận.”

  • Ngược lại, việc thêm vai trò Extractor ở đầu vào cho tác động nhỏ nhưng theo hướng tích cực.
    Exp12: Δ +0.050
    Đặc biệt, có dấu hiệu phục hồi ở một số trường hợp catastrophic.

  • Trong khi đó, vai trò Reducer ở cuối pipeline lại cho kết quả tệ hơn.
    Exp13: Δ -0.053
    Trong quá trình “sắp xếp gọn gàng” câu trả lời cuối cùng, đã quan sát thấy abstraction loss khiến cấu trúc căn cứ bị nén lại và điểm số giảm xuống.

Vì vậy, cách diễn giải hiện tại của tôi là như sau.

Thay vì luôn bắt mô hình nhỏ phải bị một mô hình mạnh hơn phán xử, có thể việc đặt cùng một mô hình vào vị trí vai trò nào mới là điều quan trọng hơn.

Đặc biệt, việc thêm vai trò ở pre-stage tương đối an toàn, còn tóm tắt/chỉnh lý ở post-stage thì rủi ro.

Tôi cũng ghi rõ những điều mà dự án này hiện chưa khẳng định.

  • Không khẳng định mô hình 4B có thể thay thế mô hình lớn
  • Không khẳng định ABC+Tattoo luôn tốt hơn RAG
  • Không phải kiến trúc hay phương pháp huấn luyện mới
  • Không khẳng định đã hoàn tất kiểm định thống kê ở mức bài báo
  • Một phần related work vẫn chưa hoàn tất bibliographic verification

Hiện tại, nó gần với một “sổ tay thí nghiệm công khai” hơn.

Các thí nghiệm do một người tự làm rất dễ tạo ra ảo giác. Đặc biệt, với các thí nghiệm về cấu trúc kiểu này, tôi cho rằng kết quả có thể dao động rất dễ theo taskset, scorer, prompt và điều kiện loop.

Vì vậy tôi đã công khai nó trước khi thành một polished paper.

Những phản hồi tôi mong muốn đại khái là các hướng sau.

  • Có tái lập được trên các mô hình cục bộ khác hay không
  • taskset / scorer có bị lệch hay không
  • baseline RAG có đủ công bằng hay không
  • ABC+Tattoo có thực sự cho thấy các failure mode khác hay không
  • Nếu gắn thêm Search Tool / Graph Tool / Evidence Tool thì trục Tool có cho hiệu ứng rõ ràng hơn hay không

Thí nghiệm ứng viên tiếp theo là Exp14 Search Tool.

Nếu quan tâm, bạn có thể xem README hoặc phần docs/reference.

Mọi phản ví dụ, tái lập thất bại và phê bình đều được hoan nghênh.

Chưa có bình luận nào.

Chưa có bình luận nào.