1 điểm bởi GN⁺ 2025-04-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • CoRT là một thuật toán cho phép mô hình AI lặp đi lặp lại việc xem xét phản hồi của chính mình và tạo ra các phương án thay thế để chọn câu trả lời tối ưu
  • Khi áp dụng cho mô hình Mistral 3.1 24B, hiệu năng được cải thiện đáng kể, đặc biệt trong các tác vụ lập trình
  • AI tạo phản hồi ban đầu, sau đó đánh giá các phương án thay thế qua nhiều "vòng suy nghĩ" để chọn phản hồi cuối cùng
  • Quá trình này bao gồm tự đánh giá, tạo phương án thay thế mang tính cạnh tranh, cải tiến lặp lại, độ sâu tư duy động
  • CoRT được cung cấp theo giấy phép MIT và hoan nghênh các đóng góp để cải thiện

CoRT (Chain of Recursive Thoughts) 🧠🔄

Tóm tắt

  • Giới thiệu CoRT, một thuật toán giúp AI tranh luận với chính mình để tìm ra câu trả lời tốt hơn
  • Mô hình AI lặp đi lặp lại việc xem xét phản hồi và tạo ra các phương án thay thế để chọn câu trả lời tối ưu
  • Khi áp dụng cho mô hình Mistral 3.1 24B, hiệu năng được cải thiện đáng kể, đặc biệt trong các tác vụ lập trình

Cách CoRT hoạt động

  • AI tạo phản hồi ban đầu
  • AI quyết định số lượng "vòng suy nghĩ" cần thiết
  • Trong mỗi vòng:
    • Tạo ra 3 phản hồi thay thế
    • Đánh giá tất cả các phản hồi
    • Chọn phản hồi tối ưu
  • Phản hồi cuối cùng trở thành người sống sót của trận battle royale AI này

Thành phần bí mật

  • Tự đánh giá
  • Tạo phương án thay thế mang tính cạnh tranh
  • Cải tiến lặp lại
  • Độ sâu tư duy động

Đóng góp

  • Nếu bạn tìm ra cách cải thiện, rất hoan nghênh PR

Giấy phép

  • Có thể tự do sử dụng theo giấy phép MIT

1 bình luận

 
GN⁺ 2025-04-30
Ý kiến trên Hacker News
  • Cho mô hình chat AI đưa ra câu trả lời cho một vấn đề, rồi yêu cầu nó viết một báo cáo giải thích vì sao câu trả lời đó đúng

    • Một mô hình AI thứ hai sẽ đánh giá báo cáo này và viết báo cáo chỉ ra những thông tin mà mô hình ban đầu chưa cung cấp hoặc các điểm thiếu nhất quán về mặt logic
    • Lặp lại quá trình này cho đến khi mô hình AI thứ hai hài lòng với phần giải thích của mô hình thứ nhất, hoặc mô hình thứ nhất đã thực hiện mọi thay đổi được yêu cầu
    • Cách này hơi phức tạp, nhưng khi thử thì cho kết quả khá tốt
  • Muốn thử một cuộc tranh luận kiểu “thượng viện” ở quy mô lớn hơn trong chế độ luôn bật

    • Thay vì phản hồi từng vấn đề riêng lẻ, cung cấp một danh sách công việc và để “thượng viện” giải quyết
    • Nghĩ rằng có thể thu được kết quả ấn tượng nhờ nhiều góc nhìn khác nhau và phân tích phản biện
    • Cần rất nhiều token, nhưng chi phí trên mỗi token đang giảm dần nên có tiềm năng
    • Cũng có khả năng thiết lập một máy chủ IRC dành riêng cho AI để bất kỳ ai cũng có thể kết nối mô hình của mình vào một không gian tranh luận chung
  • Với một chiến lược đơn giản, khi kết thúc lời nhắn thì yêu cầu: "hãy suy nghĩ một lần bằng thẻ suy nghĩ, tự phê bình một lần bằng thẻ phê bình, rồi suy nghĩ thêm một lần nữa bằng thẻ suy nghĩ trước khi trả lời"

    • Hoạt động tốt
    • Yêu cầu nó tìm ra 5 vấn đề lớn nhất của đề xuất cũng tỏ ra hiệu quả
  • Khác với điều đã hình dung khi đọc tiêu đề

    • Thiết lập các vai trò trợ lý, người kiểm tra chéo và giám khảo, rồi tiến hành hỏi đáp theo từng vai trò
    • Yêu cầu ChatGPT "hãy giải thích nếu XYZ là sự thật" và "hãy giải thích nếu XYZ không phải là sự thật" để tìm ra phía thuyết phục hơn
  • Đang thiết kế một trình chỉnh sửa đồ thị theo phong cách blueprint của Unreal Engine để nhiều tác tử thực hiện công việc bắt đầu từ đầu vào của người dùng

    • Mistral small 3.1 và gemma 3 cho cảm giác như những mô hình nửa đủ năng lực đầu tiên có thể chạy cục bộ
    • Nếu thử cho chạy Python trong một vòng lặp và chỉ thị nó khám phá thế giới, nó sẽ bắt đầu tải xuống và đọc tin tức v.v.
  • Tò mò liệu một nhóm tác tử AI có vận hành một nhóm scrum và tổ chức họp đứng mỗi vài giờ hay không

    • Tò mò liệu có tái tạo được bộ máy quan liêu của chính phủ theo cách các tác tử tranh luận chủ đề cả ngày để tìm ra ý kiến tốt nhất hay không
  • Một cách để khiến mô hình ML nảy ra ý tưởng mới là tiếp cận chéo với những ý tưởng đã từng thử rồi loại bỏ, trong khi vẫn giữ các ràng buộc nhất quán nhất định

  • Nếu không nhanh chóng chuyển toàn bộ GPU sang năng lượng xanh, Trái Đất sẽ nóng lên trong lúc AI tranh luận để tự tìm ra lời giải tối ưu

  • Có ví dụ dùng CoRT và ví dụ không dùng CoRT, mà ví dụ không dùng lại tốt hơn nhiều

    • Chọn ví dụ kỳ lạ thật
  • Cách tiếp cận này gợi nhớ đến các nhà sáng tạo nội dung trên YT

    • Họ viết kịch bản trò chơi như một đường đua để chạm đến điểm mục tiêu, rồi lặp lại cho đến khi tìm được lời giải nhanh nhất
    • Điều đó được gọi là machine learning hoặc reinforcement learning
    • Cách hiểu ngây ngô về AI nhìn chung cũng khá giống như vậy