62 điểm bởi GN⁺ 2025-08-25 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Tính đến năm 2025, việc tự tay xây dựng một coding agent là một trong những dự án tốt nhất mà một lập trình viên cá nhân có thể thử
  • Agent có thể hoạt động chỉ với 300 dòng code và một vòng lặp token của LLM, đồng thời mang lại cơ hội chuyển từ người tiêu dùng AI sang người sản xuất AI
  • Các thành phần cơ bản gồm những công cụ như đọc file, liệt kê file, chạy Bash, chỉnh sửa file, tìm kiếm code, qua đó hiện thực hóa các chức năng tự động hóa thực tế
  • Về lựa chọn mô hình, các mô hình agentic như Claude Sonnet, Kimi K2 là phù hợp; khi cần có thể nối thêm các mô hình oracle như GPT làm công cụ để thực hiện kiểm chứng ở mức cao hơn
  • Trên thực tế, các sản phẩm thương mại như Amp, Cursor, Claude Code, GitHub Copilot cũng có cấu trúc tương tự

Tổng quan workshop

  • Đây là workshop miễn phí do Geoffrey Huntley tổ chức, hướng dẫn theo hướng thực hành cách tự xây dựng coding agent và nguyên lý vận hành của nó
  • Workshop so sánh cấu trúc và nguyên lý với các trợ lý AI thương mại hiện có như Roo code, Cline, Amp, Cursor, Windsurf, OpenCode, đồng thời tạo cơ hội để tự mình hiện thực hóa
  • Thông qua trải nghiệm xây dựng, bạn có thể vượt ra khỏi vai trò người chỉ dùng AI để trở thành lập trình viên trực tiếp tạo công cụ tự động hóa bằng AI
  • Cấu trúc cốt lõi là tạo ra chức năng agent bằng cách dùng token của LLM theo cơ chế vòng lặp trong khoảng 300 dòng code
  • Các primitive của từng công cụ như đọc, liệt kê file, thực thi, chỉnh sửa, tìm kiếm code được bổ sung dần; ví dụ hoạt động thực tế và mã nguồn được công khai tại kho GitHub

Agent là gì

  • Gần đây, thuật ngữ "agent" được dùng rất rộng rãi, nhưng ý nghĩa thực chất và nguyên lý vận hành bên trong lại chưa rõ ràng
  • Khi rào cản để tạo agent ngày càng thấp, bạn có thể vượt khỏi vai trò người tiêu dùng AI để trở thành người sản xuất có thể dẫn dắt tự động hóa công việc
  • Tính đến năm 2025, giống như các khái niệm cơ sở dữ liệu cơ bản như Primary key, nguyên lý xây dựng agent đã trở thành kiến thức thiết yếu
  • Các công ty như Canva đã khuyến khích sử dụng AI ngay trong quy trình phỏng vấn, và năng lực tự động hóa bằng AI đang trở thành yếu tố cốt lõi trong tuyển dụng
  • Lý do tụt lại giờ đây không còn là vì AI, mà là vì không chủ động tự phát triển bản thân để học các công cụ mới

Nguyên lý cốt lõi của coding agent

  • Coding agent được cấu thành chỉ từ 300 dòng code và một vòng lặp token của LLM, thực hiện chức năng thông qua việc lặp đi lặp lại đầu vào token
  • Khái niệm làm việc đồng thời (concurrent work) rất quan trọng
    • Ví dụ: ngay cả khi đang họp Zoom, agent vẫn có thể tiến hành công việc song song, giúp hiệu suất công việc tăng đáng kể
  • Không phải mọi LLM đều mang tính agentic
    • 'An toàn cao' (ví dụ: Anthropic, OpenAI)
    • 'An toàn thấp' (ví dụ: Grok)
    • 'Oracle' (có lợi cho tóm tắt và tư duy bậc cao)
    • 'Agentic' (thiên về hành động, lặp nhanh và gọi công cụ)
  • Lập trình viên cần hiểu đặc tính của từng mô hình và chọn mô hình phù hợp với mục đích sử dụng
  • Việc cấp phát context window một cách vô điều kiện là yếu tố làm giảm hiệu năng; cần ghi nhớ rằng "càng cấp ít thì kết quả càng tốt"
    • Đăng ký quá nhiều công cụ MCP sẽ dẫn tới suy giảm hiệu năng
  • Quy tắc: "Less is more" → chỉ nên đặt đúng lượng công cụ và dữ liệu cần thiết vào ngữ cảnh để đạt hiệu năng tối ưu

Luồng xây dựng coding agent

  • 1. Đăng ký công cụ và gọi hàm

    • Ví dụ, đăng ký với LLM một công cụ tra cứu thời tiết để LLM có thể phản hồi dưới dạng gọi hàm trong những tình huống phù hợp
    • MCP(Model Context Protocol) giống như một "biểu ngữ thông tin về hàm"; chỉ cần đăng ký phần mô tả hàm là cũng có thể tự động gọi
  • 2. Chức năng cốt lõi theo từng primitive tool

    • Đọc file (ReadFile): khi truyền đường dẫn thì đọc nội dung file vào context
    • Liệt kê file (ListFiles): cung cấp danh sách file và thư mục trong thư mục
    • Thực thi lệnh (Bash): cho phép LLM chạy lệnh shell của hệ thống và trả về kết quả
    • Chỉnh sửa file (Edit): tự động hóa việc tạo mới hoặc sửa file được chỉ định
    • Tìm kiếm code (CodeSearch): nhanh chóng tìm kiếm toàn bộ codebase dựa trên pattern, từ khóa hoặc tên hàm (sử dụng ripgrep)
  • 3. Ví dụ và luồng kết quả

    • Bằng cách tích hợp từng công cụ vào LLM, có thể tự động hóa các tác vụ liên tiếp chỉ bằng prompt ngôn ngữ tự nhiên (ví dụ: tạo code FizzBuzz → chạy để kiểm tra, duyệt thư mục → phân tích nội dung)
    • Các hàm công cụ được gọi tuần tự theo đầu vào của người dùng hoặc theo kịch bản, và việc trả kết quả được lặp lại bên trong vòng lặp
    • Trình tự vận hành chính của agent: đầu vào người dùng → phán đoán có gọi công cụ hay không → thực thi công cụ → gán kết quả vào context → lặp lại

Khả năng mở rộng và mã nguồn mở

  • Hiện nay, phần lớn coding agent hoạt động dựa trên các công cụ mã nguồn mở sẵn có như ripgrep
  • Trên GitHub có những dự án agent đơn giản nhưng mạnh mẽ như SST Open Code, mini-swe-agent được triển khai chỉ với khoảng 100 dòng, nên có thể tham khảo về hiệu năng và cấu trúc
  • Thay vì chỉ so sánh với sản phẩm có sẵn, các lập trình viên được khuyến khích tự xây dựng để hiểu nguyên lý và cách ứng dụng
  • Khi áp dụng vào công việc thực tế và tự động hóa, việc tạo agent riêng và phổ biến nó trong tổ chức sẽ chuyển hóa thành năng lực cạnh tranh

Kết luận và hàm ý

  • Coding agent không phải là công nghệ phức tạp mà được tạo nên từ cấu trúc vòng lặp đơn giản và sự kết hợp công cụ
  • Cốt lõi của việc xây dựng coding agent là hiểu cấu trúc và khả năng triển khai nhanh; trải nghiệm tự tay xây dựng giúp chủ động thích ứng với các thay đổi của công nghệ AI
  • Điều quan trọng lúc này không phải chỉ là bản thân AI, mà là sự đầu tư vào chính mình như liên tục tự phát triển và xây dựng năng lực tạo công cụ
  • "Thứ đe dọa không phải là AI cướp việc của bạn, mà là đồng nghiệp của bạn được trang bị agent để tự động hóa và làm việc nhanh hơn"

Chưa có bình luận nào.

Chưa có bình luận nào.