10 điểm bởi GN⁺ 2026-01-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Trong quá trình triển khai dự án, quá trình phát triển từ viết script đơn giản sang xây dựng AI agent tự chủ lặp đi lặp lại
  • Khi cấp quyền truy cập công cụ cho các công cụ đang phát triển, mô hình hội thoại đơn giản chuyển thành agent có thể lập kế hoạch, thực thi và lặp lại
  • Logic dựa trên bộ phân loại hoặc câu lệnh điều kiện cuối cùng sẽ được thay thế bằng cấu trúc agent, và cấu trúc đơn giản xoay quanh các lệnh gọi công cụ do mô hình lựa chọn linh hoạt và mạnh mẽ hơn
  • Vai trò của con người chuyển từ Human-in-the-Loop sang Human-on-the-Loop, và việc đặt mục tiêu cùng thiết lập guardrail trở thành nhiệm vụ cốt lõi
  • Quan trọng hơn độ phức tạp của mã là quản lý độ tin cậy và phán đoán, và agent trở thành một hệ thống trưởng thành cùng nhà phát triển

Hội tụ từ script đơn giản sang agent

  • Phần lớn các dự án AI thực hiện trong năm 2025 cuối cùng đều đi đến hình thái agent
  • Script đơn giản với cấu trúc đầu vào·xử lý·đầu ra dần phát triển thành agent bằng cách thêm vòng lặp lặp lại, tập hợp công cụ và phân tích JSON
  • Định nghĩa agent theo quan điểm của tác giả: một mô hình vận hành thông qua vòng lặp trong trạng thái có thể truy cập công cụ
  • Nói cách khác, nếu có đủ thời gian thì mọi dự án AI đều sẽ hội tụ thành agent

Sức hút hướng tới tính tự chủ

  • Vượt qua chức năng tự động hóa đơn giản, phần mềm chuyển sang giai đoạn có thể tự phán đoán và thực thi như một “thực tập sinh số”
    • Gemini Scribe ban đầu chỉ là plugin chat đơn giản cho Obsidian, nhưng khi được cho phép truy cập công cụ read_file thì nó tự quản lý ngữ cảnh và thực thi
    • Người dùng không còn phải quản lý thủ công đầu vào của mô hình nữa, mà chỉ cần đưa ra mệnh lệnh ở cấp chỉ thị như “đọc biên bản cuộc họp rồi tóm tắt”
  • Sự thay đổi này mang ý nghĩa chuyển từ hội thoại sang ủy quyền, và phát triển thành cấu trúc nơi agent đảm nhiệm lập kế hoạch, thực thi và lặp lại

Từ script sang Sudoers

  • Trong quá trình phát triển Gemini CLI, khi mô hình sử dụng công cụ thực thi lệnh, nó mở rộng vượt khỏi một bộ sinh mã đơn thuần để trở thành một tác nhân thực thi tự chủ
    • Mô hình tạo thành vòng lặp tự chạy kiểm thử, phát hiện lỗi, tự sửa rồi chạy lại
  • Trong quá trình này, vấn đề bảo mật và độ tin cậy nổi lên, khiến cần đến hệ thống chính sách phân quyền như tệp sudoers
    • Script đơn giản không cần policy engine, nhưng với agent thì guardrail để ngăn lỗi phán đoán là bắt buộc

Agent từng muốn trở thành bộ phân loại

  • Trong dự án Podcast RAG, tác giả đã tạo một bộ phân loại AI để phân loại mục tiêu tìm kiếm theo truy vấn người dùng, nhưng giới hạn nhanh chóng lộ rõ
    • Logic phân loại không phản ánh đầy đủ ý định của người dùng, đồng thời dùng mã để giới hạn những phán đoán mà mô hình vốn đã làm tốt
  • Giải pháp là loại bỏ bộ phân loại và cung cấp cho agent hai công cụ search_descriptions, search_episodes
    • Agent linh hoạt hơn trong tìm kiếm bằng cách chọn hoặc dùng song song công cụ tùy tình huống
  • Trong Gemini Scribe cũng vậy, logic dự đoán ngữ cảnh phức tạp được loại bỏ và đơn giản hóa thành cấu trúc gọi công cụ đọc tệp tại thời điểm cần thiết
  • Tác giả đưa ra một tiêu chí phát triển: “Nếu bạn đang dùng if/else để quyết định AI phải làm gì, thì thực ra bạn đã bắt đầu xây agent”

Chuyển sang Human-on-the-Loop

  • Vai trò của con người chuyển từ một cấu trúc phê duyệt mọi bước sang vai trò giám sát chỉ đặt mục tiêu và ranh giới
    • Vì agent thực hiện công việc mà không cần con người can thiệp liên tục, nên việc định nghĩa rõ mục tiêu, ranh giới và cách xử lý ngoại lệ là bắt buộc
  • Nếu không có guardrail phù hợp, agent cũng có nguy cơ kẹt ở trạng thái chờ đầu vào hoặc đi vào lộ trình kém hiệu quả
  • Con người không còn là người trực tiếp thực thi, mà là người giám sát và thiết lập ranh giới, quản lý hướng đi của hệ thống

Chấp nhận sự phức tạp

  • Xây dựng agent không khó như vẻ ngoài, trái lại còn có thể đơn giản hóa bằng cách loại bỏ logic rẽ nhánh điều kiện và xử lý ngoại lệ
    • Vì mô hình tự phán đoán theo tình huống, nên không cần logic dự đoán trước
  • Độ phức tạp thật sự không nằm ở mã mà ở ủy quyền niềm tin và phán đoán
    • Nhà phát triển cần tập trung vào thiết kế để ngăn lỗi phán đoán hơn là lỗi cú pháp
  • Khác với script cố định, agent là một hệ thống tiến hóa theo yêu cầu của người dùng và tự tìm ra cách tốt hơn
  • Khi bạn bắt đầu muốn thêm định nghĩa công cụ vào một script đơn giản, tức là bạn đã bước vào giai đoạn xây dựng agent

Chưa có bình luận nào.

Chưa có bình luận nào.