Thoughtworks Technology Radar, Tập 34 được công bố
(thoughtworks.com)- Trực quan hóa và giải thích các xu hướng mới nhất trong các lĩnh vực kỹ thuật/công cụ/nền tảng/ngôn ngữ lập trình và framework theo 4 giai đoạn: "khuyến nghị áp dụng, dùng thử, đánh giá, thận trọng"
- 4 chủ đề cốt lõi: thời đại agent và đánh giá công nghệ, giữ nguyên nguyên tắc nhưng xem xét lại pattern, vấn đề bảo mật của agent, harness cho coding agent
Những thách thức của việc đánh giá công nghệ trong thời đại agent
- Việc đưa AI vào đang khiến chính quá trình đánh giá công nghệ trở nên khó khăn hơn, và do semantic diffusion nên các thuật ngữ mới xuất hiện rất nhanh trước khi ý nghĩa của chúng kịp ổn định
- Các thuật ngữ như spec-driven development, harness engineering được dùng không nhất quán hoặc có ý nghĩa chồng lấn
- Do thiếu định nghĩa chung, rất khó xác định đó là các kỹ thuật riêng biệt hay chỉ là những tên gọi khác nhau của cùng một khái niệm
- Việc phân biệt giữa các phương pháp kỹ nghệ độc lập đã trưởng thành và việc sử dụng thường nhật các công cụ AI như coding assistant vẫn là một thách thức kéo dài
- Tốc độ thay đổi làm gia tăng bất định, khi xuất hiện nhiều công cụ chưa đến một tháng tuổi, và một số thậm chí được duy trì bởi một người đóng góp duy nhất cùng với coding agent
- Nếu chờ công cụ trưởng thành thì hướng dẫn sẽ trở nên lỗi thời, còn nếu đi quá nhanh thì có nguy cơ làm nổi bật những xu hướng sẽ sớm biến mất
- Điều này đặt ra vấn đề về tính bền vững của những thứ được tạo ra quá nhanh và với quá ít công sức
- Nợ nhận thức codebase (Codebase Cognitive Debt)
- Khi lượng mã do AI tạo ra tăng lên, việc chấp nhận một giải pháp mà không có mental model về cách nó hoạt động trở nên dễ dàng hơn
- Nếu khoảng trống hiểu biết này tích lũy lại, việc suy luận, debug và phát triển hệ thống sẽ trở nên khó khăn hơn
Giữ nguyên nguyên tắc nhưng xem xét lại pattern
- AI không chỉ khiến người ta nghĩ về tương lai mà còn buộc chúng ta nhìn lại nền tảng của software craftsmanship
- Các kỹ thuật hiện có như pair programming, kiến trúc zero trust, mutation testing, DORA metrics đang được nhìn nhận lại
- Các nguyên tắc cốt lõi như clean code, thiết kế có chủ đích, khả năng kiểm thử, khả năng truy cập được tái khẳng định là ưu tiên hàng đầu
- Đây không phải là hoài niệm, mà là đối trọng thiết yếu để chống lại tốc độ mà công cụ AI tạo ra sự phức tạp
- Sự trở lại của command line: sau nhiều năm được trừu tượng hóa để dễ dùng hơn, các công cụ agentic đang đưa nhà phát triển quay lại terminal
- Phát triển có hỗ trợ AI là một sự chuyển đổi căn bản trong thực hành kỹ nghệ, đòi hỏi phải xem lại cách cộng tác và cấu trúc đội ngũ
- Cần xem xét agent topologies song song với team topologies và thiết kế lại chu kỳ phản hồi
- Các kỹ thuật như measuring collaboration quality with coding agents đang tái định nghĩa chính khái niệm software developer
- Trong môi trường do AI dẫn dắt, quản lý nợ nhận thức là nhiệm vụ cốt lõi; việc giữ vững nguyên tắc "tốc độ không có kỷ luật sẽ làm chi phí tăng cao" là rất quan trọng
Vấn đề bảo mật của những agent khao khát quyền hạn
- "Permission hungry" mô tả đúng thế lưỡng nan cốt lõi của tình hình agent hiện nay: agent càng có giá trị thì càng cần quyền truy cập vào mọi thứ
- OpenClaw, Claude Cowork giám sát công việc thực tế
- Gas Town điều phối swarm agent trên toàn bộ codebase
- Chúng đòi hỏi quyền truy cập rộng vào dữ liệu riêng tư, liên lạc bên ngoài và các hệ thống thực
- Các biện pháp an toàn hiện chưa theo kịp tham vọng này; do prompt injection, mô hình không thể phân biệt một cách ổn định giữa lệnh đáng tin cậy và đầu vào không đáng tin cậy
- Định nghĩa "lethal trifecta" của Simon Willison — dữ liệu riêng tư, nội dung không đáng tin cậy và hành động ra bên ngoài — áp dụng cho hầu hết các agent hữu ích như một mặc định, chứ không phải do cấu hình sai
- Ngoài injection còn có các mối đe dọa khác, như tính không nhất quán trong hành vi mô hình
- Không có gì đảm bảo một tác vụ đã thành công một lần sẽ thành công ở lần sau
- Ngay cả khi không có ác ý, agent vẫn có thể tìm ra đường rò rỉ sáng tạo, push vào những branch không nên chạm tới, hoặc vô hiệu hóa các checkpoint phê duyệt/từ chối
- Những gì có thể làm hiện nay — zero trust, đặc quyền tối thiểu, cải tiến mô hình và defense in depth là các điều kiện nền tảng, nhưng không có giải pháp đơn lẻ
- Hệ thống agent an toàn cần được cấu thành từ một pipeline các agent bị ràng buộc nhiều hơn, chứ không phải một agent nguyên khối, cùng với giám sát và kiểm soát mạnh
- Có thể dùng Agent Skills như một lựa chọn thay thế MCP dễ kiểm soát hơn
- Các hướng như durable agents, kỹ thuật ngăn agent instruction bloat cũng chỉ ra xu hướng này
- Vì không gian này đang tiến hóa rất nhanh, sự thận trọng là điều bắt buộc để tránh những sai lầm đắt giá
Kiềm cương coding agent
- Khi hiệu năng của coding agent được cải thiện, sức hấp dẫn của việc loại con người ra khỏi vòng lặp ngày càng tăng, và các đội ngũ bắt đầu đầu tư vào coding agent harnesses
- Đây là các cơ chế kiểm soát giúp dẫn hướng hành vi của agent trước khi sinh mã, đồng thời cho phép nó tự sửa thông qua phản hồi sau đó
- Kiểm soát feedforward
- Cung cấp trước những gì cần thiết để agent tăng xác suất đúng ngay từ lần thử đầu tiên
- Agent Skills là một tiến bộ quan trọng, cho phép mô-đun hóa chỉ dẫn và quy ước rồi nạp vào khi cần
- Superpowers là một ví dụ về danh mục skill hữu ích cho các nhóm phần mềm
- Khái niệm plugin marketplaces đang nổi lên, giúp việc phân phối skill và cấu hình ngữ cảnh trở nên dễ dàng hơn
- Các framework spec-driven development — như GitHub Spec-Kit, OpenSpec — đang cấu trúc hóa workflow lập kế hoạch, thiết kế và triển khai
- Kiểm soát feedback
- Quan sát hành vi của agent sau khi thực hiện để tạo ra vòng lặp tự sửa
- feedback sensors for coding agents — tích hợp trực tiếp các cổng chất lượng mang tính quyết định như compiler, linter, type checker, test suite vào workflow của agent
- Khi thất bại, sẽ kích hoạt sửa tự động trước khi con người review
- Các ví dụ trong Radar lần này gồm cargo-mutants và các công cụ mutation testing, các công cụ fuzz testing như WuppieFuzz, cùng các công cụ phân tích chất lượng mã như CodeScene
- Ngoài phản hồi trong vòng lặp, cũng đã có các trường hợp giảm architectural drift bằng cách kết hợp quy tắc cấu trúc mang tính quyết định với đánh giá dựa trên LLM
[Techniques]
Adopt
1. Context engineering
- Đây là một kỹ thuật đã phát triển thành mối quan tâm kiến trúc cốt lõi của các hệ thống AI hiện đại; khác với prompt engineering tập trung vào câu chữ, nó coi context window là một bề mặt thiết kế và chủ đích xây dựng môi trường thông tin cho AI
- Khi agent xử lý các tác vụ càng phức tạp, cách làm đổ dữ liệu thô vào context window lớn sẽ gây ra "context rot" và làm suy giảm khả năng suy luận; vì vậy đang có xu hướng chuyển từ prompt tĩnh, nguyên khối sang progressive context disclosure
- Context setup sử dụng prompt caching để nạp trước chỉ dẫn tĩnh nhằm giảm chi phí và cải thiện thời gian đến token đầu tiên, còn Dynamic retrieval đã vượt ra ngoài RAG cơ bản để tới lựa chọn công cụ và chỉ nạp các máy chủ MCP cần thiết
- Context graphs mô hình hóa suy luận cấp tổ chức như chính sách, ngoại lệ, tiền lệ thành dữ liệu có cấu trúc và có thể truy vấn; stateful compression và sub-agent giúp tóm tắt đầu ra trung gian trong các workflow dài hạn
- Việc coi ngữ cảnh AI như một hộp văn bản tĩnh là con đường ngắn nhất dẫn đến hallucination; để xây dựng agent doanh nghiệp vững chắc, cần kỹ nghệ hóa ngữ cảnh thành một pipeline động và được quản lý chặt chẽ với độ chính xác cao
2. Chỉ dẫn dùng chung được tuyển chọn cho các nhóm phần mềm
- Xem việc từng lập trình viên tự viết prompt từ đầu là một phản mẫu, và áp dụng cách làm coi hướng dẫn AI là tài sản kỹ thuật cộng tác thay vì quy trình làm việc cá nhân
- Ban đầu tập trung vào việc duy trì thư viện prompt dùng chung cho các tác vụ phổ biến, nhưng nay đã phát triển thành cách làm tiên tiến hơn là neo chỉ dẫn trực tiếp vào các mẫu dịch vụ
- Đặt các tệp chỉ dẫn như
CLAUDE.md,AGENTS.md,.cursorrulestrong repository baseline để scaffold dịch vụ mới
- Đặt các tệp chỉ dẫn như
- Đồng thời cũng thử nghiệm cách làm liên quan là neo coding agent vào các ứng dụng tham chiếu, nơi codebase sống có thể biên dịch đóng vai trò nguồn chân lý duy nhất
- Khi kiến trúc và tiêu chuẩn mã hóa thay đổi, có thể cập nhật cả ứng dụng tham chiếu lẫn chỉ dẫn nhúng; các repository mới mặc định kế thừa workflow và quy tắc agent mới nhất
3. DORA metrics
- Các chỉ số do chương trình nghiên cứu DORA định nghĩa, bao gồm lead time for changes, tần suất triển khai, MTTR, tỷ lệ thay đổi thất bại, và chỉ số thứ năm mới là rework rate
- Rework rate là chỉ số ổn định, đo tỷ lệ pipeline chuyển giao của nhóm bị tiêu tốn cho việc làm lại các công việc đã hoàn thành, chẳng hạn lỗi người dùng hoặc khuyết tật
- Trong thời đại phát triển có hỗ trợ AI, DORA metrics quan trọng hơn bao giờ hết; việc đo năng suất bằng số dòng mã do AI tạo ra là gây hiểu lầm
- Nếu không giảm lead time và tăng tần suất triển khai, việc tạo mã nhanh hơn sẽ không dẫn đến kết quả tốt hơn
- Các chỉ số ổn định, đặc biệt là sự suy giảm của rework rate, là cảnh báo sớm về điểm mù, nợ kỹ thuật và rủi ro của phát triển có hỗ trợ AI một cách thiếu kiểm soát
- Thay vì xây dashboard phức tạp, các cơ chế đơn giản như check-in trong buổi retrospective hiệu quả hơn trong việc cải thiện năng lực
4. Passkeys
- Thông tin xác thực FIDO2 do FIDO Alliance dẫn dắt và được Apple, Google, Microsoft hỗ trợ, dùng mật mã khóa công khai bất đối xứng để thay thế mật khẩu
- Khóa riêng được lưu trong secure enclave dựa trên phần cứng của thiết bị người dùng, được bảo vệ bằng sinh trắc học hoặc PIN và không bị rò rỉ ra ngoài; mỗi thông tin xác thực đều được ràng buộc nguồn gốc với miền relying party nên có khả năng chống phishing về mặt cấu trúc
- Phishing là nguyên nhân của hơn 1/3 tổng số vụ vi phạm dữ liệu; FIDO Alliance Passkey Index 2025 báo cáo hơn 15 tỷ tài khoản đủ điều kiện trên toàn cầu, Google cải thiện 30% tỷ lệ đăng nhập thành công trên 800 triệu người dùng, còn Amazon xác nhận đăng nhập nhanh hơn 6 lần so với phương thức cũ
- NIST SP 800-63-4 (tháng 7/2025) phân loại lại synced passkeys là tuân thủ AAL2; các cơ quan quản lý tại UAE, Ấn Độ và các cơ quan liên bang Mỹ yêu cầu xác thực chống phishing cho hệ thống tài chính và chính phủ
- FIDO Credential Exchange Protocol bảo đảm khả năng di chuyển an toàn giữa các trình quản lý thông tin xác thực; các nhà cung cấp ID lớn như Auth0, Okta, Azure AD hỗ trợ như tính năng hạng nhất, giúp việc triển khai được đơn giản hóa từ công việc kéo dài nhiều tháng thành một dự án 2 sprint
- Cần cẩn trọng khi thiết kế khôi phục tài khoản và tránh các đường fallback dễ bị phishing như SMS OTP
- Với các kịch bản AAL3 (như truy cập đặc quyền), vẫn cần thông tin xác thực ràng buộc thiết bị từ khóa bảo mật phần cứng
5. Structured output from LLMs
- Cách làm ràng buộc mô hình phản hồi theo định dạng được định nghĩa trước như JSON hoặc class của một ngôn ngữ lập trình cụ thể
- Cung cấp kết quả đáng tin cậy trong production, được xem là mặc định hợp lý cho các ứng dụng tiêu thụ phản hồi LLM theo cách lập trình
- Tất cả nhà cung cấp mô hình lớn đều cung cấp chế độ structured output gốc, nhưng tập con JSON Schema được hỗ trợ khác nhau và API thay đổi rất nhanh
- Thư viện Instructor hoặc framework Pydantic AI cung cấp lớp trừu tượng ổn định với xác thực và tự động thử lại; với việc tạo ràng buộc cho mô hình tự host, khuyến nghị Outlines
6. Zero trust architecture
- Khi bước vào kỷ nguyên agent, đây là mặc định hợp lý để ứng phó rủi ro bảo mật khi trao quyền tự chủ cho các hệ thống khó dự đoán
- "Không bao giờ tin tưởng, luôn xác minh", coi bảo mật dựa trên danh tính và nguyên tắc truy cập đặc quyền tối thiểu là nền tảng của mọi triển khai agent
- Áp dụng các tiêu chuẩn như SPIFFE cho agent để xây dựng nền tảng danh tính mạnh, cho phép xác thực tinh vi trong môi trường động
- Việc giám sát và xác minh liên tục hành vi của agent là quan trọng để chủ động quản lý mối đe dọa
- Ngoài triển khai agent, còn đưa các thực hành như OIDC impersonation của GCP vào pipeline CI/CD, thay thế khóa tĩnh dài hạn bằng token ngắn hạn được cấp sau khi xác minh danh tính
- Khuyến nghị xem các nguyên tắc ZTA là mặc định không thể thỏa hiệp, bất kể hệ thống được xây dựng ra sao
Trial
7. Agent Skills
- Khi AI agent tiến hóa từ giao diện chat đơn giản sang thực thi công việc tự chủ, context engineering trở thành thách thức cốt lõi; Agent Skills đóng gói các tài nguyên liên quan như chỉ dẫn, script có thể thực thi và tài liệu để cung cấp một tiêu chuẩn mở cho việc mô-đun hóa ngữ cảnh
- Agent chỉ tải skill khi cần dựa trên mô tả, giúp giảm tiêu thụ token và làm dịu tình trạng cạn kiệt cửa sổ ngữ cảnh cùng vấn đề agent instruction bloat
- Không chỉ coding agent mà cả trợ lý cá nhân như OpenClaw cũng đang nhanh chóng áp dụng; nhiều trường hợp sử dụng có thể được giải quyết hiệu quả chỉ bằng cách để agent trỏ tới CLI hoặc script cục bộ, đây cũng là một trong những lý do khiến các nhóm thận trọng với việc mặc định dùng MCP
- Plugin marketplaces đang nổi lên như cách quản lý phiên bản và chia sẻ skill, đồng thời cũng có nhiều nỗ lực khám phá cách đánh giá hiệu quả của skill
- Cần cẩn trọng vì việc tái sử dụng skill bên thứ ba mà không rà soát có thể gây ra rủi ro bảo mật chuỗi cung ứng nghiêm trọng
8. Browser-based component testing
- Trước đây không khuyến nghị công cụ dựa trên trình duyệt (khó cấu hình, chậm và flaky), nhưng hiện nay đã cải thiện đáng kể và với các công cụ như Playwright, đây là cách tiếp cận khả thi và được ưu tiên
- Khi chạy kiểm thử trong trình duyệt thật, mã sẽ khớp với môi trường thực sự nơi nó được chạy nên mang lại độ nhất quán cao hơn
- Mức giảm hiệu năng đã xuống đến ngưỡng chấp nhận được, độ flaky cũng giảm, mang lại nhiều giá trị hơn so với môi trường mô phỏng như jsdom
9. Feedback sensors for coding agents
- Để coding agent hiệu quả hơn và giảm gánh nặng cho người review, cần có các vòng lặp phản hồi mà agent có thể tự truy cập trực tiếp; phản hồi hoạt động như một dạng backpressure
- Lập trình viên từ lâu đã dựa vào compiler, linter, kiểm thử cấu trúc và test suite như các cổng chất lượng có tính xác định; có thể kết nối chúng vào workflow agentic để kích hoạt tự sửa kịp thời khi thất bại
- Có thể triển khai theo nhiều cách khác nhau, như đưa vào một reviewer agent phụ trách chạy kiểm tra và kích hoạt sửa lỗi, hoặc phơi bày các kiểm tra dưới dạng tiến trình đồng hành chạy song song
- Nhờ coding agent, chi phí xây dựng linter tùy chỉnh và kiểm thử cấu trúc đã rẻ hơn, giúp tăng cường vòng lặp phản hồi
- Nếu có thể, hãy chạy trong phiên coding thay vì kiểm tra sau commit, để agent báo cáo kết quả sạch trước khi commit
10. Mapping code smells to refactoring techniques
- Kỹ thuật chỉ thị cho agent xử lý một vấn đề cụ thể theo cách tiếp cận đã được định nghĩa
- Lớp đầu tiên định hướng agent bằng các tài liệu tham chiếu chung như Refactoring cho các trường hợp phổ biến; với các vấn đề chuyên biệt hơn, dùng Agent Skills, lệnh gạch chéo và
AGENTS.mdđể ánh xạ smell riêng với kỹ thuật cụ thể - Khi tích hợp với công cụ linting, tạo ra phản hồi mang tính quyết định để kích hoạt cách tiếp cận refactoring phù hợp mỗi khi phát hiện smell
- Đặc biệt hiệu quả trên các stack legacy như .NET Framework 2.0 hoặc Java 8, hữu ích khi dữ liệu huấn luyện phổ biến còn thiếu
- Nếu không có chỉ thị mục tiêu, agent có xu hướng mặc định theo các mẫu chung thay vì các yêu cầu cụ thể
11. Mutation testing
- Tín hiệu trung thực nhất để đánh giá năng lực phát hiện lỗi thực tế của bộ test; khác với code coverage truyền thống chỉ theo dõi việc thực thi dòng, phương pháp này đưa lỗi có chủ đích (mutations) vào mã nguồn để xác minh rằng test sẽ thất bại khi hành vi bị phá vỡ
- Nếu biến thể không bị phát hiện, điều đó cho thấy lỗ hổng trong việc kiểm chứng chứ không chỉ là thiếu coverage; điều này đặc biệt quan trọng trong kỷ nguyên phát triển có AI hỗ trợ — coverage cao có thể che giấu các test rỗng về mặt logic hoặc mã sinh ra nhưng không được assert có ý nghĩa
- Khi các test case do AI tạo ra ngày càng phổ biến, nó đóng vai trò như một lớp tăng cường để bắt các test "luôn xanh(perpetually green)" vẫn vượt qua dù logic thay đổi do thiếu assert hoặc mock bị cô lập
- Với các công cụ như Stryker, Pitest, cargo-mutants, trọng tâm được chuyển sang bao nhiêu phần mã thực sự được kiểm chứng trong logic miền cốt lõi
12. Progressive context disclosure
- Một kỹ thuật trong thực hành context engineering, trao cho agent một giai đoạn khám phá nhẹ để chọn những gì cần thiết dựa trên prompt của người dùng thay vì chủ động làm quá tải nó bằng chỉ dẫn
- Phù hợp với các kịch bản RAG, nơi agent trước tiên xác định miền liên quan từ truy vấn của người dùng rồi mới truy xuất chỉ dẫn và dữ liệu cụ thể
- Tương tự cách nhiều công cụ lập trình agentic xử lý Agent Skills: thay vì một bộ chỉ dẫn đơn khối duy nhất đầy điều kiện và lưu ý, trước hết xác định skill nào liên quan đến tác vụ rồi mới nạp chỉ dẫn chi tiết
- Khi xây dựng hệ thống agentic, rất dễ rơi vào cái bẫy phình to chỉ dẫn với vô số quy tắc "DO" và "DO NOT", điều này cuối cùng làm giảm hiệu năng
- Giúp giữ cửa sổ ngữ cảnh gọn nhẹ và ngăn context rot
13. Sandboxed execution for coding agents
- Thực hành chạy agent trong môi trường cô lập với quyền truy cập hệ thống tệp bị giới hạn, kết nối mạng được kiểm soát và mức sử dụng tài nguyên bị hạn chế
- Khi coding agent có quyền tự chủ trong việc chạy mã, build và tương tác với hệ thống tệp, quyền truy cập không giới hạn tạo ra rủi ro thực tế từ hư hại ngoài ý muốn đến lộ thông tin xác thực, nên đây là mặc định hợp lý chứ không phải tùy chọn nâng cao
- Phổ lựa chọn sandbox rất rộng — nhiều coding agent cung cấp sẵn chế độ sandbox, còn Dev Containers mang lại cơ chế cô lập quen thuộc dựa trên container
- Shuru khởi động microVM dùng một lần được reset sau mỗi lần chạy, còn Sprites cung cấp môi trường có trạng thái với hỗ trợ checkpoint/restore
- Với cơ chế cô lập gốc trên Linux, Bubblewrap cung cấp sandbox nhẹ dựa trên namespace; trên macOS,
sandbox-execmang lại khả năng bảo vệ tương tự - Ngoài việc cô lập cơ bản, cũng cần cân nhắc mọi thứ cần cho build và test, cơ chế xác thực an toàn và đơn giản với các dịch vụ như GitHub và nhà cung cấp model, port forwarding, cùng CPU và bộ nhớ đủ dùng
- Việc dùng sandbox như mặc định dùng một lần hay duy trì lâu dài để khôi phục phiên là quyết định thiết kế phụ thuộc vào ưu tiên về bảo mật, chi phí và tính liên tục của quy trình làm việc
14. Semantic layer
- Kỹ thuật kiến trúc dữ liệu đưa vào một lớp logic nghiệp vụ dùng chung giữa kho dữ liệu và các ứng dụng tiêu thụ như công cụ BI, agent AI và API
- Tập trung hóa định nghĩa metric, join, quy tắc truy cập và thuật ngữ nghiệp vụ để các bên tiêu thụ cùng dùng chung định nghĩa; đây là khái niệm có từ trước modern data stack nhưng đang được quan tâm trở lại nhờ các cách tiếp cận code-first như metrics stores
- Nếu không có semantic layer, logic nghiệp vụ sẽ bị phân tán khắp các bảng warehouse tạm thời, dashboard và ứng dụng downstream, còn định nghĩa metric thì âm thầm phân nhánh
- Agentic AI khiến vấn đề trầm trọng hơn — khi LLM thực hiện chuyển đổi text-to-SQL một cách ngây thơ, kết quả sai xảy ra thường xuyên, đặc biệt khi các quy tắc nghiệp vụ như ghi nhận doanh thu nằm ngoài schema
- Các nền tảng đám mây đang nhúng trực tiếp semantic layer; Snowflake gọi là Semantic Views, Databricks gọi là Metric Views, còn các công cụ độc lập như dbt MetricFlow và Cube cung cấp lớp có thể di chuyển giữa nhiều hệ thống
- Open Semantic Interchange (OSI) v1.0 vừa được phát hành gần đây, với sự hỗ trợ từ nhiều nhà cung cấp, báo hiệu đà lan rộng của tiêu chuẩn hóa và khả năng tương tác trên các nền tảng phân tích, AI và BI
- Chi phí chính là khoản đầu tư mô hình hóa dữ liệu ban đầu; khuyến nghị bắt đầu từ một miền đơn lẻ thay vì triển khai trên toàn doanh nghiệp
15. Server-driven UI
- Tách việc render thành các container chung và để máy chủ cung cấp cấu trúc cùng dữ liệu, giúp các đội mobile tránh được chu kỳ review App Store kéo dài ở mỗi vòng lặp
- Với định dạng dựa trên JSON cho phép cập nhật theo thời gian thực, cách này cải thiện đáng kể thời gian phát hành, đồng thời sự xuất hiện của các mô hình ổn định ở những công ty như Airbnb và Lyft đã làm giảm độ phức tạp
- Trước đây từng bị cảnh báo là một "mớ hỗn độn kinh khủng và quá mức có thể cấu hình" mà framework độc quyền có thể tạo ra, nhưng nay việc đầu tư cho các ứng dụng quy mô lớn đã dễ được biện minh hơn
- Dù vậy, nó vẫn cần một business case đủ mạnh và cách làm kỹ thuật có chừng mực; điều quan trọng là tránh tạo ra "god-protocol" khó bảo trì
- Khuyến nghị áp dụng cho những khu vực có tính động rất cao thay vì thay thế toàn bộ hoạt động phát triển UI của ứng dụng
Đánh giá
16. Agentic reinforcement learning environments
- Sân huấn luyện cho các tác nhân dựa trên LLM, kết hợp ngữ cảnh, công cụ và phản hồi để hoàn thành tác vụ nhiều bước
- Cách tiếp cận này tái cấu trúc hậu huấn luyện LLM từ đầu ra một lượt đơn giản thành các hành vi agentic như suy luận và sử dụng công cụ, đồng thời gán phần thưởng hoặc hình phạt cho từng hành động
- Với các kỹ thuật như RLVR, bảo đảm phần thưởng có thể được kiểm chứng và khó bị “game hóa”
- Hiện các phòng thí nghiệm nghiên cứu AI đang dẫn dắt phát triển, đặc biệt cho tác nhân lập trình và tác nhân sử dụng máy tính; Composer của Cursor là ví dụ ngoài các frontier lab về một mô hình lập trình chuyên biệt được huấn luyện trong môi trường sản phẩm
- Sự xuất hiện của các framework và nền tảng như Environments Hub của Prime Intellect, Agent Lightning, NVIDIA NeMo Gym đang giúp đơn giản hóa quy trình
17. Architecture drift reduction with LLMs
- Khi việc dùng tác nhân lập trình AI tăng lên, độ lệch khỏi codebase và thiết kế kiến trúc dự định cũng tăng tốc; nếu bị bỏ mặc, cả tác nhân lẫn con người sẽ sao chép các mẫu sẵn có (kể cả mẫu đã suy thoái), khiến độ lệch chồng chất và tạo thành vòng lặp phản hồi nơi mã xấu sinh ra mã tệ hơn
- Kết hợp các công cụ phân tích mang tính xác định (Spectral, ArchUnit, Spring Modulith) với đánh giá dựa trên LLM để phát hiện cả vi phạm về cấu trúc lẫn ngữ nghĩa
- Áp dụng vào việc định nghĩa các vùng kiến trúc nhằm cưỡng chế hướng dẫn chất lượng API trên toàn bộ dịch vụ và định hướng cải thiện phần sinh do tác nhân tạo ra
- Giống linting truyền thống, lần quét ban đầu sẽ làm lộ ra nhiều vi phạm → cần phân loại và ưu tiên, và LLM có thể hỗ trợ việc này
- Giữ các chỉnh sửa do tác nhân tạo ra nhỏ và tập trung để dễ review; bắt buộc phải có vòng kiểm chứng bổ sung nhằm xác nhận thay đổi thực sự cải thiện hệ thống mà không gây hồi quy
- Mở rộng ý tưởng của feedback sensors for coding agents sang các giai đoạn muộn hơn trong vòng đời phân phối; theo cách diễn đạt của nhóm OpenAI, giảm drift hoạt động như một dạng "garbage collection"
18. Code intelligence as agentic tooling
- LLM xử lý mã như một dòng token và không có hiểu biết nguyên bản về đồ thị gọi, phân cấp kiểu hay quan hệ ký hiệu
- Trong khám phá mã, hiện nay phần lớn tác nhân lập trình mặc định dùng tìm kiếm dựa trên văn bản (mẫu số chung mạnh nhất trên mọi ngôn ngữ); với các thao tác tái cấu trúc vốn chỉ cần phím tắt nhanh trong IDE, tác nhân lại phải tạo nhiều bản diff văn bản
- Tác nhân tiêu tốn đáng kể token để tái dựng lại thông tin vốn đã tồn tại trong AST
- Cung cấp cho tác nhân quyền truy cập vào các công cụ nhận biết AST, ví dụ qua Language Server Protocol (LSP), để các thao tác như “tìm mọi tham chiếu tới ký hiệu này” hoặc “đổi tên kiểu này ở mọi nơi” trở thành hành động hạng nhất
- Các công cụ codemod như OpenRewrite hoạt động trên biểu diễn mã phong phú hơn là Lossless Semantic Tree (LST); giao đúng tác vụ cho công cụ mang tính xác định sẽ giúp giảm chỉnh sửa do ảo giác và tiết kiệm token
- Claude Code, OpenCode và các công cụ khác tích hợp với máy chủ LSP chạy cục bộ; JetBrains cung cấp máy chủ MCP để phơi bày khả năng điều hướng và tái cấu trúc trong IDE cho tác nhân bên ngoài, còn máy chủ MCP Serena cung cấp tìm kiếm và chỉnh sửa mã theo ngữ nghĩa
19. Context graph
- Kỹ thuật biểu diễn tri thức mô hình hóa quyết định, chính sách, ngoại lệ, tiền lệ, bằng chứng và kết quả thành các nút được liên kết hạng nhất trong một đồ thị, được cấu trúc để AI có thể tiêu thụ
- Nếu hệ thống ghi chép nắm bắt điều gì đã xảy ra, thì context graph nắm bắt lý do — chuyển đổi suy luận mang tính tổ chức vốn bị chôn trong các thread Slack, chuỗi phê duyệt và trong đầu con người thành cấu trúc máy đọc được có thể truy vấn
- Rất quan trọng với hiệu quả của tác nhân; ví dụ, một tác nhân xử lý ngoại lệ giảm giá có thể suy luận sai nếu không phân biệt được đây là chính sách tiêu chuẩn hay ghi đè một lần; context graph cho phép duyệt vết quyết định, áp dụng tiền lệ liên quan và suy luận chuỗi nhân quả nhiều bước bằng cách phơi bày trực tiếp nguồn gốc
- Khác với GraphRAG được xây dựng từ kho tài liệu tĩnh, context graph duy trì hiệu lực theo thời gian trên mọi cạnh; các sự thật bị thay thế sẽ bị vô hiệu hóa chứ không bị ghi đè
- Đáng để đánh giá trong các ứng dụng agentic cần bộ nhớ bền vững xuyên phiên hoặc suy luận quyết định có thể truy vết
20. Feedback flywheel
- Các nhóm làm việc với tác nhân lập trình ngày càng áp dụng quy trình spec-driven development, và dù dùng framework nhẹ hay nhiều tính định hướng, vẫn đi theo luồng spec → plan → implement
- Feedback flywheel mở rộng luồng này bằng một bước bổ sung tập trung vào việc liên tục cải thiện harness cho coding agent
- Tương tự retrospective, nhóm ghi lại thành công và thất bại trong các phiên với coding agent để dùng vào việc tăng tính dự đoán cho các phiên tương lai, tạo ra hiệu ứng cộng dồn theo thời gian
- Đây là một kỹ thuật meta nơi human on the loop tập trung vào việc cải thiện các biện pháp kiểm soát feedforward như curated shared instructions và feedback sensors for coding agents
- Cấp độ tiếp theo là agentic feedback flywheel, nơi tác nhân quyết định những cải tiến cần thiết dựa trên phản hồi tích lũy; hiện tại vẫn cần human-in-the-loop để tránh context rot và phản hồi nhiễu có thể làm lệch hướng tác nhân
- Khi môi trường phát triển, có thể dùng nó để đánh giá toàn bộ harness của coding agent, đặc biệt khi áp dụng mô hình mới vì những gì hiệu quả với một mô hình có thể trở nên không còn cần thiết ở mô hình kế tiếp
21. HTML Tools
- Với các công cụ agentic, việc xây dựng các tiện ích nhỏ theo từng tác vụ trở nên dễ dàng hơn, nên thách thức chính là cách triển khai và chia sẻ
- HTML Tools là một cách tiếp cận đóng gói script hoặc tiện ích có thể chia sẻ thành một tệp HTML duy nhất
- Có thể chạy trực tiếp trong trình duyệt, host ở bất kỳ đâu, hoặc đơn giản là chia sẻ tệp, tránh overhead phân phối của công cụ CLI vốn cần chia sẻ binary hoặc dùng package manager
- Đơn giản hơn so với việc xây dựng một ứng dụng web hoàn chỉnh với hạ tầng hosting chuyên biệt
- Xét từ góc độ bảo mật, việc chạy các tệp không đáng tin cậy vẫn tiềm ẩn rủi ro, dù sandbox của trình duyệt và khả năng kiểm tra mã nguồn có thể giảm bớt phần nào
- Với các tiện ích nhẹ, một tệp HTML duy nhất là cách tiếp cận rất dễ tiếp cận và có tính di động cao
22. Đánh giá LLM bằng semantic entropy
- Trong các ứng dụng hỏi đáp dùng LLM, confabulation là một dạng ảo giác mà các phương pháp đánh giá truyền thống khó xử lý
- Một cách tiếp cận là dùng entropy thông tin để đo mức độ bất định bằng cách phân tích biến thể từ vựng của đầu ra cho cùng một đầu vào
- Việc đánh giá LLM bằng semantic entropy mở rộng ý tưởng này bằng cách tập trung vào khác biệt về ý nghĩa thay vì biến thể ở mức bề mặt
- Vì đánh giá theo ý nghĩa thay vì chuỗi từ, phương pháp này có thể áp dụng trên nhiều bộ dữ liệu và tác vụ mà không cần tri thức trước, đồng thời khái quát tốt cho các tác vụ chưa biết
- Giúp xác định các prompt có khả năng gây ra confabulation và khuyến nghị thận trọng khi cần
- Entropy ngây thơ thường không phát hiện được confabulation, còn semantic entropy hiệu quả hơn trong việc lọc các khẳng định sai
23. Đo lường chất lượng cộng tác với coding agents
- Dù đã quan sát thấy mức tăng năng suất thực tế khi dùng coding agents, phần lớn metric đánh giá vẫn quá tập trung vào coding throughput như thời gian ra kết quả đầu tiên, số dòng mã được tạo, hay số tác vụ hoàn thành
- Để tránh việc các nhóm rơi vào bẫy tốc độ (speed trap), trọng tâm cần chuyển sang con người và agent cộng tác hiệu quả đến mức nào
- Các metric như first-pass acceptance rate, số vòng lặp cho mỗi tác vụ, làm lại sau merge, build thất bại và gánh nặng review mang lại tín hiệu có ý nghĩa hơn so với chỉ nhìn vào tốc độ
- Các nhóm dùng Claude Code có thể dùng lệnh
/insightsđể tạo báo cáo phản ánh thành công và thách thức của các phiên agent; cũng có thử nghiệm theo dõi first-pass acceptance của lệnh/reviewđược tùy biến - Chu kỳ phản hồi ngắn và số build thất bại giảm là chỉ dấu của tương tác hiệu quả hơn với agent
- Ở cấp độ nhóm thay vì cá nhân, việc theo dõi chất lượng cộng tác cùng với các metric DORA giúp xây dựng bức tranh đầy đủ hơn về tác động của việc áp dụng coding agents
24. MITRE ATLAS
- Các hệ thống agentic và công cụ lập trình đang đưa vào những kiến trúc mới và các mối đe dọa bảo mật phát sinh
- MITRE ATLAS là một cơ sở tri thức về các chiến thuật và kỹ thuật đối kháng nhắm vào hệ thống AI và ML
- Đây là một khung tập trung hơn và được thiết kế để bổ trợ cho khung MITRE ATT&CK rộng hơn, cung cấp phân loại mối đe dọa cho pipeline ML, ứng dụng LLM và hệ thống agentic
- Nếu không có từ vựng chung, rủi ro bảo mật thường bị bỏ sót hoặc bị thu gọn thành một bài tập check-box, và ATLAS giúp khắc phục điều đó
- Dựa trên nghiên cứu về các sự cố thực tế và các mẫu kỹ thuật, khung này có thể được các nhóm dùng để hỗ trợ threat modeling
- Đây là phần bổ sung tự nhiên cho các khung kiểm soát như SAIF, giúp diễn giải bối cảnh đe dọa đang tiến hóa của các hệ thống AI
25. Ralph loop
- Một kỹ thuật cho autonomous coding agent, còn được gọi là Wiggum loop, trong đó một prompt cố định được đưa vào agent trong vòng lặp vô hạn
- Mỗi vòng lặp bắt đầu với một cửa sổ ngữ cảnh mới — agent chọn việc từ đặc tả hoặc kế hoạch, triển khai nó, rồi khởi động lại vòng lặp với ngữ cảnh mới
- Điểm cốt lõi là sự đơn giản: thay vì điều phối teams of coding agents hay coding agent swarms, một agent đơn lẻ tự chủ làm việc dựa trên đặc tả, với kỳ vọng codebase sẽ hội tụ về đặc tả qua nhiều vòng lặp lặp lại
- Việc dùng cửa sổ ngữ cảnh mới ở mỗi vòng lặp tránh suy giảm chất lượng do ngữ cảnh tích lũy, đổi lại là chi phí token đáng kể
- Các công cụ như goose triển khai mẫu này, và trong một số trường hợp còn mở rộng bằng review chéo giữa các mô hình qua từng vòng lặp
26. Reverse engineering cho design system
- Các tổ chức thường phải vật lộn với những giao diện legacy bị phân mảnh, nơi "tiêu chuẩn thiết kế" chỉ tồn tại như một tập hợp lỏng lẻo các trang web riêng lẻ, tài liệu marketing và ảnh chụp màn hình
- Trước đây, việc kiểm kê các artifact này để xây nền tảng hợp nhất là một quy trình thủ công và tốn thời gian
- Với multimodal LLM, có thể tự động hóa việc trích xuất này để reverse engineering design system từ các tài sản trực quan hiện có
- Bằng cách đưa website, ảnh chụp màn hình, và các mảnh giao diện vào công cụ chuyên dụng hoặc các mô hình AI có khả năng thị giác, các nhóm có thể trích xuất các design token cốt lõi như bảng màu, thang typography, quy tắc khoảng cách, đồng thời nhận diện các mẫu component lặp lại
- AI tổng hợp dữ liệu trực quan phi cấu trúc này thành biểu diễn ngữ nghĩa có cấu trúc của một design system; khi tích hợp với các công cụ như Figma, đầu ra này giúp tăng tốc đáng kể việc tạo ra thư viện component được chính thức hóa và có thể bảo trì
- Ngoài việc giảm công sức kiểm kê trực quan, đây còn đóng vai trò như bước đệm để xây dựng design system “AI-ready”
- Với các doanh nghiệp đang gánh nợ thiết kế brownfield, việc dùng AI để thiết lập design system ở mức baseline là điểm khởi đầu thực tế trước khi tái thiết kế toàn diện hoặc chuẩn hóa frontend
27. Cô lập ngữ cảnh theo vai trò trong RAG
- Một kỹ thuật kiến trúc chuyển kiểm soát truy cập từ lớp ứng dụng xuống lớp truy xuất
- Mỗi data chunk được gắn thẻ quyền hạn theo vai trò tại thời điểm lập chỉ mục; đến thời điểm truy vấn, công cụ tìm kiếm giới hạn không gian truy xuất dựa trên danh tính đã xác thực của người dùng, đối chiếu với metadata của từng chunk
- Vì mô hình AI được lọc ngay tại bước truy xuất, phương pháp này bảo đảm không thể truy cập vào ngữ cảnh chưa được cấp quyền, tạo nền tảng zero-trust cho các kho tri thức nội bộ
- Nhiều vector database như Milvus hay các dịch vụ dựa trên Amazon S3 hỗ trợ lọc metadata hiệu năng cao, khiến việc áp dụng trở nên thực tế ngay cả với các kho tri thức lớn
28. Kỹ năng như tài liệu onboarding có thể thực thi
- Agent Skills, curated shared instructions và các kỹ thuật context engineering khác xuất hiện xuyên suốt Radar lần này; trường hợp sử dụng đáng nhấn mạnh trong bối cảnh lập trình là kỹ năng như tài liệu onboarding có thể thực thi
- Có thể áp dụng ở nhiều cấp độ; trong codebase, kỹ năng
/_setupcó thể đảm nhiệm vai trò của scriptgo.shvà tệp README, kết hợp ngữ nghĩa thực thi của LLM với script cho các bước không thể script hóa - Vượt ra ngoài những gì script có thể làm, nó còn có thể xem xét động trạng thái hiện tại của codebase và môi trường
- Nhà tạo thư viện và API có thể cung cấp kỹ năng cho bên tiêu thụ như một phần của tài liệu, thông qua registry kỹ năng nội bộ hoặc bên ngoài (chẳng hạn Tessl)
- Hữu ích cho onboarding nền tảng nội bộ của nhóm, giúp hạ thấp rào cản sử dụng công nghệ cốt lõi hoặc giảm ma sát khi áp dụng design system; trước đây chủ yếu phụ thuộc vào máy chủ MCP nhưng nay đang chuyển sang dùng kỹ năng
- Cũng như các dạng tài liệu khác, thách thức giữ cho nội dung luôn cập nhật vẫn không biến mất; tuy nhiên, tài liệu có thể thực thi giúp nhận ra sự lỗi thời sớm hơn nhiều so với tài liệu tĩnh
29. Mô hình ngôn ngữ nhỏ
- SLM tiếp tục được cải thiện và trong một số trường hợp sử dụng cụ thể đã bắt đầu mang lại mức độ thông minh tốt hơn trên mỗi đô la so với LLM
- Các nhóm đang đánh giá SLM để giảm chi phí suy luận và tăng tốc workflow agentic; các tiến bộ gần đây cho thấy lợi ích ổn định về mật độ thông minh, giúp chúng đủ sức cạnh tranh với các LLM cũ trong các tác vụ như tóm tắt và lập trình cơ bản
- Điều này phản ánh sự chuyển dịch từ tư duy "càng lớn càng tốt" sang dữ liệu chất lượng cao hơn, model distillation, quantization
- Các mô hình như Phi-4-mini và Ministral 3 3B cho thấy mô hình được chưng cất vẫn giữ được nhiều năng lực của mô hình giáo viên lớn hơn
- Ngay cả các mô hình siêu nhỏ như Qwen3-0.6B và Gemma-3-270M cũng đã có thể chạy trên thiết bị biên
- Với các trường hợp sử dụng agentic mà trước đây LLM cũ là đủ, hãy cân nhắc SLM như một phương án thay thế chi phí thấp, độ trễ thấp và yêu cầu tài nguyên ít hơn
30. Đội ngũ coding agent
- Trong Radar trước, đây được mô tả là kỹ thuật mà nhà phát triển điều phối một nhóm nhỏ agent theo vai trò để cộng tác trong công việc lập trình
- Từ đó đến nay, rào cản áp dụng đã giảm; hỗ trợ sub-agent đang trở thành tính năng mặc định trong các công cụ coding agent phổ biến, bao gồm tính năng agent teams cung cấp điều phối tích hợp trong Claude Code
- Trong một đội ngũ agent, bộ điều phối chính thường quản lý việc sắp xếp thứ tự công việc và chạy song song; các agent cần có khả năng giao tiếp không chỉ với bộ điều phối mà còn với nhau
- Trường hợp sử dụng phổ biến là đội reviewer hoặc nhóm implementer phụ trách các phần khác nhau của ứng dụng như backend và frontend
- Một số bên trong ngành dùng thay thế cho nhau giữa "agent teams" và "agent swarms" (Claude Code mô tả tính năng agent teams là "our implementation of swarms"), nhưng việc phân biệt chúng vẫn có giá trị
- Việc một đội agent nhỏ, có chủ đích cùng cộng tác trong một nhiệm vụ khác khá nhiều so với swarm lớn về rào cản gia nhập, độ phức tạp và trường hợp sử dụng
31. Temporal fakes
- Mở rộng ý tưởng mô phỏng hệ thống thế giới thực vốn đã được dùng từ lâu trong các nền tảng IoT và công nghiệp
- AI coding agent đang làm giảm đáng kể công sức xây dựng simulator, giúp việc tạo ra bản sao có độ trung thực cao của các phụ thuộc bên ngoài trở nên dễ dàng hơn nhiều
- Khác với mock truyền thống chỉ trả về các cặp request-response tĩnh, temporal fakes duy trì state machine nội bộ và mô hình hóa diễn tiến theo thời gian của hệ thống thực
- Một nhóm đã dùng kỹ thuật này để phát triển stack observability cho trung tâm dữ liệu GPU quy mô lớn mà không cần mua sắm phần cứng vật lý
- Việc kiểm thử quy tắc cảnh báo, dashboard và phát hiện bất thường trên hệ thống thực là không thực tế (ví dụ: cố tình làm GPU quá nhiệt để xác minh cảnh báo thermal throttle)
- Thay vào đó, họ xây dựng fake cho các miền phần cứng như NVIDIA DCGM và fabric InfiniBand bằng Go
- Với simulator, họ có thể kích hoạt các kịch bản lỗi như thermal throttling, bão lỗi XID, link flap và lỗi PSU với cường độ và thời lượng có thể cấu hình, được điều phối bằng stack process-compose
- Một registry trung tâm định nghĩa các kịch bản lỗi hợp lệ, còn máy chủ MCP phơi bày khả năng tiêm các kịch bản đó cho agent
- Agent có thể kích hoạt lỗi như tiêm thermal throttle vào một GPU cụ thể, rồi xác minh rằng metric thay đổi đúng như kỳ vọng, cảnh báo được kích hoạt và dashboard được cập nhật
- Độ trung thực theo thời gian này khiến kỹ thuật trở nên có giá trị khi kiểm thử các hệ thống phức tạp nơi lỗi có thể dây chuyền; tuy nhiên, nếu fake không trung thành với hành vi thực tế thì sẽ có nguy cơ tạo ra sự tự tin sai lệch trong pipeline tự động hóa
32. Phân tích toxic flow cho AI
- Năng lực của agent đang vượt trước các thực hành bảo mật; sự trỗi dậy của các agent “khát quyền hạn” (permission-hungry) như OpenClaw đang khiến các nhóm ngày càng triển khai agent vào những môi trường phơi bày với lethal trifecta — truy cập dữ liệu riêng tư, tiếp xúc với nội dung không đáng tin cậy và khả năng giao tiếp ra bên ngoài
- Khi năng lực tăng lên thì bề mặt tấn công cũng mở rộng, khiến hệ thống phơi nhiễm với các rủi ro như prompt injection và tool poisoning
- Toxic flow analysis tiếp tục được công nhận là kỹ thuật chủ chốt để khảo sát các hệ thống agentic nhằm xác định các luồng dữ liệu không an toàn và các vector tấn công tiềm ẩn
- Rủi ro không còn chỉ giới hạn ở tích hợp MCP; các mẫu tương tự cũng được quan sát trong Agent Skills — tác nhân độc hại có thể đóng gói một kỹ năng trông hữu ích nhưng cài sẵn chỉ dẫn ẩn nhằm làm rò rỉ dữ liệu nhạy cảm
- Nhóm strongly khuyến nghị các đội xây dựng agent thực hiện toxic flow analysis và dùng các công cụ như Agent Scan để xác định các luồng dữ liệu không an toàn trước khi bị khai thác
33. Vision language models for end-to-end document parsing
- Việc phân tích tài liệu phụ thuộc vào pipeline nhiều giai đoạn kết hợp phát hiện bố cục, OCR truyền thống và script hậu xử lý, nên gặp khó với bố cục phức tạp và công thức toán học
- Phân tích tài liệu end-to-end bằng VLM coi hình ảnh tài liệu là một phương thức đầu vào duy nhất, giúp đơn giản hóa kiến trúc, đồng thời bảo toàn thứ tự đọc tự nhiên và nội dung có cấu trúc
- Các mô hình mã nguồn mở được huấn luyện chuyên biệt cho mục đích này như olmOCR-2, DeepSeek-OCR (3B) tối ưu hiệu quả token, và PaddleOCR-VL siêu nhỏ đều cho kết quả rất hiệu quả
- Dù VLM giúp thay thế pipeline nhiều giai đoạn và giảm độ phức tạp kiến trúc, chúng vẫn có xu hướng hallucination do bản chất sinh sinh
- Các trường hợp sử dụng có dung sai lỗi thấp vẫn cần cách tiếp cận lai hoặc OCR mang tính quyết định
- Các nhóm xử lý thu thập tài liệu quy mô lớn cần đánh giá cách tiếp cận tích hợp này để xác định liệu có thể duy trì độ chính xác đồng thời giảm chi phí bảo trì dài hạn hay không
Caution
34. Agent instruction bloat
- Các tệp ngữ cảnh như
AGENTS.md,CLAUDE.mdtheo thời gian tích lũy thêm tổng quan codebase, mô tả kiến trúc, quy ước và quy tắc - Mỗi phần bổ sung đều hữu ích nếu xét riêng lẻ, nhưng thường dẫn tới agent instruction bloat, khiến chỉ dẫn ngày càng dài và đôi khi xung đột với nhau
- Mô hình có xu hướng ít chú ý hơn đến nội dung bị chôn vùi ở giữa ngữ cảnh dài; hướng dẫn nằm sâu trong lịch sử hội thoại dài có thể bị bỏ sót
- Khi số lượng chỉ dẫn tăng lên, khả năng các quy tắc quan trọng bị bỏ qua cũng tăng theo
- Nhiều nhóm đang dùng AI để tạo tệp
AGENTS.md, nhưng nghiên cứu cho thấy bản viết tay thường hiệu quả hơn bản do LLM tạo - Khi sử dụng công cụ agentic, cần có chủ đích và chọn lọc với chỉ dẫn, chỉ thêm khi cần và liên tục tinh chỉnh để duy trì một bộ tối thiểu, nhất quán
- Hãy cân nhắc dùng progressive context disclosure để chỉ làm lộ ra những chỉ dẫn và năng lực cần thiết cho tác vụ hiện tại
35. AI-accelerated shadow IT
- AI tiếp tục hạ thấp rào cản để người không biết lập trình xây dựng các hệ thống phức tạp, cho phép thử nghiệm và xác thực sớm yêu cầu, nhưng cũng mang vào rủi ro shadow IT được AI tăng tốc
- Ngoài các nền tảng workflow no-code tích hợp AI API như OpenAI hay Anthropic, ngày càng có nhiều công cụ agentic như Claude Cowork được cung cấp cho người không biết lập trình
- Khi những bảng tính vốn âm thầm vận hành doanh nghiệp tiến hóa thành các workflow agentic tùy biến không có quản trị, chúng tạo ra rủi ro bảo mật đáng kể và kéo theo sự lan rộng của các giải pháp cạnh tranh cho những vấn đề tương tự
- Việc phân biệt giữa workflow dùng một lần và các quy trình quan trọng cần triển khai bền vững, sẵn sàng production là chìa khóa để cân bằng giữa thử nghiệm và kiểm soát
- Các tổ chức cần ưu tiên quản trị như một phần trong chiến lược áp dụng AI, đồng thời thúc đẩy thử nghiệm trong môi trường được kiểm soát
- Sandbox nội bộ được instrument phù hợp có thể cung cấp nơi để người không biết lập trình triển khai prototype với khả năng theo dõi mức sử dụng
- Kết hợp với danh mục chia sẻ workflow hiện có sẽ giúp các nhóm tìm ra những gì đã được xây dựng và tránh trùng lặp công sức
36. Codebase cognitive debt
- Khoảng cách ngày càng lớn giữa cách hệ thống được triển khai và sự hiểu biết chung của nhóm về cách và lý do nó hoạt động
- Khi AI làm tăng tốc độ thay đổi, đặc biệt với nhiều người đóng góp hoặc Coding Agent Swarms, các nhóm có thể mất dấu ý đồ thiết kế và các liên kết phụ thuộc ẩn
- Kết hợp với nợ kỹ thuật ngày càng tăng, điều này tạo thành một vòng lặp tự củng cố khiến hệ thống ngày càng khó suy luận hơn
- Sự hiểu biết yếu về hệ thống làm giảm khả năng của lập trình viên trong việc định hướng AI hiệu quả, khiến việc dự đoán edge case và dẫn agent tránh khỏi các bẫy kiến trúc trở nên khó khăn hơn
- Nếu không được quản lý, hệ thống có thể đạt tới điểm bùng phát nơi thay đổi nhỏ cũng kích hoạt lỗi ngoài dự kiến, bản sửa lỗi gây ra regression, và nỗ lực dọn dẹp lại làm tăng thay vì giảm rủi ro
- Hãy tránh sự dễ dãi với mã do AI tạo ra và đưa vào các biện pháp đối phó rõ ràng — feedback sensors for coding agents, theo dõi tải nhận thức của nhóm, và architecture fitness functions để tiếp tục cưỡng chế các ràng buộc cốt lõi khi AI tăng tốc đầu ra
37. Coding agent swarms
- Nếu team of coding agents là một nhóm nhỏ có chủ đích, thì coding agent swarm áp dụng hàng chục đến hàng trăm agent vào một vấn đề, với AI quyết định cấu hình và quy mô một cách động
- Các dự án như Gas Town và Ruflo (trước đây là Claude Flow) là những ví dụ điển hình
- Các mẫu ban đầu cho triển khai swarm đang xuất hiện — phân tách vai trò theo thứ bậc (orchestrator, supervisor, worker tạm thời), sổ cái công việc bền vững giúp agent phân chia và điều phối công việc (Gas Town dùng beads), và cơ chế merge để xử lý xung đột khi làm việc song song
- Hai thử nghiệm swarm đặc biệt đáng chú ý — tạo trình biên dịch C của Anthropic và thử nghiệm agent scaling của Cursor (tạo trình duyệt trong suốt một tuần)
- Cả hai nhóm đều chọn các trường hợp sử dụng có thể dựa vào đặc tả chi tiết sẵn có, trong đó trường hợp trình biên dịch C còn có bộ test toàn diện cung cấp phản hồi rõ ràng và đo lường được
- Những điều kiện này không đại diện cho phát triển sản phẩm điển hình, nơi yêu cầu kém được xác định hơn và việc xác minh khó hơn nhiều
- Dù vậy, các thử nghiệm này đang đóng góp vào những mẫu mới nổi giúp swarm chạy dài hạn trở nên khả thi về mặt kỹ thuật; chúng vẫn tốn kém và còn xa mới trưởng thành, nên khuyến nghị thận trọng khi áp dụng
38. Coding throughput như một thước đo năng suất
- Trợ lý lập trình AI thực sự mang lại cải thiện năng suất và đang nhanh chóng trở thành công cụ tiêu chuẩn cho lập trình viên
- Tuy nhiên, ngày càng nhiều tổ chức đo lường thành công bằng các chỉ số bề nổi như số dòng mã được tạo ra hoặc số lượng pull request (PR)
- Khi được dùng tách biệt, các chỉ số coding throughput như vậy có thể ảnh hưởng tiêu cực đến hành vi của nhân viên
- Kết quả thường là làn sóng mã không được căn chỉnh đúng, làm chậm quá trình review, gây hại cho throughput bàn giao và đưa vào rủi ro bảo mật, khi kỹ sư tạo PR đầy đầu ra AI được xem xét chưa đầy đủ, khiến reviewer phải qua lại nhiều vòng và làm tăng cycle time
- Các chỉ số này không nắm bắt được nỗ lực còn lại cần thiết để đưa mã do AI tạo ra phù hợp với kiến trúc, quy ước và mẫu của nhóm
- Có những chỉ báo sớm ý nghĩa hơn — first-pass acceptance rate, tức tần suất đầu ra AI có thể được sử dụng với mức làm lại tối thiểu
- Việc đo lường chỉ số này giúp bộc lộ phần nỗ lực bị che khuất và cho phép hành động cải thiện, để nhóm tiếp tục tăng mức chấp nhận thông qua tinh chỉnh prompt, cải thiện tài liệu priming và tăng cường trao đổi về thiết kế
- Điều này tạo ra vòng lặp tích cực khi đầu ra AI cần ít chỉnh sửa hơn, và first-pass acceptance liên kết tự nhiên với DORA metrics — tỷ lệ chấp nhận thấp có xu hướng làm tăng tỷ lệ thay đổi thất bại, còn các vòng lặp lặp đi lặp lại sẽ kéo dài lead time của thay đổi
- Khi trợ lý AI trở nên phổ biến, các tổ chức cần chuyển trọng tâm khỏi chỉ riêng coding throughput sang các chỉ số phản ánh tác động thực và kết quả bàn giao
39. Bỏ qua tính bền vững trong quy trình làm việc của agent
- Một anti-pattern được quan sát ở nhiều nhóm, dẫn đến các hệ thống chạy được trong phát triển nhưng thất bại trong môi trường production
- Những thách thức mà hệ thống phân tán phải đối mặt còn nổi bật hơn khi xây dựng agent; tư duy dự liệu thất bại và phục hồi một cách uyển chuyển vượt trội hơn cách tiếp cận mang tính phản ứng
- LLM và các lệnh gọi công cụ có thể thất bại do gián đoạn mạng và sự cố máy chủ, làm gián đoạn tiến trình của agent, gây trải nghiệm người dùng kém và làm tăng chi phí vận hành
- Một số hệ thống có thể chấp nhận điều này khi tác vụ ngắn hạn, nhưng các workflow phức tạp chạy trong nhiều ngày hoặc nhiều tuần thì cần có tính bền vững
- Các framework agent như LangGraph và Pydantic AI đang tích hợp thực thi bền vững
- Chúng cung cấp khả năng lưu bền trạng thái của tiến trình và các lệnh gọi công cụ, để agent có thể tiếp tục công việc sau khi gặp lỗi
- Với workflow có human in the loop, thực thi bền vững cho phép tạm dừng tiến trình trong khi chờ đầu vào
- Các nền tảng durable computing như Temporal, Restate và Golem cũng cung cấp hỗ trợ cho agent
- Khả năng quan sát đối với thực thi công cụ tích hợp sẵn và theo dõi quyết định giúp gỡ lỗi dễ hơn và cải thiện hiểu biết về hệ thống production
- Hãy bắt đầu với hỗ trợ thực thi bền vững native của framework agent; khi workflow trở nên quan trọng hơn hoặc phức tạp hơn, hãy tận dụng nền tảng độc lập
40. MCP theo mặc định
- Model Context Protocol (MCP) đang thu hút sự chú ý, và các nhóm cùng nhà cung cấp có xu hướng chọn nó làm lớp tích hợp mặc định giữa agent AI và hệ thống bên ngoài, dù vẫn có các lựa chọn thay thế đơn giản hơn
- Cần thận trọng khi dùng MCP làm mặc định; MCP thực sự mang lại giá trị bổ sung ở các hợp đồng công cụ có cấu trúc, ranh giới xác thực dựa trên OAuth và truy cập multi-tenant được quản trị
- Nhưng nó cũng tạo ra thứ mà Justin Poehnelt gọi là "abstraction tax" — mọi lớp giao thức giữa agent và API đều có thể làm mất độ trung thực, và với API phức tạp thì tổn thất này càng chồng chất
- Trên thực tế, một CLI được thiết kế tốt với đầu ra
--helprõ ràng, phản hồi JSON có cấu trúc và xử lý lỗi có thể dự đoán được có thể cung cấp mọi thứ agent cần mà không có overhead giao thức - Như Simon Willison chỉ ra, "gần như mọi thứ có thể đạt được bằng MCP đều có thể xử lý bằng công cụ CLI"
- Đây không phải là bác bỏ MCP; các nhóm nên tránh áp dụng mặc định và trước tiên tự hỏi liệu hệ thống của mình có thực sự cần khả năng tương tác ở cấp giao thức hay không
- MCP là hợp lý khi lợi ích về quản trị và tích hợp lớn hơn phần phức tạp tăng thêm cùng khả năng mất độ trung thực tiềm tàng
41. Môi trường phát triển truyền phát pixel
- Sử dụng desktop hoặc workstation từ xa kiểu VDI cho phát triển phần mềm, trong đó việc chỉnh sửa, build và debug được thực hiện qua desktop được truyền phát thay vì trên máy cục bộ hoặc môi trường từ xa tập trung vào mã
- Các tổ chức tiếp tục áp dụng, đặc biệt để đáp ứng mục tiêu về bảo mật, tiêu chuẩn hóa và onboarding cho các nhóm offshore cũng như các chương trình lift-and-shift lên đám mây
- Tuy nhiên trên thực tế, sự đánh đổi thường kém hiệu quả — độ trễ, độ trễ đầu vào và phản hồi màn hình không nhất quán tạo ra ma sát nhận thức liên tục, làm chậm tốc độ bàn giao và khiến công việc phát triển hằng ngày trở nên mệt mỏi hơn
- Không giống môi trường phát triển trên đám mây, Google Cloud Workstations, Coder hay VS Code Remote Development — những công cụ đưa năng lực tính toán đến gần mã hơn mà không cần truyền phát toàn bộ desktop
- Các thiết lập pixel-streamed ưu tiên kiểm soát tập trung hơn là luồng làm việc của lập trình viên, và thường được áp đặt mà không có đủ ý kiến từ các kỹ sư trực tiếp sử dụng
- Trừ khi yêu cầu bảo mật mạnh hoặc ràng buộc tuân thủ rõ ràng lớn hơn chi phí năng suất, không khuyến nghị dùng môi trường phát triển truyền phát pixel làm lựa chọn mặc định cho bàn giao phần mềm
[Platforms]
Adopt
— Không có
Trial
42. AG-UI Protocol
- Một giao thức mở và thư viện được thiết kế để chuẩn hóa giao tiếp giữa giao diện người dùng phong phú và agent AI ở backend
- Trước đây, việc xây dựng agentic UI đòi hỏi phần kết nối tùy chỉnh để hỗ trợ cộng tác hai chiều có lưu trạng thái; AG-UI giải quyết điều đó bằng kiến trúc nhất quán dựa trên sự kiện hỗ trợ các cơ chế truyền tải như server-sent events (SSE) và WebSockets
- Hỗ trợ streaming các bước suy luận, đồng bộ trạng thái và render động các thành phần UI
- Tuy nhiên, bối cảnh kiến trúc giao diện agent đang thay đổi nhanh chóng, và AG-UI cố ý đứng ngoài MCP để đóng vai trò là lớp giao diện giữa frontend và backend agent
- Một cách tiếp cận khác đang nổi lên ở các ứng dụng MCP mới, đó là đóng gói trực tiếp HTML và UI widget vào máy chủ MCP hoặc skill
- Khi các thành phần UI có thể được nhúng và phân phối cùng với công cụ — một mô hình liên quan đến các tiêu chuẩn lân cận như MCP-UI — điều này đặt ra câu hỏi về sự cần thiết của một lớp giao thức UI riêng biệt như AG-UI
- Đây vẫn là lựa chọn vững chắc để tách frontend UX khỏi điều phối backend, nhưng cần đánh giá vai trò của nó trong bối cảnh xu hướng tích hợp logic công cụ và UI trong hệ sinh thái MCP
43. Apache APISIX
- Gateway mã nguồn mở, hiệu năng cao, cloud-native giúp khắc phục các giới hạn của những giải pháp cũ dựa trên Nginx
- Được xây dựng trên LuaJIT của Nginx và OpenResty, sử dụng etcd làm kho lưu trữ cấu hình để loại bỏ độ trễ do reload, phù hợp với microservice động và kiến trúc serverless
- Điểm mạnh chính là kiến trúc hoàn toàn động và có thể mở rộng bằng plugin, với hệ sinh thái plugin đa ngôn ngữ gồm API và WASM, cho phép tùy biến quản lý lưu lượng, bảo mật và khả năng quan sát
- Hỗ trợ Kubernetes Gateway API, cho phép dùng Apache APISIX làm gateway cho Kubernetes, là ứng viên rất mạnh để thay thế Nginx ingress controller cũ
44. AWS Bedrock AgentCore
- Nền tảng agentic để xây dựng, chạy và vận hành agent an toàn ở quy mô lớn mà không phải gánh overhead quản lý hạ tầng, tương tự GCP Vertex AI Agent Builder và Azure AI Foundry Agent Service
- Dù có thể dễ dàng áp dụng nền tảng như một khối đen nguyên khối, nhưng kiến trúc tách biệt và chi tiết hơn sẽ mang lại thành công lớn hơn — dùng runtime AgentCore cho các mối quan tâm production như cô lập phiên, bảo mật và khả năng quan sát, còn logic orchestration được giữ trong các framework bên ngoài như LangGraph
- Sự tách biệt này giúp vẫn tận dụng được lợi ích của hạ tầng managed, đồng thời giữ được tính linh hoạt để thích ứng khi môi trường LLM thay đổi
- Việc ưu tiên tập trung vào runtime cho phép tổ chức dần đưa agentic workload vào production mà không phải trao quyền kiểm soát logic cốt lõi cho lớp orchestration phụ thuộc nhà cung cấp
45. Graphiti
- Công cụ knowledge graph theo thời gian mã nguồn mở của Zep, chứng minh tính khả thi trong production cho việc giải quyết bài toán bộ nhớ của LLM
- Trong khi vector store phẳng của pipeline RAG không theo dõi được sự thay đổi của dữ kiện theo thời gian, Graphiti thu thập dữ liệu thành các episode riêng biệt và duy trì cửa sổ hiệu lực song thời gian trên các cạnh của đồ thị; dữ kiện cũ không bị ghi đè mà bị vô hiệu hóa
- Khác với GraphRAG thiên về batch, công cụ này cập nhật đồ thị theo cách tăng dần và cung cấp tìm kiếm dưới một giây mà không cần gọi LLM tại thời điểm truy vấn nhờ tìm kiếm lai kết hợp semantic search, BM25 và duyệt đồ thị
- Có hai yếu tố thúc đẩy đà phát triển — benchmark được bình duyệt báo cáo cải thiện độ chính xác 18,5% và giảm 90% độ trễ, cùng với việc ra mắt MCP server hạng nhất giúp các agent tương thích Model Context Protocol có thể gắn bộ nhớ thời gian dài với rất ít công sức tích hợp
- Việc được cộng đồng đón nhận mạnh mẽ là thêm một tín hiệu về mức độ sẵn sàng cho production
- Neo4j là backend chính, còn FalkorDB là lựa chọn thay thế nhẹ hơn
- Cần lưu ý chi phí trích xuất LLM cho mỗi lần ghi và sự cần thiết phải cố định dependency do trạng thái phát hành trước 1.0
46. Langfuse
- Nền tảng kỹ thuật LLM mã nguồn mở, xử lý khả năng quan sát, quản lý prompt, đánh giá và quản lý dataset
- Kể từ lần đánh giá gần nhất, dự án đã trưởng thành đáng kể; kiến trúc v3 đưa ClickHouse, Redis và S3 vào làm các thành phần backend, cải thiện khả năng mở rộng nhưng cũng làm tăng độ phức tạp khi self-host
- Cả SDK Python và TypeScript đều được xây dựng native trên OpenTelemetry, rất phù hợp với các nhóm đang dùng khả năng quan sát dựa trên OTEL
- Các tính năng mới như SDK chạy thử nghiệm và hỗ trợ structured output cho thử nghiệm prompt đã mở rộng Langfuse từ công cụ theo dõi thuần túy sang workflow đánh giá có hệ thống
- Đáng để cân nhắc trong một không gian ngày càng chật chội với Arize Phoenix, Helicone và LangSmith
- Các nhóm chủ yếu xây trên Pydantic AI cũng nên cân nhắc Pydantic Logfire, vốn chọn cách tiếp cận rộng hơn như một nền tảng khả năng quan sát OTEL full-stack thay vì bộ công cụ chuyên cho LLM
- Là lựa chọn đáng tin cậy cho các nhóm cần theo dõi, đánh giá và quản lý prompt tích hợp trong một nền tảng self-host duy nhất; tuy nhiên nếu nhu cầu chính chỉ là khả năng hiển thị chi phí và độ trễ ở lớp model, thì nên đánh giá xem công cụ hẹp hơn như Helicone có đủ hay không
47. Port
- Cổng thông tin nhà phát triển nội bộ thương mại được thiết kế để cải thiện trải nghiệm nhà phát triển, cung cấp cho đội platform một nguồn sự thật duy nhất cho workflow self-service bằng cách tập trung tài sản phần mềm, tự động hóa workflow và áp đặt các tiêu chuẩn kỹ thuật
- Ngày càng trở nên quan trọng khi các tổ chức muốn chuẩn hóa workflow kỹ thuật, đồng thời đưa template, API, tự động hóa và agent ra cho nhà phát triển theo cách họ thực sự có thể sử dụng
- Không chỉ là cổng thông tin độc lập, Port còn có thể được dùng trực tiếp trong IDE thông qua API và lớp MCP của mình
- Hoạt động tốt với những tổ chức muốn có năng lực portal dạng sản phẩm mà không cần đầu tư nặng vào platform engineering
- Trong các dự án khách hàng, công cụ này giúp các đội platform tương đối nhỏ nhanh chóng cung cấp self-service hiệu quả đồng thời hỗ trợ hàng nghìn nhà phát triển
- Đáng để đánh giá với những tổ chức cần nhanh chóng có năng lực cổng thông tin nhà phát triển nội bộ và chấp nhận được các ràng buộc của nền tảng thương mại cùng sự phụ thuộc vào nhà cung cấp
48. Replit
- Nền tảng phát triển cộng tác cloud-native cung cấp môi trường phát triển tức thì, lập trình thời gian thực và trợ lý AI tích hợp ngay trong trình duyệt
- Kết hợp editor, runtime, triển khai và workflow lập trình với AI vào một nền tảng tích hợp duy nhất, cho phép nhà phát triển bắt đầu viết code ngay mà không cần thiết lập cục bộ
- IDE cộng tác dựa trên AI đặc biệt hữu ích trong việc giảm ma sát khi onboarding, rất phù hợp để cùng cả nhóm làm prototype
- Cũng rất hiệu quả cho các buổi đào tạo, chia sẻ kiến thức và bootcamp
- Một số người có thể xem Replit là nơi làm các dự án cá nhân có hỗ trợ AI, nhưng môi trường này đủ mạnh để cạnh tranh với IDE cục bộ truyền thống, giúp việc lặp lại và cộng tác dễ dàng hơn nhiều
49. SigNoz
- Nền tảng khả năng quan sát mã nguồn mở native với OpenTelemetry hỗ trợ thống nhất log, metric và trace
- Giải quyết nhu cầu APM và instrumentation cho microservice hiện đại cùng kiến trúc phân tán, đồng thời tránh bị khóa vào nhà cung cấp
- Tận dụng ClickHouse làm cơ sở dữ liệu cột mặc định để cung cấp lưu trữ có khả năng mở rộng, hiệu năng cao và tiết kiệm chi phí cùng với truy vấn nhanh, qua đó trở thành lựa chọn self-host mạnh mẽ thay thế cho các nền tảng như Datadog
- Hỗ trợ truy vấn linh hoạt thông qua PromQL và ClickHouse SQL, cùng cảnh báo qua nhiều kênh khác nhau
- Trong thực tế, SigNoz đã cho thấy có thể giảm mức tiêu thụ tài nguyên hạ tầng và tổng chi phí khả năng quan sát mà không làm suy giảm hiệu năng
- Dù có dịch vụ cloud managed, các Docker image và Helm chart sẵn sàng sử dụng là lựa chọn thực tế cho những tổ chức muốn duy trì quyền kiểm soát dữ liệu và hạ tầng
Assess
50. Agent Trace
- Đặc tả mở do Cursor đề xuất nhằm chuẩn hóa việc quy thuộc mã bằng AI
- Khi việc áp dụng coding agent tăng lên, nhu cầu hiểu ai đã chỉnh sửa mã được mở rộng vượt ra ngoài lập trình viên con người để bao gồm cả các thay đổi do AI tạo ra
- Các công cụ hiện có như
git blamecó thể cho thấy một dòng mã đã được sửa, nhưng không thể nắm bắt liệu thay đổi đó do con người, AI hay cả hai tạo ra - Agent Trace áp dụng cách tiếp cận trung lập với nhà cung cấp để định nghĩa phương pháp theo dõi thay đổi mã, và không đưa ra quan điểm về cách lưu trữ dữ liệu theo dõi
- Tương thích với nhiều hệ thống quản lý phiên bản, bao gồm Git, Mercurial và Jujutsu
- Đặc tả định nghĩa các loại tác nhân đóng góp như human, AI, mixed, unknown và các bản ghi theo dõi mô tả nguồn gốc của từng đóng góp
- Những tín hiệu áp dụng ban đầu xuất hiện qua sự hỗ trợ từ các công cụ như Cline, OpenCode và các triển khai như Git AI
51. ClickStack
- Nền tảng observability mã nguồn mở tương thích OpenTelemetry, hợp nhất log, trace, metric và session trong một kho dữ liệu hiệu năng cao duy nhất (dựa trên ClickHouse)
- Khi hạ tầng mở rộng và chi phí observability tăng lên, nhiều nhóm phải vật lộn với chuỗi công cụ telemetry phân mảnh và các nền tảng vendor đắt đỏ
- ClickStack tận dụng kho lưu trữ dạng cột của ClickHouse để cho phép truy vấn độ phân biệt cao với độ trễ dưới một giây trên khối lượng lớn dữ liệu telemetry, cung cấp nền tảng đơn giản và hiệu quả chi phí hơn cho observability
52. Coder
- Một lựa chọn thay thế tốt cho pixel-streamed development environments, tách biệt nơi mã chạy và cách lập trình viên tương tác
- Thay vì stream toàn bộ giao diện desktop, lập trình viên kết nối tới môi trường từ xa bằng IDE cục bộ như VS Code hoặc qua trình duyệt, mang lại trải nghiệm phản hồi tốt hơn mà không làm giảm khả năng sử dụng
- Mã chạy trên hạ tầng từ xa có thể mở rộng, còn môi trường được định nghĩa và quản lý như code, giúp các nhóm chuẩn hóa thiết lập phát triển và đơn giản hóa onboarding cho lập trình viên mới
- Đồng thời cũng thuận tiện trong việc cung cấp quyền truy cập có kiểm soát tới các hệ thống nội bộ và đơn giản hóa quyền truy cập cho các AI coding agent đã được phê duyệt trước
- Coder được xem là điểm trung gian giữa phát triển cục bộ và desktop ảo hóa hoàn toàn — cung cấp khả năng kiểm soát tập trung và governance mà không gặp các giới hạn về tính khả dụng của pixel-streamed VDI
- Là lựa chọn tốt cho các tổ chức cần môi trường thực thi từ xa hoặc được kiểm soát, đặc biệt ở những nơi cần tài nguyên tính toán cao hơn hoặc yêu cầu truy cập an toàn
- Cần đánh giá overhead vận hành và trách nhiệm bảo mật đi kèm với việc quản lý các môi trường như vậy
53. Databricks Agent Bricks
- Khi cách tiếp cận dựa trên agent trở nên phổ biến, các nền tảng dữ liệu đang tiến hóa để hỗ trợ các workload này một cách native thay vì như mô-đun bổ sung
- Databricks Agent Bricks cung cấp các thành phần dựng sẵn, tự động tối ưu hóa cho các mẫu AI phổ biến như trợ lý tri thức và data analyst
- Theo cách tiếp cận khai báo — lập trình viên định nghĩa mục tiêu và dữ liệu nền tảng, còn framework xử lý việc thực thi và tối ưu hóa
- Nhờ đơn giản hóa LLMOps và giảm công sức cần thiết cho data curation, các nhóm có thể tập trung vào kết quả kinh doanh hơn là boilerplate
- Một nhóm đã dùng nó cùng với custom agent để đánh giá và xây dựng giải pháp RAG phức tạp cho R&D tiền lâm sàng
- Nếu đã đầu tư vào hệ sinh thái Databricks và đang khám phá cách tiếp cận dựa trên agent cho các trường hợp sử dụng phổ biến như chatbot và trích xuất tài liệu, đây là lựa chọn đáng để đánh giá
54. DuckLake
- Định dạng data lake và catalog hợp nhất, giúp đơn giản hóa kiến trúc lakehouse bằng cách dùng cơ sở dữ liệu SQL tiêu chuẩn cho catalog và quản lý metadata
- Trong khi các định dạng bảng mở truyền thống như Iceberg hay Delta Lake phụ thuộc vào cấu trúc metadata dựa trên file phức tạp, DuckLake lưu metadata trong cơ sở dữ liệu catalog (như SQLite, PostgreSQL, DuckDB) đồng thời lưu trữ dữ liệu dưới dạng file Parquet trên ổ đĩa cục bộ hoặc kho object storage tương thích S3
- Cách tiếp cận lai này cải thiện độ trễ lập kế hoạch truy vấn và độ tin cậy giao dịch khi cập nhật đồng thời
- DuckDB đóng vai trò query engine thông qua extension
ducklake, cung cấp giao diện SQL quen thuộc cho các thao tác DDL và DML tiêu chuẩn - Giữ lại các đặc tính lakehouse như partitioning, nhưng bỏ qua index và khóa chính/khóa ngoại
- Hỗ trợ time travel, schema evolution và tuân thủ ACID, mang lại lựa chọn ít phức tạp cho các nhóm theo đuổi một stack phân tích độc lập
- Dù vẫn còn ở giai đoạn đầu về độ trưởng thành, đây là một lựa chọn thay thế đầy hứa hẹn và gọn nhẹ cho kiến trúc lakehouse truyền thống
- Phù hợp với môi trường dữ liệu được đơn giản hóa, nơi muốn tránh overhead vận hành gắn với hệ sinh thái dựa trên Spark hoặc Trino
55. FalkorDB
- Cơ sở dữ liệu đồ thị dựa trên Redis hỗ trợ Cypher, phù hợp cho các nhóm muốn có năng lực graph mà không cần triển khai một nền tảng graph nặng nề
- Là lựa chọn thực tế cho các tổ chức xây dựng workload AI và ứng dụng giàu quan hệ, nơi ma sát vận hành thấp là quan trọng và dịch vụ graph chạy trên máy chủ được ưu tiên hơn lưu trữ nhúng
- Dù kiến trúc đầy hứa hẹn và mô hình cho nhà phát triển khá dễ tiếp cận, vẫn cần xác minh hành vi production của FalkorDB về khả năng mở rộng, công cụ vận hành và độ trưởng thành dài hạn của hệ sinh thái trước khi quyết định triển khai rộng rãi
56. Google Dialogflow CX
- Nền tảng conversational AI được quản lý của Google Cloud, kết hợp máy trạng thái dựa trên đồ thị được xây dựng bằng Flows và Pages với các năng lực sinh nội dung dựa trên Vertex AI Gemini
- Trước đây Thoughtworks từng theo dõi tiền thân của nó là Dialogflow trong Radar
- CX đại diện cho một cuộc tái thiết kế đáng kể, và thu hút chú ý sau khi Google tích hợp các mô hình Vertex AI Gemini vào năm 2024, giới thiệu Generative Playbooks cho agent dựa trên chỉ dẫn và Data Store RAG để grounding phản hồi trên nội dung đã được lập chỉ mục
- Đã được dùng để xây dựng agent khám phá dữ liệu bằng ngôn ngữ tự nhiên, trong đó Dialogflow CX được chọn thay vì cách tiếp cận SDK tùy chỉnh nhờ môi trường low-code và Generative Playbooks
- Được cấu hình bằng few-shot prompting để chuyển các truy vấn ngôn ngữ tự nhiên thành SQL
- Các nhóm xây dựng trên Google Cloud nhận thấy việc triển khai giao diện ngôn ngữ tự nhiên trên dữ liệu nội bộ có cấu trúc nhanh hơn so với stack agent tùy chỉnh
- Tuy nhiên, không có free tier, mức độ phụ thuộc sâu vào Google Cloud dẫn đến lock-in nhà cung cấp đáng kể, và cần lên kế hoạch cho công sức context engineering
57. MCP Apps
- Phần mở rộng chính thức đầu tiên của Model Context Protocol, cho phép máy chủ MCP trả về các giao diện HTML tương tác được render trực tiếp trong cuộc trò chuyện dưới dạng dashboard, form và trực quan hóa
- Được Anthropic, OpenAI và các cộng tác viên mã nguồn mở cùng phát triển, chuẩn hóa schema tài nguyên
ui://để công cụ khai báo các mẫu UI được render trong sandbox iframe và có thể graceful degradation thành văn bản khi host không hỗ trợ UI - Khác với AG-UI, vốn hoạt động như một lớp thư viện riêng biệt, MCP Apps đóng gói UI trực tiếp bên trong máy chủ MCP
- Thiết kế hai chiều cho phép mô hình quan sát hành vi người dùng, còn giao diện có thể xử lý dữ liệu thời gian thực và thao tác trực tiếp mà văn bản không thể làm được
- Các client bao gồm Claude, ChatGPT, VS Code và Goose đã phát hành hỗ trợ
- Các nhóm đang khám phá tương tác agent phong phú hơn cần đánh giá liệu độ phức tạp bổ sung này có xứng đáng với trường hợp sử dụng của họ so với phản hồi văn bản thuần túy hay không
58. Monarch
- Khung lập trình phân tán mã nguồn mở mang sự đơn giản của workload PyTorch trên một máy đơn lẻ lên các cụm GPU lớn
- Cung cấp Python API để tạo tiến trình và actor từ xa, đồng thời nhóm chúng thành bộ sưu tập mesh có hỗ trợ nhắn tin broadcast
- Cung cấp khả năng chịu lỗi thông qua supervision tree, cho phép lỗi lan truyền lên trên theo phân cấp để xử lý lỗi gọn gàng và khôi phục chi tiết
- Hỗ trợ truyền point-to-point RDMA để di chuyển bộ nhớ GPU·CPU hiệu quả, đồng thời cung cấp trừu tượng tensor phân tán để actor có thể làm việc với tensor được phân mảnh trên toàn bộ tiến trình mà vẫn giữ mô hình lập trình mệnh lệnh
- Monarch được xây dựng trên backend Rust hiệu năng cao
- Dù vẫn đang ở giai đoạn phát triển ban đầu, trừu tượng hóa giúp tensor phân tán hoạt động như cục bộ rất mạnh mẽ, có thể giảm đáng kể độ phức tạp của huấn luyện AI phân tán quy mô lớn
59. Neutree
- Nền tảng mã nguồn mở để quản lý và phục vụ LLM trên hạ tầng riêng, định vị như một lớp dịch vụ mô hình cho AI doanh nghiệp
- Cung cấp control plane hợp nhất cho quản lý vòng đời mô hình, serving suy luận và lập lịch tính toán trên nhiều loại phần cứng khác nhau như bộ tăng tốc NVIDIA·AMD·Intel
- Khi các tổ chức chuyển từ API được host sang tự host và triển khai có quản trị, Neutree giải quyết một khoảng trống rõ ràng — vận hành workload LLM với các năng lực cấp doanh nghiệp như multi-tenancy, kiểm soát truy cập, hạch toán mức sử dụng và trừu tượng hóa hạ tầng
- Tách model serving khỏi logic ứng dụng để các nhóm có thể triển khai, mở rộng và định tuyến mô hình trên nhiều môi trường gồm bare metal, VM và container mà không bị gắn chặt vào một nhà cung cấp cloud cụ thể
- Tuy nhiên, đây vẫn là công nghệ tương đối mới, cần tiếp cận thận trọng khi áp dụng
- Hệ sinh thái, độ trưởng thành vận hành và năng lực tích hợp vẫn đang tiếp tục phát triển so với các nền tảng ML đã được thiết lập hơn
- Đầy hứa hẹn, nhưng phù hợp nhất với các nhóm sẵn sàng đầu tư vào việc đánh giá và định hình hạ tầng AI doanh nghiệp mới nổi
60. OptScale
- Nền tảng FinOps multi-cloud mã nguồn mở hỗ trợ các workload AI/ML nặng, nơi chi phí GPU và thí nghiệm có thể tăng rất nhanh
- Thu thập dữ liệu thanh toán và sử dụng từ cloud API, rồi kết hợp khả năng quan sát chi phí, khuyến nghị tối ưu hóa, theo dõi ngân sách và phát hiện bất thường trong một hệ thống duy nhất với cảnh báo dựa trên chính sách phù hợp với cấu trúc nhóm hoặc doanh nghiệp
- So với OpenCost, OptScale cung cấp phân tích ở cấp Kubernetes đồng thời bao phủ các trường hợp sử dụng FinOps ngoài Kubernetes rộng hơn
- So với các bộ giải pháp doanh nghiệp như IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost và Flexera One, nó mang lại nhiều quyền kiểm soát hơn và ít phụ thuộc nhà cung cấp hơn
- Đổi lại là chi phí vận hành cao hơn, độ phức tạp triển khai lớn hơn, các edge case của connector và lo ngại liên quan đến vệ sinh bảo mật container image
- Cần được xem như một khoản đầu tư vào năng lực nền tảng chứ không phải sản phẩm plug-and-play
61. Rhesis
- Nền tảng kiểm thử mã nguồn mở cho LLM và ứng dụng agentic, cho phép các nhóm định nghĩa hành vi mong đợi bằng ngôn ngữ tự nhiên, tạo kịch bản kiểm thử đối kháng và đánh giá kết quả qua cả UI lẫn SDK hoặc API
- Trong khi các cách kiểm thử truyền thống giả định hành vi có tính quyết định, hệ thống AI thất bại theo những cách tinh vi hơn — bao gồm jailbreak, tương tác nhiều lượt, vi phạm chính sách và các edge case phụ thuộc ngữ cảnh
- Đây là nền tảng hữu ích cho các nhóm cần nhiều hơn việc chỉ đánh giá prompt đơn giản
- Các tính năng như conversation simulator, kiểm thử đối kháng, tracing dựa trên OpenTelemetry và tự host qua Docker là cách tiếp cận thực tế để đưa các nhóm sản phẩm, lĩnh vực và kỹ thuật vào cùng một quy trình kiểm thử chung
- Lợi ích chính là cải thiện khả năng xác thực trước khi đưa vào production đối với các hệ thống phi quyết định
- Cần cân nhắc các đánh đổi quen thuộc như chi phí đánh giá, giới hạn của metric kiểu LLM-as-judge và việc nền tảng đòi hỏi yêu cầu được xác định rõ trước khi có thể tạo ra giá trị
- Đáng để đánh giá đối với các nhóm xây dựng hệ thống LLM hoặc agentic cần khả năng kiểm thử cộng tác, lặp lại được vượt xa các kiểm tra prompt cơ bản
62. RunPod
- Khi các tổ chức gia tăng thử nghiệm huấn luyện và fine-tuning LLM, các hyperscaler như AWS và Google Cloud có thể mang đến chi phí cao và khả năng sẵn có phần cứng hạn chế
- RunPod cung cấp một lựa chọn thay thế hiệu quả về chi phí cho workload AI đòi hỏi tính toán lớn
- Vận hành như một chợ GPU phân tán toàn cầu, cung cấp khả năng truy cập on-demand tới nhiều loại phần cứng, từ cụm H100 cấp doanh nghiệp đến RTX 4090 cấp tiêu dùng, thường với chi phí thấp hơn đáng kể so với các nhà cung cấp cloud truyền thống
- Đây là lựa chọn thực tế đáng để đánh giá cho các nhóm cần hạ tầng linh hoạt, thân thiện ngân sách để phát triển, huấn luyện và triển khai mô hình AI mà không cần cam kết dài hạn hay bị khóa chặt vào nhà cung cấp
63. Sprites
- Môi trường sandbox trạng thái do Fly.io thiết kế để thực thi cô lập cho AI coding agent
- Trong khi phần lớn sandbox cho agent chỉ tồn tại tạm thời để thực hiện công việc rồi biến mất, Sprites cung cấp môi trường Linux bền vững với khả năng checkpoint và khôi phục không giới hạn
- Nhà phát triển có thể chụp snapshot toàn bộ trạng thái môi trường, bao gồm dependency đã cài đặt, cấu hình runtime và thay đổi hệ thống tệp, rồi rollback nếu agent đi chệch hướng
- Điều này vượt xa những gì chỉ Git có thể khôi phục, bằng cách ghi lại trạng thái hệ thống mà version control không theo dõi
- Khi các nhóm ngày càng chấp nhận sandboxed execution for coding agents như một mặc định hợp lý, Sprites đại diện cho một đầu của phổ lựa chọn — cách tiếp cận trạng thái, không dùng đồ dùng một lần, đánh đổi sự đơn giản của container tạm thời để lấy các tùy chọn khôi phục phong phú hơn
- Các nhóm đang đánh giá sandboxing cho agent nên cân nhắc Sprites tùy theo nhu cầu và quy trình làm việc của mình, cùng với các lựa chọn tạm thời như Dev Containers
64. torchforge
- Thư viện reinforcement learning native cho PyTorch được thiết kế cho hậu huấn luyện quy mô lớn của mô hình ngôn ngữ
- Cung cấp trừu tượng cấp cao tách logic thuật toán khỏi các mối quan tâm hạ tầng, điều phối Monarch cho tuning, vLLM cho suy luận và torchtitan cho huấn luyện phân tán
- Cách tiếp cận này cho phép nhà nghiên cứu biểu đạt workflow reinforcement learning phức tạp bằng API giống pseudocode, đồng thời mở rộng workload trên hàng nghìn GPU mà không cần quản lý các chi tiết cấp thấp như đồng bộ tài nguyên, lập lịch hay khả năng chịu lỗi
- Bằng cách tách biệt “cái gì” (thiết kế thuật toán) khỏi “như thế nào” (thực thi phân tán), torchforge đơn giản hóa việc thử nghiệm và lặp lại trong các hệ thống alignment quy mô lớn
- Đây là một bước đi hữu ích giúp các kỹ thuật hậu huấn luyện nâng cao dễ tiếp cận hơn, nhưng các nhóm vẫn cần đánh giá độ trưởng thành và mức độ phù hợp trong hạ tầng ML hiện có
65. torchtitan
- Nền tảng native cho PyTorch nhằm tiền huấn luyện quy mô lớn các mô hình generative AI, cung cấp triển khai tham chiếu gọn gàng và mô-đun cho huấn luyện phân tán hiệu năng cao
- Kết hợp các primitive phân tán tiên tiến thành một hệ thống gắn kết để hỗ trợ song song hóa 4D gồm dữ liệu·tensor·pipeline·context 4D parallelism
- Khi việc huấn luyện các mô hình ở quy mô như Llama 3.1 405B đòi hỏi quy mô và hiệu quả rất lớn, torchtitan mang lại nền tảng thực tiễn để xây dựng và vận hành các workload huấn luyện lớn
- Thiết kế mô-đun giúp các nhóm dễ dàng thử nghiệm và phát triển chiến lược song song hóa mà vẫn giữ được mức độ sẵn sàng cho production
- Đây là bước tiến hữu ích trong việc chuẩn hóa huấn luyện mô hình quy mô lớn trong hệ sinh thái PyTorch, đặc biệt phù hợp với các nhóm đang xây dựng hạ tầng tiền huấn luyện riêng
[Tools]
Adopt
66. Axe-core
- Công cụ kiểm thử mã nguồn mở để phát hiện các vấn đề về khả năng truy cập trên website và các ứng dụng khác dựa trên HTML
- Kiểm tra trang tuân thủ các tiêu chuẩn như WCAG — bao gồm các mức phù hợp A, AA, AAA — và chỉ ra các thực hành tốt phổ biến về accessibility
- Kể từ lần đầu xuất hiện trên Radar ở mức Trial vào năm 2021, nhiều nhóm đã áp dụng Axe-core cho khách hàng và nội bộ
- Accessibility ngày càng trở thành một thuộc tính chất lượng thiết yếu; tại châu Âu, các quy định như European Accessibility Act buộc các tổ chức phải đáp ứng yêu cầu về khả năng truy cập của dịch vụ số
- Phù hợp tốt với quy trình phát triển hiện đại nhờ khả năng kích hoạt các kiểm tra tự động trong pipeline CI
- Giúp nhóm ngăn hồi quy, duy trì tuân thủ và nhận phản hồi sớm trong quá trình phát triển, đặc biệt là đảm bảo accessibility trở thành một phần của vòng phản hồi khi AI hỗ trợ và các công cụ agentic coding được áp dụng rộng rãi
67. Claude Code
- Công cụ agentic AI coding của Anthropic để lập kế hoạch và thực thi các workflow phức tạp nhiều bước
- Các nhóm trong và ngoài Thoughtworks sử dụng hằng ngày để phân phối phần mềm production, được xem rộng rãi là chuẩn tham chiếu về năng lực và tính dễ dùng, nên được chuyển lên Adopt
- Môi trường agent CLI đã mở rộng nhanh chóng với các công cụ như OpenAI Codex CLI, Google Gemini CLI, OpenCode, pi, nhưng Claude Code vẫn là lựa chọn được nhiều nhóm ưa chuộng
- Việc sử dụng đã vượt ra ngoài viết mã để thực thi các workflow rộng hơn, bao gồm đặc tả, story, cấu hình, hạ tầng, tài liệu và các quy trình kinh doanh được định nghĩa bằng markdown
- Tiếp tục giới thiệu các tính năng mà những công cụ khác đang theo sau, như skills, subagents, điều khiển từ xa và workflow nhóm mang tính agentic
- Các nhóm áp dụng cần thực hành vận hành có chừng mực và pairing; agentic coding chuyển nỗ lực của lập trình viên từ triển khai thủ công sang đặc tả ý định, ràng buộc và ranh giới review
- Có thể tăng tốc phân phối, nhưng cũng làm tăng nguy cơ sự tự mãn với mã do AI tạo ra, khiến hệ thống khó bảo trì và phát triển hơn cho cả con người lẫn agent
- Sự quan tâm đang tăng lên đối với context engineering để làm cho workflow agentic đáng tin cậy hơn (nhận biết chủ đề, chọn context theo phạm vi), cách triển khai curated shared instructions và harness engineering
68. Cursor
- Cùng với Claude Code, đây là một trong những coding agent được áp dụng rộng rãi nhất, liên tục xuất hiện như lựa chọn mặc định của các nhóm delivery
- Đã trưởng thành thành một môi trường agentic toàn diện với các tính năng như plan mode, hooks, subagents
- Dù các agent chạy trên terminal cũng phổ biến, nhiều lập trình viên nhận thấy việc giám sát agent trong IDE mang lại trải nghiệm phong phú hơn để xem lại và tinh chỉnh kế hoạch trước khi thực thi
- Việc áp dụng Agent Client Protocol giúp hạ thấp rào cản với lượng người dùng JetBrains lớn, đưa năng lực của Cursor vào các IDE đó
- Khả năng kiểm tra từng bước của agent hoặc quay lui về bước trước khi kế hoạch đi chệch hướng là đặc biệt có giá trị
- Việc tận dụng Agent Skills giúp các nhóm đóng gói chỉ dẫn có thể tái sử dụng, hỗ trợ chuẩn hóa cách agent tương tác với các codebase phức tạp
- Lợi ích về năng suất là rõ ràng, nhưng mức tự chủ agentic vẫn đòi hỏi kiểm thử tự động nghiêm ngặt và giám sát của con người để bắt các hồi quy tinh vi
69. Kafbat UI
- Web UI mã nguồn mở miễn phí để giám sát và quản lý các cụm Apache Kafka
- Đặc biệt hữu ích khi nhóm cần kiểm tra các payload khó đọc trong quá trình debug hằng ngày
- Các nhóm thường bị kẹt khi debug các message đã mã hóa; hỗ trợ SerDes tích hợp sẵn và có thể mở rộng bằng plugin của Kafbat UI cung cấp cách thực tế để áp dụng giải mã hoặc decoding tùy chỉnh nhằm đọc lại message
- Mang lại phản hồi nhanh hơn và trải nghiệm vận hành tốt hơn cho đội ngũ phát triển và hỗ trợ so với các script debug dùng một lần
- Được khuyến nghị cho các môi trường dùng Kafka nặng, nơi việc kiểm tra message an toàn và xử lý sự cố hiệu quả nên là thực hành tiêu chuẩn
70. mise
- Kể từ lần đánh giá trước, đã tiến hóa từ một lựa chọn thay thế hiệu năng cao cho asdf thành frontend mặc định cho môi trường phát triển
- Hợp nhất ba mối quan tâm vốn bị phân mảnh là quản lý phiên bản công cụ và ngôn ngữ, quản lý biến môi trường, thực thi tác vụ vào một công cụ hiệu năng cao viết bằng Rust, được cấu hình bằng file khai báo
mise.toml - mise dễ thiết lập và hoạt động tốt với pipeline CI/CD
- Thông qua tích hợp với Cosign và GitHub Artifact Attestations, nó bổ sung lớp bảo mật chuỗi cung ứng thường thiếu trong các trình quản lý phiên bản khác
- Là lựa chọn mặc định được khuyến nghị cho các nhóm muốn chuẩn hóa thiết lập môi trường phát triển
- Đặc biệt hữu ích trong các môi trường polyglot với nhiều microservice khi các codebase đồng thời áp dụng phiên bản ngôn ngữ mới
- Cũng hoạt động cùng các công cụ chuyên biệt theo ngôn ngữ hiện có, nên các nhóm không cần di chuyển toàn bộ cùng lúc
Trial
71. cargo-mutants
- Công cụ mutation testing cho Rust, giúp vượt ra ngoài các chỉ số code coverage đơn thuần
- Tự động chèn các lỗi nhỏ có chủ đích như hoán đổi toán tử hoặc trả về giá trị mặc định để xác minh liệu các bài test hiện có có thực sự bắt được hồi quy hay không
- Cách tiếp cận zero-config đặc biệt hiệu quả; khác với các công cụ trước đây, không cần thay đổi source tree
- Cung cấp vòng phản hồi hữu ích cho các nhóm mới làm quen với Rust, giúp xác định các edge case còn thiếu và cải thiện độ tin cậy của test unit lẫn integration
- cargo-mutants là một triển khai chuyên biệt của mutation testing, kỹ thuật cũng đang được thử nghiệm trong các hệ sinh thái khác
- Chi phí chính là thời gian chạy test tăng lên, vì mỗi mutant đều cần incremental build
- Để quản lý điều này, nên nhắm vào các module cụ thể trong quá trình phát triển cục bộ hoặc chạy toàn bộ test suite bất đồng bộ trong CI
- Đôi khi có thể cần lọc các mutant tương đương về mặt logic, nhưng mức tăng độ tin cậy của test thu được vượt trội so với phần nhiễu bổ sung
72. Claude Code plugin marketplace
- Trước đây, việc chia sẻ lệnh tùy chỉnh, agent chuyên biệt, máy chủ MCP và skill là một quy trình thủ công khi nhà phát triển phải sao chép và dán chỉ dẫn từ Confluence hoặc các nguồn bên ngoài khác
- Điều này thường dẫn đến lệch phiên bản, khiến thành viên trong nhóm sử dụng các chỉ dẫn dự án đã lỗi thời
- Các nhóm đang tận dụng Claude Code plugin marketplace để dùng mô hình triển khai dựa trên Git, phân phối các lệnh, prompt và skill dùng chung
- Bằng cách lưu trữ marketplace nội bộ của nhóm trên GitHub hoặc nền tảng tương tự, tổ chức có thể phân phối các artifact này an toàn và nhất quán hơn
- Nhà phát triển có thể đồng bộ trực tiếp các công cụ và quy trình làm việc dựa trên AI vào môi trường cục bộ thông qua CLI
- Các coding agent khác như Cursor cũng hỗ trợ plugin marketplace cho nhóm, cho phép cách chia sẻ các artifact này được tinh gọn và có quản trị hơn
73. Dev Containers
- Cách tiếp cận tiêu chuẩn hóa để định nghĩa môi trường phát triển đóng gói bằng container có thể tái lập bằng tệp cấu hình
devcontainer.json - Ban đầu được thiết kế để cung cấp thiết lập phát triển nhất quán cho nhóm, nhưng đã xuất hiện một trường hợp sử dụng mới hấp dẫn là môi trường thực thi sandbox cho coding agent
- Khi chạy AI coding agent trong Dev Container, chúng được cô lập khỏi hệ thống tệp, thông tin xác thực và mạng của máy chủ, cho phép nhóm cấp quyền rộng cho agent mà không gây rủi ro cho máy host
- Đặc tả mở được hỗ trợ gốc trong các công cụ dựa trên VS Code như VS Code và Cursor
- DevPod mở rộng hỗ trợ devcontainer tới mọi trình soạn thảo hoặc quy trình làm việc terminal qua SSH
- Áp dụng mặc định dùng một lần (tức là container được dựng lại từ cấu hình mỗi lần khởi động), mang lại ranh giới bảo mật sạch với cái giá là phải cài đặt lại công cụ và phụ thuộc
- Với các nhóm cần trạng thái bền vững hoặc khả năng checkpoint và khôi phục, có thể dùng các cách tiếp cận khác như Sprites
- Ngoài sandbox cho agent, còn mang lại lợi ích bảo mật chuỗi cung ứng khi định nghĩa toolchain trong cấu hình khai báo, giảm nguy cơ tiếp xúc với gói bị xâm phạm và phụ thuộc ngoài dự kiến
74. Figma Make
- Trước đây từng là blip self-serve UI prototyping with GenAI, kỹ thuật này nay đã được các nhóm phát triển, bao gồm product manager và designer, áp dụng rộng rãi để tạo prototype độ trung thực cao có thể dùng cho kiểm thử người dùng
- Figma Make là một lựa chọn mạnh mẽ nhờ tận dụng các component và layer thực từ design system, giúp kết quả rất giống ứng dụng production
- Sử dụng các mô hình AI tùy chỉnh được huấn luyện trên những mẫu thiết kế chất lượng cao
- Các nhóm đang dùng nó để tạo màn hình thiết kế mới, cải thiện màn hình hiện có và xây dựng prototype có thể chia sẻ để thu thập phản hồi người dùng nhanh chóng
75. OpenAI Codex
- Đã phát triển thành công cụ lập trình agentic độc lập, có thể dùng qua ứng dụng macOS và CLI
- Được thiết kế để giao phó công việc tự động — khi nhận prompt, nó lên kế hoạch, triển khai và lặp lại trên nhiều tệp với mức can thiệp tối thiểu
- Hiệu quả như một công cụ tạo bản nháp tốc độ cao, đặc biệt hữu ích cho công việc greenfield và các tác vụ triển khai lặp lại
- Tuy nhiên, OpenAI Codex có xu hướng đề xuất các pattern thư viện hợp lý về mặt logic nhưng đã lỗi thời về mặt chức năng, nên kiểm thử tự động và review của con người là bắt buộc
- Giống như các công cụ agentic khác trong Radar này, rủi ro tích lũy technical debt tinh vi là có thật, và tỷ lệ thuận với mức độ tự chủ mà nhóm trao cho nó
76. Typst
- Hệ thống sắp chữ dựa trên markup, đã khẳng định vị thế là người kế thừa hiện đại của LaTeX cho việc tạo tài liệu bằng lập trình
- Kết hợp typography chất lượng cao với cú pháp đơn giản hơn, đồng thời cung cấp pipeline biên dịch rất nhanh có thể biên dịch cả tài liệu rất lớn chỉ trong một phần nhỏ thời gian so với toolchain LaTeX truyền thống
- Typst cung cấp thông báo lỗi rõ ràng hơn cùng năng lực scripting tích hợp như điều kiện và vòng lặp
- Có thể nạp dữ liệu có cấu trúc từ JSON hoặc CSV, rất phù hợp cho việc tạo tài liệu tự động
- Các nhóm dùng nó để tạo sao kê và báo cáo cho khách hàng ngân hàng và dịch vụ tài chính cần tạo ở quy mô lớn với định dạng nhất quán
- Trình biên dịch mã nguồn mở có thể tự lưu trữ, và hệ sinh thái đang phát triển bao gồm các gói do cộng đồng đóng góp
- Dễ tiếp cận hơn LaTeX trong khi vẫn mang lại chất lượng typography tương đương
Assess
77. Agent Scan
- Trình quét bảo mật cho hệ sinh thái agent, phát hiện các thành phần cục bộ bao gồm máy chủ MCP và skill, đồng thời gắn cờ các rủi ro như prompt injection, tool poisoning, toxic flow, secret hardcode và xử lý thông tin xác thực không an toàn
- Giải quyết khoảng trống mới nổi về khả năng quan sát chuỗi cung ứng của agent, cung cấp cách thực tế để kiểm kê và kiểm thử bề mặt agent đang tăng trưởng nhanh
- Tuy nhiên, việc áp dụng cần có chủ đích — quá trình quét yêu cầu chia sẻ metadata của thành phần với Snyk API, và chất lượng tín hiệu cũng như tỷ lệ false positive cần được xác minh trong môi trường thực tế
- Điều quan trọng là xác nhận giá trị vận hành trước khi nhóm biến Agent Scan thành một phần của cổng kiểm soát bắt buộc trong quy trình bàn giao
78. Beads
- Trình theo dõi issue dựa trên Git, được thiết kế như lớp bộ nhớ bền vững cho coding agent
- Thay vì dựa vào các bản kế hoạch Markdown tạm thời, nó cung cấp cho agent đồ thị công việc có cấu trúc thân thiện với branch để quản lý quan hệ chặn, phát hiện công việc đã sẵn sàng và điều phối các tác vụ dài hạn qua nhiều phiên
- Beads được xây dựng trên Dolt, một cơ sở dữ liệu SQL có kiểm soát phiên bản tích hợp, hỗ trợ branch, merge, diff và sao chép bảng tương tự như Git repository
- Đại diện cho một danh mục mới của công cụ bộ nhớ dự án và theo dõi công việc native cho agent
- Các dự án giai đoạn đầu khác trong không gian này gồm ticket và tracer
- Không giống các hệ thống ticket truyền thống như GitHub Issues và Jira, nó cho phép các quy trình làm việc mới cho điều phối thực thi đa agent tự chủ, bao gồm cả việc agent tự giao việc cho nhau
79. Bloom
- Công cụ của Anthropic dành cho các nhà nghiên cứu an toàn AI để đánh giá hành vi của LLM
- Phát hiện các hành vi như sycophancy (xu nịnh) và self-preservation (tự bảo toàn)
- Thay vì benchmark tĩnh, nó dùng cấu hình hạt giống để định nghĩa hành vi mục tiêu và các tham số đánh giá, sau đó tạo động nhiều cuộc hội thoại kiểm thử và đánh giá kết quả
- Cách tiếp cận này đối với đánh giá hành vi tự động là cần thiết để theo kịp tốc độ phát hành mô hình, đồng thời cho phép các nhóm nghiên cứu bên ngoài thực hiện đánh giá
- Petri là công cụ đi kèm để xác định hành vi nào xuất hiện trong một mô hình nhất định, còn Bloom xác định các hành vi đó xảy ra thường xuyên đến mức nào trong những kịch bản nào; cùng nhau chúng tạo thành một bộ đánh giá đầy đủ hơn
- Một mối lo là Bloom cần một mô hình teacher (hoặc evaluator) để đánh giá mô hình student đã cho; mô hình teacher có thể có điểm mù và thiên kiến, nên dùng nhiều evaluator có thể giảm thiên lệch của kết quả
- Đáng để các nhóm nghiên cứu an toàn AI đánh giá như phần bổ sung cho benchmark tĩnh trong việc đánh giá các hành vi mô hình mới nổi
80. CDK Terrain
- Nhánh fork cộng đồng của Cloud Development Kit for Terraform(CDKTF) mà HashiCorp đã ngừng sử dụng và lưu trữ vào tháng 12 năm 2025
- CDK Terrain(CDKTN) tiếp quản từ điểm CDKTF bị dừng lại, cho phép các nhóm định nghĩa hạ tầng bằng TypeScript, Python, Go và provision thông qua Terraform hoặc OpenTofu
- Với các nhóm đã đầu tư vào CDKTF, dự án này bảo toàn mã và workflow hiện có, đồng thời cung cấp lộ trình di chuyển thay vì ép buộc chuyển sang HCL hoặc Pulumi
- Dự án phát hành hằng tháng và bổ sung hỗ trợ OpenTofu như một mục tiêu hạng nhất
- Tuy nhiên, fork do cộng đồng duy trì của một dự án bị vendor từ bỏ luôn đi kèm rủi ro cố hữu về hỗ trợ dài hạn, và cách tiếp cận CDKTF đã không đạt được mức độ áp dụng rộng rãi
- HashiCorp khi khai tử đã viện dẫn sự thiếu phù hợp giữa sản phẩm và thị trường
- Các nhóm hiện đang dùng CDKTF nên đánh giá CDK Terrain như một lựa chọn kế thừa, đồng thời cân nhắc liệu đây có phải thời điểm thích hợp để di chuyển sang hướng tiếp cận được hỗ trợ rộng hơn hay không
81. CodeScene
- Từng là một blip về social code analysis vào năm 2017, nhưng sự gia tăng áp dụng coding agent đang tạo ra mối quan tâm mới đối với các công cụ như CodeScene
- Đây là công cụ behavioral code analysis dùng để xác định technical debt bằng cách kết hợp metric về độ phức tạp mã với lịch sử version control
- Khác với static analysis truyền thống, công cụ này nhấn mạnh vào các "hotspot", giúp các nhóm ưu tiên refactor dựa trên hoạt động phát triển thực tế và tác động kinh doanh
- Hiện nay công cụ cũng cung cấp hướng dẫn cho thiết kế mã thân thiện với AI
- Các nhóm nhận thấy khi coding agent có thể sửa mã nhanh hơn rất nhiều so với lập trình viên con người, chất lượng mã trở nên quan trọng hơn nữa
- Metric CodeHealth của CodeScene cung cấp guardrail hữu ích bằng cách xác định các khu vực quá phức tạp để LLM có thể refactor an toàn mà không gặp rủi ro hallucination
- Được khuyến nghị đánh giá như guardrail cho việc áp dụng coding agent; metric CodeHealth làm nổi bật các mục tiêu refactor an toàn và chỉ ra những vùng cần cải thiện trước khi đưa agent vào áp dụng
82. ConfIT
- Một thư viện cho phép định nghĩa test API kiểu integration và component theo cách khai báo bằng JSON thay vì viết mã mệnh lệnh
- Mối quan tâm với cách tiếp cận này tăng lên vì các test suite lớn thường tích lũy nhiều boilerplate quanh HTTP client, cấu hình request và assertion
- Phát triển có hỗ trợ AI càng củng cố xu hướng này, vì định nghĩa test có cấu trúc dễ tạo và bảo trì hơn so với mã thủ tục dài dòng
- Dựa trên trải nghiệm khách hàng và các đánh giá, lớp khai báo này giúp giảm trùng lặp giữa test component và integration, cải thiện khả năng đọc và giúp ý định kiểm thử dễ tiến hóa trên toàn đội ngũ
- Tuy nhiên, bản thân ConfIT có mức độ áp dụng trong cộng đồng còn hạn chế và hệ sinh thái nhỏ, nên dù có các lợi ích này vẫn khó khuyến nghị rộng rãi
- Đáng để các nhóm .NET đang khám phá API test theo hướng specification-driven đánh giá, nhưng cần xác minh khả năng bảo trì dài hạn, độ phù hợp hệ sinh thái và các đánh đổi vận hành
83. Entire CLI
- Hook vào workflow Git để ghi lại các phiên AI coding agent — transcript, prompt, tool call, file đã chạm tới, mức sử dụng token — thành metadata có thể tìm kiếm, được lưu trên một nhánh repository chuyên biệt
- Hỗ trợ Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid và GitHub Copilot CLI
- Khi AI agent trở thành bên đóng góp chính cho codebase, các nhóm phải đối mặt với khoảng cách ngày càng lớn giữa những gì Git theo dõi và những gì thực sự diễn ra trong các phiên coding
- Entire CLI tạo ra audit trail cho hoạt động của agent bằng cách ghi lại toàn bộ phiên cùng với commit mà không làm ô nhiễm lịch sử của nhánh chính
- Hệ thống checkpoint cũng cho phép khôi phục thực dụng, giúp các nhóm quay lại trạng thái tốt đã biết khi agent đi chệch hướng và tiếp tục từ bất kỳ checkpoint nào
- Dù công cụ còn rất mới và hệ sinh thái về khả năng truy vết phiên agent vẫn đang hình thành, đây là lựa chọn phù hợp tự nhiên cho các nhóm có yêu cầu tuân thủ hoặc kiểm toán liên quan đến mã do AI tạo ra
84. Git AI
- Một tiện ích mở rộng Git mã nguồn mở để theo dõi mã do AI tạo ra trong repository, liên kết mọi dòng do AI viết với agent, model và prompt đã tạo ra nó
- Git AI dùng checkpoint và hook để theo dõi các thay đổi mã tăng dần giữa thời điểm bắt đầu và kết thúc commit
- Mỗi checkpoint bao gồm diff giữa trạng thái hiện tại và checkpoint trước đó, được đánh dấu là do AI hay con người viết
- Cách tiếp cận này chính xác hơn so với các cách chỉ tập trung đếm số dòng mã tại thời điểm chèn vào
- Sử dụng tiêu chuẩn mở dựa trên Git Notes để theo dõi mã do AI tạo ra
- Dù hệ sinh thái agent được hỗ trợ vẫn đang trưởng thành, công cụ này đáng để đánh giá với các nhóm muốn duy trì trách nhiệm giải trình và khả năng bảo trì dài hạn trong workflow agentic
- Cả con người và AI agent đều có thể dùng kỹ năng
/askđể tham chiếu các phiên agent đã được lưu trữ, từ đó truy vấn ý định ban đầu và các quyết định kiến trúc đằng sau một khối mã cụ thể
85. Google Antigravity
- Một nhánh fork độc lập của VS Code được xây dựng trên công nghệ được cấp phép từ Windsurf, ra mắt dưới dạng public preview cùng Gemini 3 vào tháng 11 năm 2025
- Tái cấu trúc IDE xung quanh điều phối đa agent — Agent Manager chạy song song nhiều agent trên các tác vụ, trình duyệt Chromium tích hợp cho phép agent tương tác trực tiếp với UI đang chạy, và hệ thống skill lưu các chỉ dẫn agent có thể tái sử dụng vào repository
- Agent Manager đóng vai trò như một dashboard "Mission Control" hơn là sidebar chat tiêu chuẩn, đánh dấu sự chuyển đổi căn bản vai trò của lập trình viên từ viết mã theo từng dòng sang điều phối nhiều luồng công việc tự trị
- Khi cần, lập trình viên vẫn có thể vào editor để duy trì sự kiểm soát human-in-the-loop(HITL)
- Google Antigravity tích hợp với Google Cloud và Firebase thông qua Model Context Protocol, đồng thời hỗ trợ phát triển agent bằng Agent Development Kit
- Hiện vẫn ở trạng thái public preview, chưa có ngày GA, và tư thế bảo mật cùng mức độ sẵn sàng cho doanh nghiệp vẫn đang tiếp tục hoàn thiện
- Mô hình thực thi đa agent và khả năng truy cập trình duyệt tự trị là tín hiệu cho hướng đi của các agentic IDE
86. Google Mainframe Assessment Tool
- Giúp tổ chức dịch ngược các ứng dụng chạy trên mainframe, phân tích toàn bộ danh mục hoặc từng hệ thống riêng lẻ
- Ở cốt lõi, công cụ này dựa vào trình phân tích cú pháp ngôn ngữ mang tính quyết định để lập bản đồ luồng gọi và phụ thuộc dữ liệu trên toàn bộ codebase, tạo ra góc nhìn có cấu trúc về cách các ứng dụng tương tác
- Trên nền tảng đó, các tính năng AI tạo sinh cung cấp tóm tắt, tài liệu hóa, tạo ca kiểm thử và đề xuất hiện đại hóa
- Cách tiếp cận này phù hợp với mô thức rộng hơn về hiểu codebase legacy bằng GenAI, trong đó hiểu biết sâu về hệ thống tạo nền tảng cho việc sử dụng AI hiệu quả
- Dù Google Mainframe Assessment Tool vẫn chưa hỗ trợ mọi stack công nghệ mainframe chủ đạo, công cụ này đang phát triển rất nhanh
- Các nhóm nhận thấy nó hữu ích trong các dự án với khách hàng tập trung vào khám phá và hiện đại hóa ứng dụng mainframe
87. OpenCode
- Đang nhanh chóng nổi lên như một trong những coding agent mã nguồn mở nổi bật nhất với trải nghiệm ưu tiên terminal mạnh mẽ
- Điểm mạnh chính là tính linh hoạt về mô hình — hỗ trợ frontier model được host, endpoint tự host và mô hình cục bộ
- Điều này khiến OpenCode trở nên hấp dẫn cho việc kiểm soát chi phí, tùy biến và các môi trường bị hạn chế, bao gồm cả thiết lập air gap
- Đồng thời điều đó cũng có nghĩa người dùng cần nắm rõ giấy phép và điều khoản của nhà cung cấp khi dùng gói thuê bao hoặc API
- Mô hình mở rộng của OpenCode là một phần hấp dẫn cốt lõi khác, hỗ trợ cả plugin lẫn tích hợp MCP cho workflow, công cụ và guardrail theo từng nhóm
- Nhiều người dùng tận dụng Oh My OpenCode, một harness tùy chọn nhưng phổ biến, cung cấp thiết lập batteries-included và giàu tính định hướng hơn với các nhóm agent được điều phối sẵn cùng các mô thức orchestration phong phú hơn
88. OpenSpec
- Khi năng lực của AI coding agent tiếp tục phát triển, các nhà phát triển ngày càng đối mặt với thách thức về tính dự đoán và khả năng bảo trì khi yêu cầu và ngữ cảnh chỉ tồn tại trong lịch sử chat tạm thời
- Để giải quyết điều này, các công cụ spec-driven development (SDD) đã xuất hiện
- OpenSpec là một framework SDD mã nguồn mở đưa vào lớp đặc tả nhẹ để bảo đảm nhà phát triển và AI agent thống nhất về những gì sẽ được xây dựng trước khi sinh mã
- Điểm khác biệt là workflow linh hoạt và tối giản, thường được rút gọn còn ba bước — propose → apply → archive
- Nhiều framework SDD (GitHub Spec Kit chẳng hạn) hoặc workflow Agentic Skills (Superpowers chẳng hạn) phù hợp với dự án greenfield hơn so với brownfield
- Thay vì yêu cầu định nghĩa đầy đủ đặc tả từ trước, việc tập trung vào spec deltas của OpenSpec đặc biệt hiệu quả và phù hợp tốt với các hệ thống hiện có
- Khác với các lựa chọn thay thế nặng nề hơn buộc áp dụng workflow nghiêm ngặt (BMAD chẳng hạn) hoặc cần tích hợp IDE đặc thù nhà cung cấp (Kiro chẳng hạn), OpenSpec mang tính lặp và trung lập với công cụ
- Đây là framework thân thiện với developer đáng để đánh giá cho các nhóm muốn đưa cấu trúc và tính dự đoán vào phát triển có hỗ trợ AI mà không phải chấp nhận quy trình nặng nề
- Đồng thời, khi mô hình và coding agent ngày càng mạnh hơn, các nhóm cũng được khuyến nghị theo dõi, xem xét lại năng lực native và đánh giá lại mức độ cần thiết của công cụ SDD
89. PageIndex
- Công cụ xây dựng chỉ mục phân cấp của tài liệu cho pipeline RAG dựa trên suy luận, không dùng vector, thay vì phụ thuộc vào truy xuất dựa trên embedding truyền thống
- Trong khi việc chia nhỏ tài liệu thành vector có thể làm mất thông tin cấu trúc và hạn chế khả năng thấy được lý do truy xuất kết quả, PageIndex xây dựng chỉ mục kiểu mục lục để LLM duyệt từng bước và tìm nội dung liên quan
- Tương tự cách con người quét qua heading rồi đi sâu vào từng phần cụ thể, công cụ tạo ra dấu vết suy luận tường minh giải thích vì sao một phần cụ thể được chọn
- Hoạt động tốt với các tài liệu mà ý nghĩa phụ thuộc nhiều vào cấu trúc hơn là ngữ nghĩa, ví dụ báo cáo tài chính có dữ liệu số, tài liệu pháp lý với các điều khoản tham chiếu chéo, tài liệu lâm sàng hoặc khoa học phức tạp
- Tuy nhiên có đánh đổi, vì suy luận của LLM là một phần của quá trình truy xuất nên có thể tạo ra độ trễ và chi phí đáng kể, đặc biệt với tài liệu lớn
90. Pencil
- Công cụ canvas thiết kế tích hợp với IDE và coding agent như Cursor và Claude Code
- Không giống Figma hiện chỉ cung cấp quyền truy cập đọc, Pencil chạy máy chủ MCP cục bộ hai chiều, cung cấp cả quyền đọc lẫn ghi để thao tác trực tiếp với canvas
- Giống các công cụ như Figma Make và Builder.io, công cụ này cũng cung cấp năng lực design-to-code, nhưng với cách tiếp cận thiên về developer hơn — file thiết kế được lưu trong repo dưới dạng JSON mở
.pen, cho phép quản lý phiên bản tài sản thiết kế cùng với mã - Việc tích hợp với các công cụ quen thuộc với developer giúp thu hẹp khoảng cách trong khâu bàn giao giữa thiết kế và phát triển
- Với các hệ thống thiết kế lớn và phức tạp, Figma vẫn là tiêu chuẩn cộng tác xuyên vai trò
- Tuy nhiên, đây là lựa chọn đáng cân nhắc cho các nhóm không có designer chuyên trách hoặc có developer sở hữu kỹ năng thiết kế tốt
91. Pi
- Coding agent terminal tối giản mã nguồn mở được viết bằng TypeScript
- Là lựa chọn hấp dẫn với những người thích mày mò và thử nghiệm hơn là mặc định chủ đạo trong doanh nghiệp
- Pi là harness tối giản nhưng dễ tùy biến hơn so với các agent hoàn chỉnh như OpenCode
- Dễ thích nghi hơn so với việc xây mới một agent bằng các framework agentic như ADK, LangGraph, Mastra
- Dù có động lực phát triển mạnh và phát hành tích cực, dự án vẫn còn ở giai đoạn đầu và phần lớn do maintainer dẫn dắt
- Cần xem pi là khối xây dựng hướng tới kỹ sư, không phải nền tảng doanh nghiệp hoàn chỉnh với đầy đủ guardrail và hỗ trợ
92. Qwen 3 TTS
- Mô hình text-to-speech mã nguồn mở thu hẹp đáng kể khoảng cách chất lượng với sản phẩm thương mại, đồng thời cho developer mức độ kiểm soát lớn hơn nhiều so với nhiều API trả phí
- Hỗ trợ đa ngôn ngữ, có thể voice cloning từ mẫu ngắn (khoảng 10-15 giây), và cho phép fine-tuning hậu huấn luyện cho giọng nói theo miền hoặc theo nhân vật cụ thể
- Là lựa chọn hấp dẫn cho các nhóm cần giọng nói đặc thù thương hiệu hoặc quyền kiểm soát on-prem
- Qwen 3 TTS vẫn mới được phát hành gần đây, nên các nhóm cần xác minh độ ổn định, kiểm soát an toàn, mức độ phù hợp giấy phép và độ trưởng thành vận hành trước khi đưa vào các workload giọng nói quan trọng trong production
93. SGLang
- Khung phục vụ hiệu năng cao giúp giảm overhead tính toán của suy luận LLM thông qua đồng thiết kế giữa ngôn ngữ lập trình frontend và runtime backend
- Áp dụng RadixAttention, một kỹ thuật quản lý bộ nhớ chủ động cache và tái sử dụng trạng thái KV (key-value) trên toàn bộ prompt
- Cách tiếp cận này mang lại cải thiện hiệu năng đáng kể so với các engine phục vụ tiêu chuẩn như vLLM trong các kịch bản có mức độ trùng lặp prefix cao
- Với các nhóm xây dựng tác tử tự chủ phức tạp, phụ thuộc vào system prompt dài và sử dụng few-shot prompting diện rộng với các ví dụ dùng chung, SGLang có thể đem lại lợi ích đáng kể về độ trễ và hiệu quả
94. ty
- Khi Python tiếp tục tăng trưởng về mức độ phổ biến, đặc biệt trong lĩnh vực AI và khoa học dữ liệu, việc sở hữu một hệ thống kiểu mạnh ngày càng trở nên có giá trị
- Ty là trình kiểm tra kiểu Python và language server cực nhanh được viết bằng Rust
- Là một phần của hệ sinh thái Astral, cũng bao gồm các công cụ như uv và ruff
- Cung cấp phản hồi nhanh và tích hợp tốt với các trình soạn thảo phổ biến như Visual Studio Code
- Dùng ty cùng với các công cụ Astral khác có thể đơn giản hóa việc phát triển Python trong các tổ chức quy mô lớn
- Khi agentic coding ngày càng phổ biến, việc có một trình kiểm tra kiểu mang tính quyết định với vòng phản hồi nhanh giúp bắt lỗi sớm và giảm công sức review code cho các lỗi đơn giản
95. Warp
- Kể từ lần cuối được đưa vào Radar, Warp đã tiến hóa vượt xa mô tả “terminal có tính năng AI”
- Trong khi vẫn giữ các thế mạnh cốt lõi — đầu ra lệnh dựa trên block, gợi ý bằng AI và các tính năng notebook — nó đã mở rộng sang vùng mà trước đây IDE thường đảm nhiệm
- Hiện nay có thể render Markdown, hiển thị cây tệp và mở tệp trực tiếp từ terminal, đồng thời hỗ trợ toàn bộ workflow phát triển agentic trên nhiều panel — một panel chạy coding agent như Claude Code, một panel khác chạy shell và panel thứ ba hiển thị tệp trong workspace
- Lợi ích thực tế được quan sát là Warp xử lý đầu ra văn bản thông lượng cao do các coding agent hiện đại tạo ra tốt hơn terminal truyền thống, nơi tốc độ render và khả năng đọc có thể trở thành nút thắt cổ chai
- Nó cũng bổ sung coding assistant tích hợp sẵn, dù nhóm chưa đánh giá rộng rãi
- Gần đây Warp cũng ra mắt Oz, một nền tảng điều phối cho cloud agent tích hợp với terminal, nhưng mục này tập trung vào chính terminal
- Với các nhóm thích terminal nhẹ, có thể kết hợp linh hoạt và muốn tự mang công cụ AI riêng vào, Ghostty có thể phù hợp hơn — một cách tiếp cận cố ý tối giản, trái ngược với triết lý batteries-included của Warp
- Tốc độ ra tính năng mới và tham vọng nền tảng rộng hơn của Warp khiến việc chuyển sang Trial vẫn còn quá sớm, trước khi sản phẩm ổn định hơn và có thêm kinh nghiệm thực tế với các năng lực mới
96. WuppieFuzz
- Một fuzzer mã nguồn mở cho REST API, sử dụng định nghĩa OpenAPI để tạo request hợp lệ, biến đổi chúng để khám phá các edge case và dựa vào phản hồi coverage phía máy chủ để ưu tiên các đầu vào chạm tới đường thực thi mới
- Phần lớn các nhóm vẫn dựa vào kiểm thử tích hợp và kiểm thử hợp đồng dựa trên ví dụ, gần như không khám phá các đầu vào bất ngờ, chuỗi request bất thường hay các đường xử lý nhiều lỗi, dù API thường là bề mặt tích hợp chính của các hệ thống hiện đại
- Dựa trên đánh giá ban đầu, WuppieFuzz có vẻ là một phần bổ sung đầy hứa hẹn cho các hình thức kiểm thử này — có thể phát hiện các vấn đề như ngoại lệ chưa được xử lý, lỗ hổng phân quyền, rò rỉ dữ liệu nhạy cảm, lỗi phía máy chủ và lỗi logic mà kiểm thử script có thể bỏ sót
- Các nhóm vẫn cần đánh giá cách nó phù hợp với CI, overhead thời gian chạy mà nó tạo ra và kết quả thực sự hữu ích đến mức nào
- Vì lý do đó, công cụ này đáng để đánh giá đối với các nhóm xây dựng REST API quan trọng hoặc được phơi ra bên ngoài
Caution
97. OpenClaw
- Một dự án mã nguồn mở thuộc danh mục mà tác giả gọi là “hyper-personal AI assistant”
- Người dùng có thể tự lưu trữ instance của mình, duy trì khả năng sử dụng liên tục qua các kênh nhắn tin như WhatsApp hoặc iMessage và thực thi tác vụ thông qua các công cụ được kết nối
- Với bộ nhớ lâu dài về hội thoại, sở thích và thói quen, nó tạo ra một trải nghiệm cá nhân thường trực khác biệt rõ rệt so với giao diện chat GenAI hay coding agent điển hình
- Mô hình này rõ ràng rất hấp dẫn và đã truyền cảm hứng cho những bên theo sau như Claude Cowork
- Lý do đặt OpenClaw vào mục Caution là vì mô hình này đòi hỏi những đánh đổi đáng kể về bảo mật
- Nó càng hữu ích khi được cấp nhiều quyền truy cập hơn vào lịch, email, tệp và liên lạc, đồng thời tập trung quyền hạn đúng theo kiểu mẫu đã được cảnh báo trong toxic flow analysis for AI
- Rủi ro này không chỉ riêng OpenClaw; nó cũng áp dụng cho các triển khai khác cùng kiểu mẫu, bao gồm cả sản phẩm của các nhà cung cấp đã có vị thế
- Họ đã đăng lời khuyên cho các nhóm đang cân nhắc OpenClaw cùng môi trường thực thi sandbox, và các lựa chọn thay thế như NanoClaw hay ZeroClaw có thể giúp giảm blast radius
- Tuy nhiên, bản thân mô hình hyper-personal assistant vẫn có xu hướng đòi hỏi nhiều quyền hạn và luôn là rủi ro cao
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- Một định dạng bảng mở cho các tập dữ liệu phân tích quy mô lớn, định nghĩa cách các tệp dữ liệu, metadata và schema được tổ chức trên các hệ thống lưu trữ như S3
- Đã phát triển mạnh trong vài năm gần đây và trở thành khối xây dựng nền tảng cho kiến trúc lakehouse trung lập về công nghệ
- Được mọi nhà cung cấp nền tảng dữ liệu lớn hỗ trợ, bao gồm AWS (Athena, EMR, Redshift), Snowflake, Databricks và Google BigQuery, khiến nó trở thành một lựa chọn mạnh để tránh bị khóa vào nhà cung cấp
- Điều làm Apache Iceberg khác biệt so với các định dạng bảng mở khác là tính mở trên cả phương diện tính năng lẫn quản trị, trái ngược với các lựa chọn thay thế mà năng lực bị giới hạn hoặc bị kiểm soát bởi một nhà cung cấp duy nhất
- Về độ tin cậy, thiết kế dựa trên snapshot mang lại serializable isolation, ghi đồng thời an toàn thông qua optimistic concurrency và lịch sử phiên bản bao gồm rollback, cung cấp bảo đảm chính xác mạnh mà không tạo ra nút thắt hiệu năng
- Dù Apache Spark là engine phổ biến nhất, nó cũng được hỗ trợ tốt bởi Trino, Flink, DuckDB và nhiều công cụ khác, phù hợp với nhiều trường hợp sử dụng từ nền tảng dữ liệu doanh nghiệp đến phân tích cục bộ gọn nhẹ
- Đã giành được niềm tin mạnh mẽ như một định dạng dữ liệu ổn định và mở trong nhiều nhóm, và được khuyến nghị là lựa chọn mặc định cho các tổ chức xây dựng nền tảng dữ liệu hiện đại
99. Declarative Automation Bundles
- Trước đây được gọi là Databricks Asset Bundles, nay đã phát triển thành công cụ chủ chốt để đưa thực hành kỹ thuật phần mềm và CI/CD vào hệ sinh thái Databricks
- Đã trưởng thành đáng kể, cho phép các nhóm quản lý bằng mã phần lớn tài nguyên nền tảng, bao gồm cluster, pipeline ETL, job, mô hình machine learning, dashboard
- Với lệnh
databricks bundle plan, các nhóm có thể xem trước thay đổi và áp dụng thực hành triển khai lặp lại được cho các artifact Databricks, tương tự như cách quản lý hạ tầng bằng các công cụ như Terraform - Bằng cách coi các tài sản vốn thường dễ thay đổi như dashboard và pipeline ML là mã, có thể quản lý phiên bản, kiểm thử và triển khai với mức độ nghiêm ngặt tương đương microservice truyền thống
- Dựa trên kinh nghiệm trong môi trường production, Declarative Automation Bundles đã khẳng định vị thế là một cách tiếp cận đáng tin cậy để quản lý workflow dữ liệu và ML trong Databricks
- Khuyến nghị các nhóm làm việc sâu trong hệ sinh thái Databricks cân nhắc áp dụng để chuẩn hóa thực hành quản lý hạ tầng
100. React JS
- Là lựa chọn mặc định cho phát triển UI bằng JavaScript từ năm 2016, nhưng nay đáng để xem lại nhờ bản phát hành ổn định của React Compiler trong một phần của React 19 (ra mắt vào tháng 10 năm ngoái)
- Xử lý memoization ở thời điểm build nên
useMemovàuseCallbackthủ công hầu như không còn cần thiết; khuyến nghị các nhóm vẫn giữ chúng như cơ chế thoát hiểm khi cần kiểm soát chính xác dependency của effect - Đã được battle-test tại Meta, hỗ trợ Expo SDK 54, Vite, Next.js, và loại bỏ cả một nhóm mã boilerplate hiệu năng vốn là cái giá lâu nay khi làm việc với React ở quy mô lớn
- React 19 cũng giới thiệu Actions và các hook như
useActionState,useOptimistic, đơn giản hóa xử lý form và biến đổi dữ liệu mà không cần phụ thuộc vào thư viện bên ngoài - Năm 2025, React Foundation được ra mắt dưới Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion, Vercel cùng tham gia với Meta — củng cố sự ổn định dài hạn của thư viện và giải tỏa những lo ngại mà các nhóm thận trọng từng viện dẫn khi cân nhắc áp dụng
101. React Native
- Được chuyển lên Adopt như lựa chọn mặc định cho phát triển mobile đa nền tảng
- Trước đây ở Trial, nhưng việc triển khai New Architecture — cụ thể là JSI và Fabric — đã giải quyết các lo ngại lâu nay về nút thắt bridge và tốc độ khởi tạo
- Ghi nhận mức tăng hiệu năng đáng kể trong các chuyển đổi UI phức tạp và workload đòi hỏi nhiều dữ liệu
- Khi rời bỏ bridge bất đồng bộ, React Native giờ đây mang lại độ phản hồi tiệm cận native trong khi vẫn duy trì một codebase duy nhất
- Đã được sử dụng thành công trong nhiều dự án production, còn Expo và hệ sinh thái xoay quanh React đã trưởng thành và ổn định
- Dù việc quản lý state vẫn cần lên kế hoạch cẩn thận, lợi ích năng suất từ workflow fast refresh và bộ kỹ năng dùng chung vẫn vượt trội các chi phí đó
- Là khuyến nghị hàng đầu cho hầu hết các trường hợp sử dụng mobile hybrid đối với các nhóm theo đuổi hiệu năng, tính nhất quán và tốc độ
102. Svelte
- Là framework UI JavaScript biên dịch component thành JavaScript tối ưu ngay tại thời điểm build, không phụ thuộc vào runtime lớn phía trình duyệt hay virtual DOM
- Kể từ lần được giới thiệu gần nhất ở Trial, nhiều nhóm hơn đã dùng thành công trong production; SvelteKit cũng trở thành lựa chọn vững chắc hơn cho SSR và ứng dụng web full-stack, làm tăng niềm tin để chuyển lên Adopt
- Những lý do ban đầu để chọn Svelte vẫn còn nguyên giá trị — tạo bundle nhỏ, hiệu năng runtime mạnh, và mô hình component đơn giản hơn
- Các năng lực mới trong Svelte 5 như runes và snippets giúp tính phản ứng và cấu trúc UI trở nên rõ ràng và linh hoạt hơn
- Mang lại trải nghiệm phát triển gọn gàng hơn với ít mã hơn so với các framework frontend nặng hơn
- Phản hồi từ các nhóm ngày càng cho thấy đây là một lựa chọn thay thế đáng tin cậy cho React hoặc Vue, chứ không còn là một lựa chọn ngách
- Dù vẫn cần cân nhắc độ quen thuộc của hệ sinh thái, tuyển dụng và mức độ phù hợp với nền tảng, đây vẫn được khuyến nghị là mặc định hợp lý để xây dựng ứng dụng web hiện đại khi hiệu năng và sự đơn giản trong triển khai là quan trọng
103. Typer
- Là thư viện Python để xây dựng CLI từ các hàm có type annotation tiêu chuẩn, cung cấp sẵn help text tự động, shell autocompletion, và lộ trình rõ ràng từ script nhỏ đến ứng dụng CLI lớn
- Mức độ liên quan ngày càng tăng khi các nhóm chuyển đổi công cụ nội bộ, tự động hóa và workflow nhà phát triển liền kề AI thành CLI hạng nhất
- Typer dễ đưa vào dự án thực tế, và các nhóm đánh giá cao tốc độ tạo ra những câu lệnh rõ ràng, dễ đọc
- Điểm mạnh gồm API dựa trên type hint, help và autocompletion tự động, cùng con đường ít ma sát từ script đơn giản đến CLI nhiều lệnh
- Tuy nhiên, đây là giải pháp đặc thù cho Python và có thể không phải lựa chọn tốt nhất nếu cần hành vi CLI tùy biến cao hoặc tính nhất quán xuyên ngôn ngữ
- Được khuyến nghị cho các nhóm xây dựng CLI phục vụ workflow phân phối, vận hành và trải nghiệm nhà phát triển
Trial
104. Agent Development Kit (ADK)
- Là framework của Google để xây dựng và vận hành AI agent, cung cấp các abstraction thiên về kỹ thuật phần mềm cho orchestration, công cụ, đánh giá và triển khai
- Kể từ khi được đưa vào Assess, hệ sinh thái và năng lực vận hành đã trưởng thành đáng kể, với phát triển đa ngôn ngữ sôi động hơn cùng các tính năng observability và runtime mạnh hơn
- Các framework agent gốc của từng nhà cung cấp hiện là một lĩnh vực đông đúc — những lựa chọn cạnh tranh như Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK đều đang tiến triển
- Các lựa chọn mã nguồn mở như LangGraph và CrewAI vẫn là lựa chọn mạnh cho các nhóm ưu tiên tính di động của framework và hệ sinh thái rộng hơn
- Dù ADK ở một số phần vẫn trong trạng thái pre-GA, đôi lúc còn thô và gây ma sát khi nâng cấp, nhưng vẫn ghi nhận nhiều trường hợp sử dụng thành công hơn, đặc biệt trong các dự án đã đầu tư vào nền tảng Google
105. DeepEval
- Framework mã nguồn mở dựa trên Python để đánh giá hiệu năng LLM
- Có thể dùng để đánh giá các hệ thống và ứng dụng RAG được xây dựng bằng các framework như LlamaIndex hoặc LangChain, cũng như cho baseline và benchmark của mô hình
- Vượt ra ngoài các metric so khớp từ đơn giản để cung cấp đánh giá đáng tin cậy hơn trong các kịch bản thực tế thông qua đánh giá độ chính xác, mức độ liên quan và tính nhất quán
- Bao gồm các năng lực như phát hiện hallucination, chấm điểm mức độ liên quan của câu trả lời và tối ưu hyperparameter; tính năng đặc biệt hữu ích là cho phép nhóm định nghĩa metric theo use case tùy chỉnh
- Gần đây DeepEval đã được mở rộng để hỗ trợ các workflow agentic phức tạp và hệ thống hội thoại nhiều lượt
- Không chỉ đánh giá đầu ra cuối cùng, công cụ còn cung cấp các metric dựng sẵn cho tool correctness, step efficiency, task completion, bao gồm cả đánh giá tương tác với máy chủ MCP
- Cũng đã giới thiệu conversation simulation để tự động tạo test case nhằm stress test các ứng dụng nhiều lượt ở quy mô lớn
106. Docling
- Thư viện mã nguồn mở Python và TypeScript dùng để chuyển đổi tài liệu phi cấu trúc thành đầu ra gọn gàng, máy có thể đọc được
- Sử dụng cách tiếp cận dựa trên computer vision để hiểu bố cục và ngữ nghĩa, xử lý các đầu vào phức tạp như PDF, bao gồm cả tài liệu scan, sang các định dạng có cấu trúc như JSON và Markdown
- Phù hợp cho pipeline RAG và tạo structured output from LLMs, trái ngược với các cách tiếp cận truy xuất ưu tiên thị giác như ColPali
- Docling cung cấp giải pháp mã nguồn mở tự self-hosted thay thế cho các dịch vụ đám mây quản lý độc quyền như Azure Document Intelligence, Amazon Textract, Google Document AI, và tích hợp tốt với các framework như LangGraph
- Hoạt động tốt trong các workload trích xuất ở quy mô production trên nhiều loại PDF số và PDF scan, bao gồm cả các tệp rất lớn chứa văn bản, bảng và hình ảnh
- Mang lại cân bằng mạnh giữa chất lượng và chi phí cho các workflow agentic RAG ở downstream
107. LangExtract
- Thư viện Python dùng để trích xuất thông tin có cấu trúc từ văn bản phi cấu trúc dựa trên chỉ dẫn tùy chỉnh của người dùng, bao gồm grounding nguồn chính xác liên kết từng thực thể được trích xuất với vị trí của nó trong tài liệu gốc
- Xử lý tài liệu đặc thù theo lĩnh vực như ghi chú lâm sàng và báo cáo
- Điểm mạnh cốt lõi là khả năng truy vết nguồn, bảo đảm mỗi điểm dữ liệu được trích xuất đều có thể lần ngược về nguồn
- Có thể xuất các thực thể đã trích xuất thành tệp JSONL, định dạng chuẩn cho dữ liệu mô hình ngôn ngữ, và trực quan hóa bằng giao diện HTML tương tác để rà soát theo ngữ cảnh
- Các nhóm đang cân nhắc structured output from LLMs cho xử lý tài liệu nên đánh giá LangExtract cùng với các cách tiếp cận ép schema như Pydantic AI
- LangExtract phù hợp hơn với tài liệu nguồn dài, phi cấu trúc, còn Pydantic AI xuất sắc trong việc ràng buộc định dạng đầu ra cho đầu vào ngắn hơn và dễ dự đoán hơn
108. LangGraph
- Kể từ Radar trước, chúng tôi quan sát thấy kiến trúc LangGraph — coi mọi hệ thống đa tác tử như đồ thị có trạng thái với trạng thái dùng chung toàn cục — không phải lúc nào cũng là lựa chọn tốt nhất để xây dựng hệ thống agentic
- Các cách tiếp cận thay thế, như cách được dùng trong các framework như Pydantic AI, cũng hoạt động tốt
- Thay vì bắt đầu với đồ thị cứng nhắc và trạng thái dùng chung quy mô lớn, cách tiếp cận này ưu tiên giao tiếp tác tử đơn giản thông qua thực thi mã, rồi chỉ bổ sung cấu trúc đồ thị khi cần
- Trong nhiều use case, cách này tạo ra hệ thống gọn hơn và hiệu quả hơn, vì mỗi tác tử chỉ truy cập phần trạng thái mà nó cần, giúp việc suy luận, kiểm thử và debug dễ hơn
- Do đó rời khỏi Adopt; đây vẫn là một công cụ mạnh, nhưng không còn được xem là lựa chọn mặc định để xây dựng mọi hệ thống agentic
109. LiteLLM
- Bắt đầu như một lớp trừu tượng mỏng trên nhiều nhà cung cấp LLM, rồi mở rộng thành một AI gateway thực thụ
- Vượt ra ngoài việc đơn giản hóa tích hợp API để giải quyết các mối quan tâm xuyên suốt phổ biến của hệ thống GenAI — bao gồm retry và failover, load balancing giữa các nhà cung cấp, theo dõi chi phí có kèm kiểm soát ngân sách
- Các nhóm ngày càng áp dụng LiteLLM làm mặc định hợp lý cho các ứng dụng dùng AI
- Gateway này cũng cung cấp một nơi nhất quán để xử lý các mối quan tâm về governance, bao gồm theo dõi request, kiểm soát truy cập, quản lý API key, lọc nội dung và guardrail ở tầng edge như chỉnh sửa hoặc che dữ liệu
- Tuy nhiên, các nhóm phụ thuộc vào tính năng khác biệt của từng nhà cung cấp thường vẫn cần các tham số riêng theo nhà cung cấp, từ đó tái đưa vào sự kết dính mà gateway muốn loại bỏ
- Chế độ
drop_paramsâm thầm loại bỏ các tham số không được hỗ trợ, có thể dẫn đến mất năng lực mà không có khả năng quan sát trên toàn bộ các quyết định định tuyến - Đây là lựa chọn thực tế cho kiểm soát vận hành, nhưng việc tận dụng năng lực riêng của nhà cung cấp đồng nghĩa phải duy trì cả sự phụ thuộc vào gateway lẫn mã gắn chặt với nhà cung cấp
110. Modern.js
- Meta-framework React của ByteDance, được đưa vào Trial cho các nhóm có yêu cầu micro frontend dựa trên Module Federation
- Tác nhân kích hoạt mang tính thực dụng —
nextjs-mfđang theo hướng end-of-life, Pages Router chỉ dự kiến nhận các bản sửa backport nhỏ, không có kế hoạch phát triển mới, và kiểm thử CI được dự đoán sẽ bị gỡ vào nửa cuối năm 2026 - Do Next.js thiếu hỗ trợ Module Federation chính thức và plugin cộng đồng đang dần bị loại bỏ, đội ngũ cốt lõi của Module Federation khuyến nghị Modern.js là framework hỗ trợ chính cho kiến trúc dựa trên federation
- Plugin
@module-federation/modern-js-v3cung cấp ngay việc nối dây build tự động, còn streaming SSR và Bridge API có thể dùng như các năng lực riêng biệt - Tuy nhiên vẫn có giới hạn trong tích hợp —
@module-federation/bridge-reacthiện chưa tương thích với môi trường Node, nên không thể dùng Bridge trong các kịch bản SSR - Trải nghiệm ban đầu là tích cực, và lộ trình migration được xác định rõ cho các nhóm đã dùng Module Federation
- Hệ sinh thái bên ngoài ByteDance vẫn đang trong quá trình trưởng thành, cần tài liệu dày dặn hơn và kế hoạch tham gia chặt chẽ hơn với upstream
- Hiện tại, khoản đầu tư này là hợp lý cho các use case Module Federation chưa có lựa chọn thay thế nào được hỗ trợ tốt hơn
Assess
111. Agent Lightning
- Khung tối ưu hóa và huấn luyện agent giúp kích hoạt tối ưu prompt tự động, tinh chỉnh có giám sát, học tăng cường theo kiểu agentic
- Phần lớn các framework agent tập trung vào việc xây dựng agent, nhưng không tập trung vào việc cải thiện theo thời gian
- Agent Lightning hỗ trợ các framework như AutoGen và CrewAI, cho phép liên tục cải thiện agent hiện có mà không cần thay đổi phần triển khai nền tảng
- Điều này đạt được thông qua cách tiếp cận gọi là Training-Agent Disaggregation, đưa vào một lớp nằm giữa quá trình huấn luyện và framework agent
- Hai thành phần cốt lõi — Lightning Server quản lý quy trình huấn luyện và cung cấp API cho mô hình đã cập nhật, còn Lightning Client đóng vai trò runtime thu thập trace và gửi về server để hỗ trợ huấn luyện
- Khuyến nghị các đội đã có triển khai agent ổn định nên khám phá như một cách liên tục cải thiện hiệu năng agent
112. GitHub Spec Kit
- Trong các cuộc thảo luận của chu kỳ này, spec-driven development nổi bật rõ rệt, với hai phe rộng lớn xuất hiện — các đội dựa vào cấu trúc tối thiểu và năng lực cải thiện liên tục của coding agent, và các đội ưa chuộng workflow được định nghĩa cùng đặc tả chi tiết
- Nhiều đội đang thử nghiệm thực hành spec-driven bằng GitHub Spec Kit, chủ yếu trong môi trường brownfield
- Khái niệm cốt lõi của Spec Kit là constitution, một bộ quy tắc nền tảng để đồng bộ vòng đời phát triển phần mềm
- Trên thực tế, một constitution hữu ích thường nắm bắt phạm vi dự án, ngữ cảnh miền nghiệp vụ, phiên bản công nghệ, tiêu chuẩn mã hóa, cấu trúc repository (ví dụ: kiến trúc hexagonal, layered module), giúp agent hoạt động trong các ranh giới kiến trúc đã định
- Các thách thức như instruction bloat cũng xuất hiện — tập lệnh chỉ dẫn cho agent ngày càng phình to do liên tục bổ sung ngữ cảnh dự án, và cuối cùng dẫn đến context rot; một đội đã giải quyết bằng cách tách hướng dẫn có thể tái sử dụng thành skill, giữ chỉ dẫn cho agent gọn hơn và chỉ nạp ngữ cảnh chi tiết khi cần
- Trong các hệ thống brownfield, nhiều lần làm lại bắt nguồn từ ý định không rõ ràng, giả định ẩn và các ràng buộc được phát hiện quá muộn; một đội đã áp dụng vòng đời spec → plan → tasks → coding → review để giúp đưa vấn đề ra ánh sáng sớm hơn
- Theo thời gian, ngữ cảnh có thể lặp lại được chuyển sang các tệp như
.github/prompts/speckit.<command>.prompt.md, giúp prompt ngắn hơn và hành vi của agent nhất quán hơn - Có báo cáo về những điểm còn thô như các kiểm tra phòng thủ không cần thiết và đầu ra markdown quá dài dòng
- Một số vấn đề được giải quyết bằng cách tùy biến template và chỉ dẫn của Spec Kit, chẳng hạn giới hạn số lượng tệp markdown được tạo và giảm độ dài dòng của console
- Cuối cùng, các kỹ sư giàu kinh nghiệm với thực hành clean coding và kiến trúc vững chắc là những người khai thác được nhiều giá trị nhất từ workflow spec-driven
113. Mastra
- Framework mã nguồn mở native TypeScript để xây dựng ứng dụng AI và agent
- Cung cấp workflow engine dựa trên đồ thị, cách tiếp cận tích hợp nhiều nhà cung cấp LLM, cơ chế tạm dừng và tiếp tục human-in-the-loop, cùng các primitive cho RAG và memory
- Cũng bao gồm công cụ tích hợp sẵn để viết MCP server và phục vụ đánh giá cùng observability, với tài liệu cho nhà phát triển rõ ràng
- Mastra mang lại một lựa chọn thay thế cho stack nặng về Python, cho phép các đội xây dựng năng lực AI phong phú ngay trong hệ sinh thái web sẵn có như Node.js hoặc Next.js
- Đáng để đánh giá với các đội đã đầu tư vào hệ sinh thái TypeScript và muốn tránh phải chuyển sang Python cho lớp AI
114. Pipecat
- Framework mã nguồn mở để xây dựng agent giọng nói thời gian thực và đa phương thức bằng mô hình pipeline dạng mô-đun cho STT, LLM, TTS và điều phối truyền tải
- Thu hút sự quan tâm mạnh vì cho phép các đội lặp nhanh trên hành vi hội thoại và thay đổi nhà cung cấp với độ ma sát tương đối thấp
- So với LiveKit Agents, Pipecat cung cấp độ linh hoạt framework cao hơn nhưng lộ trình production kém tích hợp hơn, đặc biệt ở triển khai self-hosted, độ tin cậy truyền tải và xử lý lượt tương tác độ trễ thấp ở quy mô lớn
- Dù mang lại nền tảng mạnh cho kỹ thuật đối mặt trực tiếp, vẫn cần đáng kể công việc platform engineering trước khi dựa vào nó cho các workload production quan trọng với doanh nghiệp
115. Superpowers
- Khi việc sử dụng coding agent gia tăng, không có một workflow duy nhất phù hợp cho mọi đội; thay vào đó, các đội đang phát triển workflow tùy chỉnh dựa trên ngữ cảnh và ràng buộc của mình
- Superpowers là một trong các workflow như vậy, được xây dựng từ các skill có thể kết hợp
- Nó bao bọc coding agent thành các skill trong workflow có cấu trúc, khuyến khích brainstorming trước khi code, lập kế hoạch chi tiết trước khi triển khai, TDD với chu kỳ red-green-refactor bắt buộc, debug có hệ thống ưu tiên nguyên nhân gốc rễ, và code review sau triển khai
- Được phân phối dưới dạng plugin thông qua Claude Code plugin marketplace và Cursor plugin marketplace
116. TanStack Start
- Framework full-stack cho React và Solid được xây dựng trên TanStack Router, có thể so sánh với Next.js, hỗ trợ SSR, caching và nhiều tính năng tương tự
- TanStack Start cung cấp độ an toàn compile-time end-to-end cho server function, loader và toàn bộ routing, giúp giảm rủi ro liên kết hỏng hoặc kiểu dữ liệu không khớp ở frontend
- Ưa chuộng cấu hình tường minh hơn là convention, nên trải nghiệm gần với làm việc bằng React thuần hơn
- Có thể bổ sung năng lực SSR dần dần theo nhu cầu
- So với Next.js với các mặc định mang tính định hướng hơn, dễ gây hành vi ngoài dự kiến nếu không quen với cơ chế bên trong, nó tường minh và dễ dự đoán hơn
- Hệ sinh thái TanStack cũng đã trưởng thành đáng kể, mang lại bộ công cụ mạnh mẽ để xây dựng ứng dụng web hiện đại
117. TOON (Token-Oriented Object Notation)
- Mã hóa dữ liệu JSON có thể đọc được bởi con người, được thiết kế để giảm lượng token sử dụng khi dữ liệu có cấu trúc được đưa vào LLM
- Có thể giữ JSON trong các hệ thống hiện có và chỉ chuyển đổi tại điểm tương tác với mô hình
- Chi phí token, độ trễ và giới hạn context window đang trở thành các yếu tố thiết kế thực tế cần cân nhắc trong pipeline RAG, workflow agent và các ứng dụng nặng về AI khác
- JSON thô thường tiêu tốn token vào các khóa lặp lại và overhead cấu trúc nhiều hơn là vào nội dung hữu ích
- Trong các đánh giá ban đầu, TOON là một tối ưu hóa last mile thú vị cho đầu vào prompt, đặc biệt với các bộ dữ liệu lớn và đều đặn nơi định dạng có nhận thức schema hiệu quả hơn JSON và dễ cho mô hình xử lý hơn
- Đây không phải là sự thay thế cho JSON trong API, cơ sở dữ liệu hay đầu ra mô hình, và thường là lựa chọn không phù hợp cho cấu trúc lồng sâu hoặc không đồng nhất, mảng bán đồng nhất, hay dữ liệu bảng phẳng nơi CSV gọn hơn
- Nó cũng có thể kém phù hợp hơn trong các đường đi quan trọng về độ trễ, nơi JSON rút gọn hoạt động tốt
- Đáng để đánh giá với các đội xây dựng ứng dụng LLM nơi kích thước đầu vào có cấu trúc là mối quan tâm đáng kể về chi phí hoặc chất lượng; cần benchmark với chính dữ liệu và stack mô hình của mình so với JSON hoặc CSV
118. Unsloth
- Một framework mã nguồn mở tập trung vào việc giúp tinh chỉnh LLM và học tăng cường nhanh hơn đáng kể, đồng thời hiệu quả hơn về bộ nhớ
- Việc tinh chỉnh LLM bao gồm hàng chục tỷ phép nhân ma trận, có lợi thế khi tăng tốc bằng GPU; Unsloth chuyển đổi các phép toán này thành các kernel tùy chỉnh hiệu suất cao cho GPU NVIDIA để tối ưu hóa, giúp giảm mạnh chi phí và mức sử dụng bộ nhớ
- Giúp có thể tinh chỉnh mô hình trên GPU tiêu dùng từ T4 trở lên thay vì phải dùng các cụm H100 đắt đỏ
- Hỗ trợ LoRA, tinh chỉnh toàn phần, huấn luyện đa GPU, tinh chỉnh ngữ cảnh dài (tối đa 500K token), nhắm đến các mô hình phổ biến như Llama, Mistral, DeepSeek-R1, Qwen, Gemma
- Khi các ứng dụng AI đặc thù theo lĩnh vực ngày càng phụ thuộc vào tinh chỉnh, Unsloth giảm đáng kể rào cản gia nhập
Chưa có bình luận nào.