Thoughtworks Technology Radar, Tập 34 được công bố

(thoughtworks.com)

12 điểm bởi GN⁺ 7 ngày trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trực quan hóa và giải thích các xu hướng mới nhất trong các lĩnh vực kỹ thuật/công cụ/nền tảng/ngôn ngữ lập trình và framework theo 4 giai đoạn: "khuyến nghị áp dụng, dùng thử, đánh giá, thận trọng"
4 chủ đề cốt lõi: thời đại agent và đánh giá công nghệ, giữ nguyên nguyên tắc nhưng xem xét lại pattern, vấn đề bảo mật của agent, harness cho coding agent

Những thách thức của việc đánh giá công nghệ trong thời đại agent

Việc đưa AI vào đang khiến chính quá trình đánh giá công nghệ trở nên khó khăn hơn, và do semantic diffusion nên các thuật ngữ mới xuất hiện rất nhanh trước khi ý nghĩa của chúng kịp ổn định
- Các thuật ngữ như spec-driven development, harness engineering được dùng không nhất quán hoặc có ý nghĩa chồng lấn
- Do thiếu định nghĩa chung, rất khó xác định đó là các kỹ thuật riêng biệt hay chỉ là những tên gọi khác nhau của cùng một khái niệm
Việc phân biệt giữa các phương pháp kỹ nghệ độc lập đã trưởng thành và việc sử dụng thường nhật các công cụ AI như coding assistant vẫn là một thách thức kéo dài
Tốc độ thay đổi làm gia tăng bất định, khi xuất hiện nhiều công cụ chưa đến một tháng tuổi, và một số thậm chí được duy trì bởi một người đóng góp duy nhất cùng với coding agent
- Nếu chờ công cụ trưởng thành thì hướng dẫn sẽ trở nên lỗi thời, còn nếu đi quá nhanh thì có nguy cơ làm nổi bật những xu hướng sẽ sớm biến mất
- Điều này đặt ra vấn đề về tính bền vững của những thứ được tạo ra quá nhanh và với quá ít công sức
Nợ nhận thức codebase (Codebase Cognitive Debt)
- Khi lượng mã do AI tạo ra tăng lên, việc chấp nhận một giải pháp mà không có mental model về cách nó hoạt động trở nên dễ dàng hơn
- Nếu khoảng trống hiểu biết này tích lũy lại, việc suy luận, debug và phát triển hệ thống sẽ trở nên khó khăn hơn

Giữ nguyên nguyên tắc nhưng xem xét lại pattern

AI không chỉ khiến người ta nghĩ về tương lai mà còn buộc chúng ta nhìn lại nền tảng của software craftsmanship
- Các kỹ thuật hiện có như pair programming, kiến trúc zero trust, mutation testing, DORA metrics đang được nhìn nhận lại
- Các nguyên tắc cốt lõi như clean code, thiết kế có chủ đích, khả năng kiểm thử, khả năng truy cập được tái khẳng định là ưu tiên hàng đầu
Đây không phải là hoài niệm, mà là đối trọng thiết yếu để chống lại tốc độ mà công cụ AI tạo ra sự phức tạp
Sự trở lại của command line: sau nhiều năm được trừu tượng hóa để dễ dùng hơn, các công cụ agentic đang đưa nhà phát triển quay lại terminal
Phát triển có hỗ trợ AI là một sự chuyển đổi căn bản trong thực hành kỹ nghệ, đòi hỏi phải xem lại cách cộng tác và cấu trúc đội ngũ
- Cần xem xét agent topologies song song với team topologies và thiết kế lại chu kỳ phản hồi
- Các kỹ thuật như measuring collaboration quality with coding agents đang tái định nghĩa chính khái niệm software developer
Trong môi trường do AI dẫn dắt, quản lý nợ nhận thức là nhiệm vụ cốt lõi; việc giữ vững nguyên tắc "tốc độ không có kỷ luật sẽ làm chi phí tăng cao" là rất quan trọng

Vấn đề bảo mật của những agent khao khát quyền hạn

"Permission hungry" mô tả đúng thế lưỡng nan cốt lõi của tình hình agent hiện nay: agent càng có giá trị thì càng cần quyền truy cập vào mọi thứ
- OpenClaw, Claude Cowork giám sát công việc thực tế
- Gas Town điều phối swarm agent trên toàn bộ codebase
- Chúng đòi hỏi quyền truy cập rộng vào dữ liệu riêng tư, liên lạc bên ngoài và các hệ thống thực
Các biện pháp an toàn hiện chưa theo kịp tham vọng này; do prompt injection, mô hình không thể phân biệt một cách ổn định giữa lệnh đáng tin cậy và đầu vào không đáng tin cậy
Định nghĩa "lethal trifecta" của Simon Willison — dữ liệu riêng tư, nội dung không đáng tin cậy và hành động ra bên ngoài — áp dụng cho hầu hết các agent hữu ích như một mặc định, chứ không phải do cấu hình sai
Ngoài injection còn có các mối đe dọa khác, như tính không nhất quán trong hành vi mô hình
- Không có gì đảm bảo một tác vụ đã thành công một lần sẽ thành công ở lần sau
- Ngay cả khi không có ác ý, agent vẫn có thể tìm ra đường rò rỉ sáng tạo, push vào những branch không nên chạm tới, hoặc vô hiệu hóa các checkpoint phê duyệt/từ chối
Những gì có thể làm hiện nay — zero trust, đặc quyền tối thiểu, cải tiến mô hình và defense in depth là các điều kiện nền tảng, nhưng không có giải pháp đơn lẻ
Hệ thống agent an toàn cần được cấu thành từ một pipeline các agent bị ràng buộc nhiều hơn, chứ không phải một agent nguyên khối, cùng với giám sát và kiểm soát mạnh
- Có thể dùng Agent Skills như một lựa chọn thay thế MCP dễ kiểm soát hơn
- Các hướng như durable agents, kỹ thuật ngăn agent instruction bloat cũng chỉ ra xu hướng này
Vì không gian này đang tiến hóa rất nhanh, sự thận trọng là điều bắt buộc để tránh những sai lầm đắt giá

Kiềm cương coding agent

Khi hiệu năng của coding agent được cải thiện, sức hấp dẫn của việc loại con người ra khỏi vòng lặp ngày càng tăng, và các đội ngũ bắt đầu đầu tư vào coding agent harnesses
- Đây là các cơ chế kiểm soát giúp dẫn hướng hành vi của agent trước khi sinh mã, đồng thời cho phép nó tự sửa thông qua phản hồi sau đó
Kiểm soát feedforward
- Cung cấp trước những gì cần thiết để agent tăng xác suất đúng ngay từ lần thử đầu tiên
- Agent Skills là một tiến bộ quan trọng, cho phép mô-đun hóa chỉ dẫn và quy ước rồi nạp vào khi cần
- Superpowers là một ví dụ về danh mục skill hữu ích cho các nhóm phần mềm
- Khái niệm plugin marketplaces đang nổi lên, giúp việc phân phối skill và cấu hình ngữ cảnh trở nên dễ dàng hơn
- Các framework spec-driven development — như GitHub Spec-Kit, OpenSpec — đang cấu trúc hóa workflow lập kế hoạch, thiết kế và triển khai
Kiểm soát feedback
- Quan sát hành vi của agent sau khi thực hiện để tạo ra vòng lặp tự sửa
- feedback sensors for coding agents — tích hợp trực tiếp các cổng chất lượng mang tính quyết định như compiler, linter, type checker, test suite vào workflow của agent
  - Khi thất bại, sẽ kích hoạt sửa tự động trước khi con người review
- Các ví dụ trong Radar lần này gồm cargo-mutants và các công cụ mutation testing, các công cụ fuzz testing như WuppieFuzz, cùng các công cụ phân tích chất lượng mã như CodeScene
- Ngoài phản hồi trong vòng lặp, cũng đã có các trường hợp giảm architectural drift bằng cách kết hợp quy tắc cấu trúc mang tính quyết định với đánh giá dựa trên LLM

[Techniques]

Adopt

1. Context engineering

Đây là một kỹ thuật đã phát triển thành mối quan tâm kiến trúc cốt lõi của các hệ thống AI hiện đại; khác với prompt engineering tập trung vào câu chữ, nó coi context window là một bề mặt thiết kế và chủ đích xây dựng môi trường thông tin cho AI
Khi agent xử lý các tác vụ càng phức tạp, cách làm đổ dữ liệu thô vào context window lớn sẽ gây ra "context rot" và làm suy giảm khả năng suy luận; vì vậy đang có xu hướng chuyển từ prompt tĩnh, nguyên khối sang progressive context disclosure
Context setup sử dụng prompt caching để nạp trước chỉ dẫn tĩnh nhằm giảm chi phí và cải thiện thời gian đến token đầu tiên, còn Dynamic retrieval đã vượt ra ngoài RAG cơ bản để tới lựa chọn công cụ và chỉ nạp các máy chủ MCP cần thiết
Context graphs mô hình hóa suy luận cấp tổ chức như chính sách, ngoại lệ, tiền lệ thành dữ liệu có cấu trúc và có thể truy vấn; stateful compression và sub-agent giúp tóm tắt đầu ra trung gian trong các workflow dài hạn
Việc coi ngữ cảnh AI như một hộp văn bản tĩnh là con đường ngắn nhất dẫn đến hallucination; để xây dựng agent doanh nghiệp vững chắc, cần kỹ nghệ hóa ngữ cảnh thành một pipeline động và được quản lý chặt chẽ với độ chính xác cao

2. Chỉ dẫn dùng chung được tuyển chọn cho các nhóm phần mềm

Xem việc từng lập trình viên tự viết prompt từ đầu là một phản mẫu, và áp dụng cách làm coi hướng dẫn AI là tài sản kỹ thuật cộng tác thay vì quy trình làm việc cá nhân
Ban đầu tập trung vào việc duy trì thư viện prompt dùng chung cho các tác vụ phổ biến, nhưng nay đã phát triển thành cách làm tiên tiến hơn là neo chỉ dẫn trực tiếp vào các mẫu dịch vụ
- Đặt các tệp chỉ dẫn như CLAUDE.md, AGENTS.md, .cursorrules trong repository baseline để scaffold dịch vụ mới
Đồng thời cũng thử nghiệm cách làm liên quan là neo coding agent vào các ứng dụng tham chiếu, nơi codebase sống có thể biên dịch đóng vai trò nguồn chân lý duy nhất
Khi kiến trúc và tiêu chuẩn mã hóa thay đổi, có thể cập nhật cả ứng dụng tham chiếu lẫn chỉ dẫn nhúng; các repository mới mặc định kế thừa workflow và quy tắc agent mới nhất

3. DORA metrics

Các chỉ số do chương trình nghiên cứu DORA định nghĩa, bao gồm lead time for changes, tần suất triển khai, MTTR, tỷ lệ thay đổi thất bại, và chỉ số thứ năm mới là rework rate
Rework rate là chỉ số ổn định, đo tỷ lệ pipeline chuyển giao của nhóm bị tiêu tốn cho việc làm lại các công việc đã hoàn thành, chẳng hạn lỗi người dùng hoặc khuyết tật
Trong thời đại phát triển có hỗ trợ AI, DORA metrics quan trọng hơn bao giờ hết; việc đo năng suất bằng số dòng mã do AI tạo ra là gây hiểu lầm
- Nếu không giảm lead time và tăng tần suất triển khai, việc tạo mã nhanh hơn sẽ không dẫn đến kết quả tốt hơn
- Các chỉ số ổn định, đặc biệt là sự suy giảm của rework rate, là cảnh báo sớm về điểm mù, nợ kỹ thuật và rủi ro của phát triển có hỗ trợ AI một cách thiếu kiểm soát
Thay vì xây dashboard phức tạp, các cơ chế đơn giản như check-in trong buổi retrospective hiệu quả hơn trong việc cải thiện năng lực

4. Passkeys

Thông tin xác thực FIDO2 do FIDO Alliance dẫn dắt và được Apple, Google, Microsoft hỗ trợ, dùng mật mã khóa công khai bất đối xứng để thay thế mật khẩu
Khóa riêng được lưu trong secure enclave dựa trên phần cứng của thiết bị người dùng, được bảo vệ bằng sinh trắc học hoặc PIN và không bị rò rỉ ra ngoài; mỗi thông tin xác thực đều được ràng buộc nguồn gốc với miền relying party nên có khả năng chống phishing về mặt cấu trúc
Phishing là nguyên nhân của hơn 1/3 tổng số vụ vi phạm dữ liệu; FIDO Alliance Passkey Index 2025 báo cáo hơn 15 tỷ tài khoản đủ điều kiện trên toàn cầu, Google cải thiện 30% tỷ lệ đăng nhập thành công trên 800 triệu người dùng, còn Amazon xác nhận đăng nhập nhanh hơn 6 lần so với phương thức cũ
NIST SP 800-63-4 (tháng 7/2025) phân loại lại synced passkeys là tuân thủ AAL2; các cơ quan quản lý tại UAE, Ấn Độ và các cơ quan liên bang Mỹ yêu cầu xác thực chống phishing cho hệ thống tài chính và chính phủ
FIDO Credential Exchange Protocol bảo đảm khả năng di chuyển an toàn giữa các trình quản lý thông tin xác thực; các nhà cung cấp ID lớn như Auth0, Okta, Azure AD hỗ trợ như tính năng hạng nhất, giúp việc triển khai được đơn giản hóa từ công việc kéo dài nhiều tháng thành một dự án 2 sprint
- Cần cẩn trọng khi thiết kế khôi phục tài khoản và tránh các đường fallback dễ bị phishing như SMS OTP
- Với các kịch bản AAL3 (như truy cập đặc quyền), vẫn cần thông tin xác thực ràng buộc thiết bị từ khóa bảo mật phần cứng

5. Structured output from LLMs

Cách làm ràng buộc mô hình phản hồi theo định dạng được định nghĩa trước như JSON hoặc class của một ngôn ngữ lập trình cụ thể
Cung cấp kết quả đáng tin cậy trong production, được xem là mặc định hợp lý cho các ứng dụng tiêu thụ phản hồi LLM theo cách lập trình
Tất cả nhà cung cấp mô hình lớn đều cung cấp chế độ structured output gốc, nhưng tập con JSON Schema được hỗ trợ khác nhau và API thay đổi rất nhanh
Thư viện Instructor hoặc framework Pydantic AI cung cấp lớp trừu tượng ổn định với xác thực và tự động thử lại; với việc tạo ràng buộc cho mô hình tự host, khuyến nghị Outlines

6. Zero trust architecture

Khi bước vào kỷ nguyên agent, đây là mặc định hợp lý để ứng phó rủi ro bảo mật khi trao quyền tự chủ cho các hệ thống khó dự đoán
"Không bao giờ tin tưởng, luôn xác minh", coi bảo mật dựa trên danh tính và nguyên tắc truy cập đặc quyền tối thiểu là nền tảng của mọi triển khai agent
Áp dụng các tiêu chuẩn như SPIFFE cho agent để xây dựng nền tảng danh tính mạnh, cho phép xác thực tinh vi trong môi trường động
Việc giám sát và xác minh liên tục hành vi của agent là quan trọng để chủ động quản lý mối đe dọa
Ngoài triển khai agent, còn đưa các thực hành như OIDC impersonation của GCP vào pipeline CI/CD, thay thế khóa tĩnh dài hạn bằng token ngắn hạn được cấp sau khi xác minh danh tính
Khuyến nghị xem các nguyên tắc ZTA là mặc định không thể thỏa hiệp, bất kể hệ thống được xây dựng ra sao

Trial

7. Agent Skills

Khi AI agent tiến hóa từ giao diện chat đơn giản sang thực thi công việc tự chủ, context engineering trở thành thách thức cốt lõi; Agent Skills đóng gói các tài nguyên liên quan như chỉ dẫn, script có thể thực thi và tài liệu để cung cấp một tiêu chuẩn mở cho việc mô-đun hóa ngữ cảnh
Agent chỉ tải skill khi cần dựa trên mô tả, giúp giảm tiêu thụ token và làm dịu tình trạng cạn kiệt cửa sổ ngữ cảnh cùng vấn đề agent instruction bloat
Không chỉ coding agent mà cả trợ lý cá nhân như OpenClaw cũng đang nhanh chóng áp dụng; nhiều trường hợp sử dụng có thể được giải quyết hiệu quả chỉ bằng cách để agent trỏ tới CLI hoặc script cục bộ, đây cũng là một trong những lý do khiến các nhóm thận trọng với việc mặc định dùng MCP
Plugin marketplaces đang nổi lên như cách quản lý phiên bản và chia sẻ skill, đồng thời cũng có nhiều nỗ lực khám phá cách đánh giá hiệu quả của skill
Cần cẩn trọng vì việc tái sử dụng skill bên thứ ba mà không rà soát có thể gây ra rủi ro bảo mật chuỗi cung ứng nghiêm trọng

8. Browser-based component testing

Trước đây không khuyến nghị công cụ dựa trên trình duyệt (khó cấu hình, chậm và flaky), nhưng hiện nay đã cải thiện đáng kể và với các công cụ như Playwright, đây là cách tiếp cận khả thi và được ưu tiên
Khi chạy kiểm thử trong trình duyệt thật, mã sẽ khớp với môi trường thực sự nơi nó được chạy nên mang lại độ nhất quán cao hơn
Mức giảm hiệu năng đã xuống đến ngưỡng chấp nhận được, độ flaky cũng giảm, mang lại nhiều giá trị hơn so với môi trường mô phỏng như jsdom

9. Feedback sensors for coding agents

Để coding agent hiệu quả hơn và giảm gánh nặng cho người review, cần có các vòng lặp phản hồi mà agent có thể tự truy cập trực tiếp; phản hồi hoạt động như một dạng backpressure
Lập trình viên từ lâu đã dựa vào compiler, linter, kiểm thử cấu trúc và test suite như các cổng chất lượng có tính xác định; có thể kết nối chúng vào workflow agentic để kích hoạt tự sửa kịp thời khi thất bại
Có thể triển khai theo nhiều cách khác nhau, như đưa vào một reviewer agent phụ trách chạy kiểm tra và kích hoạt sửa lỗi, hoặc phơi bày các kiểm tra dưới dạng tiến trình đồng hành chạy song song
Nhờ coding agent, chi phí xây dựng linter tùy chỉnh và kiểm thử cấu trúc đã rẻ hơn, giúp tăng cường vòng lặp phản hồi
Nếu có thể, hãy chạy trong phiên coding thay vì kiểm tra sau commit, để agent báo cáo kết quả sạch trước khi commit

10. Mapping code smells to refactoring techniques

Kỹ thuật chỉ thị cho agent xử lý một vấn đề cụ thể theo cách tiếp cận đã được định nghĩa
Lớp đầu tiên định hướng agent bằng các tài liệu tham chiếu chung như Refactoring cho các trường hợp phổ biến; với các vấn đề chuyên biệt hơn, dùng Agent Skills, lệnh gạch chéo và AGENTS.md để ánh xạ smell riêng với kỹ thuật cụ thể
Khi tích hợp với công cụ linting, tạo ra phản hồi mang tính quyết định để kích hoạt cách tiếp cận refactoring phù hợp mỗi khi phát hiện smell
Đặc biệt hiệu quả trên các stack legacy như .NET Framework 2.0 hoặc Java 8, hữu ích khi dữ liệu huấn luyện phổ biến còn thiếu
Nếu không có chỉ thị mục tiêu, agent có xu hướng mặc định theo các mẫu chung thay vì các yêu cầu cụ thể

11. Mutation testing

Tín hiệu trung thực nhất để đánh giá năng lực phát hiện lỗi thực tế của bộ test; khác với code coverage truyền thống chỉ theo dõi việc thực thi dòng, phương pháp này đưa lỗi có chủ đích (mutations) vào mã nguồn để xác minh rằng test sẽ thất bại khi hành vi bị phá vỡ
Nếu biến thể không bị phát hiện, điều đó cho thấy lỗ hổng trong việc kiểm chứng chứ không chỉ là thiếu coverage; điều này đặc biệt quan trọng trong kỷ nguyên phát triển có AI hỗ trợ — coverage cao có thể che giấu các test rỗng về mặt logic hoặc mã sinh ra nhưng không được assert có ý nghĩa
Khi các test case do AI tạo ra ngày càng phổ biến, nó đóng vai trò như một lớp tăng cường để bắt các test "luôn xanh(perpetually green)" vẫn vượt qua dù logic thay đổi do thiếu assert hoặc mock bị cô lập
Với các công cụ như Stryker, Pitest, cargo-mutants, trọng tâm được chuyển sang bao nhiêu phần mã thực sự được kiểm chứng trong logic miền cốt lõi

12. Progressive context disclosure

Một kỹ thuật trong thực hành context engineering, trao cho agent một giai đoạn khám phá nhẹ để chọn những gì cần thiết dựa trên prompt của người dùng thay vì chủ động làm quá tải nó bằng chỉ dẫn
Phù hợp với các kịch bản RAG, nơi agent trước tiên xác định miền liên quan từ truy vấn của người dùng rồi mới truy xuất chỉ dẫn và dữ liệu cụ thể
Tương tự cách nhiều công cụ lập trình agentic xử lý Agent Skills: thay vì một bộ chỉ dẫn đơn khối duy nhất đầy điều kiện và lưu ý, trước hết xác định skill nào liên quan đến tác vụ rồi mới nạp chỉ dẫn chi tiết
Khi xây dựng hệ thống agentic, rất dễ rơi vào cái bẫy phình to chỉ dẫn với vô số quy tắc "DO" và "DO NOT", điều này cuối cùng làm giảm hiệu năng
Giúp giữ cửa sổ ngữ cảnh gọn nhẹ và ngăn context rot

13. Sandboxed execution for coding agents

Thực hành chạy agent trong môi trường cô lập với quyền truy cập hệ thống tệp bị giới hạn, kết nối mạng được kiểm soát và mức sử dụng tài nguyên bị hạn chế
Khi coding agent có quyền tự chủ trong việc chạy mã, build và tương tác với hệ thống tệp, quyền truy cập không giới hạn tạo ra rủi ro thực tế từ hư hại ngoài ý muốn đến lộ thông tin xác thực, nên đây là mặc định hợp lý chứ không phải tùy chọn nâng cao
Phổ lựa chọn sandbox rất rộng — nhiều coding agent cung cấp sẵn chế độ sandbox, còn Dev Containers mang lại cơ chế cô lập quen thuộc dựa trên container
Shuru khởi động microVM dùng một lần được reset sau mỗi lần chạy, còn Sprites cung cấp môi trường có trạng thái với hỗ trợ checkpoint/restore
Với cơ chế cô lập gốc trên Linux, Bubblewrap cung cấp sandbox nhẹ dựa trên namespace; trên macOS, sandbox-exec mang lại khả năng bảo vệ tương tự
Ngoài việc cô lập cơ bản, cũng cần cân nhắc mọi thứ cần cho build và test, cơ chế xác thực an toàn và đơn giản với các dịch vụ như GitHub và nhà cung cấp model, port forwarding, cùng CPU và bộ nhớ đủ dùng
Việc dùng sandbox như mặc định dùng một lần hay duy trì lâu dài để khôi phục phiên là quyết định thiết kế phụ thuộc vào ưu tiên về bảo mật, chi phí và tính liên tục của quy trình làm việc

14. Semantic layer

Kỹ thuật kiến trúc dữ liệu đưa vào một lớp logic nghiệp vụ dùng chung giữa kho dữ liệu và các ứng dụng tiêu thụ như công cụ BI, agent AI và API
Tập trung hóa định nghĩa metric, join, quy tắc truy cập và thuật ngữ nghiệp vụ để các bên tiêu thụ cùng dùng chung định nghĩa; đây là khái niệm có từ trước modern data stack nhưng đang được quan tâm trở lại nhờ các cách tiếp cận code-first như metrics stores
Nếu không có semantic layer, logic nghiệp vụ sẽ bị phân tán khắp các bảng warehouse tạm thời, dashboard và ứng dụng downstream, còn định nghĩa metric thì âm thầm phân nhánh
Agentic AI khiến vấn đề trầm trọng hơn — khi LLM thực hiện chuyển đổi text-to-SQL một cách ngây thơ, kết quả sai xảy ra thường xuyên, đặc biệt khi các quy tắc nghiệp vụ như ghi nhận doanh thu nằm ngoài schema
Các nền tảng đám mây đang nhúng trực tiếp semantic layer; Snowflake gọi là Semantic Views, Databricks gọi là Metric Views, còn các công cụ độc lập như dbt MetricFlow và Cube cung cấp lớp có thể di chuyển giữa nhiều hệ thống
Open Semantic Interchange (OSI) v1.0 vừa được phát hành gần đây, với sự hỗ trợ từ nhiều nhà cung cấp, báo hiệu đà lan rộng của tiêu chuẩn hóa và khả năng tương tác trên các nền tảng phân tích, AI và BI
Chi phí chính là khoản đầu tư mô hình hóa dữ liệu ban đầu; khuyến nghị bắt đầu từ một miền đơn lẻ thay vì triển khai trên toàn doanh nghiệp

15. Server-driven UI

Tách việc render thành các container chung và để máy chủ cung cấp cấu trúc cùng dữ liệu, giúp các đội mobile tránh được chu kỳ review App Store kéo dài ở mỗi vòng lặp
Với định dạng dựa trên JSON cho phép cập nhật theo thời gian thực, cách này cải thiện đáng kể thời gian phát hành, đồng thời sự xuất hiện của các mô hình ổn định ở những công ty như Airbnb và Lyft đã làm giảm độ phức tạp
Trước đây từng bị cảnh báo là một "mớ hỗn độn kinh khủng và quá mức có thể cấu hình" mà framework độc quyền có thể tạo ra, nhưng nay việc đầu tư cho các ứng dụng quy mô lớn đã dễ được biện minh hơn
Dù vậy, nó vẫn cần một business case đủ mạnh và cách làm kỹ thuật có chừng mực; điều quan trọng là tránh tạo ra "god-protocol" khó bảo trì
Khuyến nghị áp dụng cho những khu vực có tính động rất cao thay vì thay thế toàn bộ hoạt động phát triển UI của ứng dụng

Đánh giá

16. Agentic reinforcement learning environments

Sân huấn luyện cho các tác nhân dựa trên LLM, kết hợp ngữ cảnh, công cụ và phản hồi để hoàn thành tác vụ nhiều bước
Cách tiếp cận này tái cấu trúc hậu huấn luyện LLM từ đầu ra một lượt đơn giản thành các hành vi agentic như suy luận và sử dụng công cụ, đồng thời gán phần thưởng hoặc hình phạt cho từng hành động
Với các kỹ thuật như RLVR, bảo đảm phần thưởng có thể được kiểm chứng và khó bị “game hóa”
Hiện các phòng thí nghiệm nghiên cứu AI đang dẫn dắt phát triển, đặc biệt cho tác nhân lập trình và tác nhân sử dụng máy tính; Composer của Cursor là ví dụ ngoài các frontier lab về một mô hình lập trình chuyên biệt được huấn luyện trong môi trường sản phẩm
Sự xuất hiện của các framework và nền tảng như Environments Hub của Prime Intellect, Agent Lightning, NVIDIA NeMo Gym đang giúp đơn giản hóa quy trình

17. Architecture drift reduction with LLMs

Khi việc dùng tác nhân lập trình AI tăng lên, độ lệch khỏi codebase và thiết kế kiến trúc dự định cũng tăng tốc; nếu bị bỏ mặc, cả tác nhân lẫn con người sẽ sao chép các mẫu sẵn có (kể cả mẫu đã suy thoái), khiến độ lệch chồng chất và tạo thành vòng lặp phản hồi nơi mã xấu sinh ra mã tệ hơn
Kết hợp các công cụ phân tích mang tính xác định (Spectral, ArchUnit, Spring Modulith) với đánh giá dựa trên LLM để phát hiện cả vi phạm về cấu trúc lẫn ngữ nghĩa
Áp dụng vào việc định nghĩa các vùng kiến trúc nhằm cưỡng chế hướng dẫn chất lượng API trên toàn bộ dịch vụ và định hướng cải thiện phần sinh do tác nhân tạo ra
Giống linting truyền thống, lần quét ban đầu sẽ làm lộ ra nhiều vi phạm → cần phân loại và ưu tiên, và LLM có thể hỗ trợ việc này
Giữ các chỉnh sửa do tác nhân tạo ra nhỏ và tập trung để dễ review; bắt buộc phải có vòng kiểm chứng bổ sung nhằm xác nhận thay đổi thực sự cải thiện hệ thống mà không gây hồi quy
Mở rộng ý tưởng của feedback sensors for coding agents sang các giai đoạn muộn hơn trong vòng đời phân phối; theo cách diễn đạt của nhóm OpenAI, giảm drift hoạt động như một dạng "garbage collection"

18. Code intelligence as agentic tooling

LLM xử lý mã như một dòng token và không có hiểu biết nguyên bản về đồ thị gọi, phân cấp kiểu hay quan hệ ký hiệu
Trong khám phá mã, hiện nay phần lớn tác nhân lập trình mặc định dùng tìm kiếm dựa trên văn bản (mẫu số chung mạnh nhất trên mọi ngôn ngữ); với các thao tác tái cấu trúc vốn chỉ cần phím tắt nhanh trong IDE, tác nhân lại phải tạo nhiều bản diff văn bản
Tác nhân tiêu tốn đáng kể token để tái dựng lại thông tin vốn đã tồn tại trong AST
Cung cấp cho tác nhân quyền truy cập vào các công cụ nhận biết AST, ví dụ qua Language Server Protocol (LSP), để các thao tác như “tìm mọi tham chiếu tới ký hiệu này” hoặc “đổi tên kiểu này ở mọi nơi” trở thành hành động hạng nhất
Các công cụ codemod như OpenRewrite hoạt động trên biểu diễn mã phong phú hơn là Lossless Semantic Tree (LST); giao đúng tác vụ cho công cụ mang tính xác định sẽ giúp giảm chỉnh sửa do ảo giác và tiết kiệm token
Claude Code, OpenCode và các công cụ khác tích hợp với máy chủ LSP chạy cục bộ; JetBrains cung cấp máy chủ MCP để phơi bày khả năng điều hướng và tái cấu trúc trong IDE cho tác nhân bên ngoài, còn máy chủ MCP Serena cung cấp tìm kiếm và chỉnh sửa mã theo ngữ nghĩa

19. Context graph

Kỹ thuật biểu diễn tri thức mô hình hóa quyết định, chính sách, ngoại lệ, tiền lệ, bằng chứng và kết quả thành các nút được liên kết hạng nhất trong một đồ thị, được cấu trúc để AI có thể tiêu thụ
Nếu hệ thống ghi chép nắm bắt điều gì đã xảy ra, thì context graph nắm bắt lý do — chuyển đổi suy luận mang tính tổ chức vốn bị chôn trong các thread Slack, chuỗi phê duyệt và trong đầu con người thành cấu trúc máy đọc được có thể truy vấn
Rất quan trọng với hiệu quả của tác nhân; ví dụ, một tác nhân xử lý ngoại lệ giảm giá có thể suy luận sai nếu không phân biệt được đây là chính sách tiêu chuẩn hay ghi đè một lần; context graph cho phép duyệt vết quyết định, áp dụng tiền lệ liên quan và suy luận chuỗi nhân quả nhiều bước bằng cách phơi bày trực tiếp nguồn gốc
Khác với GraphRAG được xây dựng từ kho tài liệu tĩnh, context graph duy trì hiệu lực theo thời gian trên mọi cạnh; các sự thật bị thay thế sẽ bị vô hiệu hóa chứ không bị ghi đè
Đáng để đánh giá trong các ứng dụng agentic cần bộ nhớ bền vững xuyên phiên hoặc suy luận quyết định có thể truy vết

20. Feedback flywheel

Các nhóm làm việc với tác nhân lập trình ngày càng áp dụng quy trình spec-driven development, và dù dùng framework nhẹ hay nhiều tính định hướng, vẫn đi theo luồng spec → plan → implement
Feedback flywheel mở rộng luồng này bằng một bước bổ sung tập trung vào việc liên tục cải thiện harness cho coding agent
Tương tự retrospective, nhóm ghi lại thành công và thất bại trong các phiên với coding agent để dùng vào việc tăng tính dự đoán cho các phiên tương lai, tạo ra hiệu ứng cộng dồn theo thời gian
Đây là một kỹ thuật meta nơi human on the loop tập trung vào việc cải thiện các biện pháp kiểm soát feedforward như curated shared instructions và feedback sensors for coding agents
Cấp độ tiếp theo là agentic feedback flywheel, nơi tác nhân quyết định những cải tiến cần thiết dựa trên phản hồi tích lũy; hiện tại vẫn cần human-in-the-loop để tránh context rot và phản hồi nhiễu có thể làm lệch hướng tác nhân
Khi môi trường phát triển, có thể dùng nó để đánh giá toàn bộ harness của coding agent, đặc biệt khi áp dụng mô hình mới vì những gì hiệu quả với một mô hình có thể trở nên không còn cần thiết ở mô hình kế tiếp

21. HTML Tools

Với các công cụ agentic, việc xây dựng các tiện ích nhỏ theo từng tác vụ trở nên dễ dàng hơn, nên thách thức chính là cách triển khai và chia sẻ
HTML Tools là một cách tiếp cận đóng gói script hoặc tiện ích có thể chia sẻ thành một tệp HTML duy nhất
Có thể chạy trực tiếp trong trình duyệt, host ở bất kỳ đâu, hoặc đơn giản là chia sẻ tệp, tránh overhead phân phối của công cụ CLI vốn cần chia sẻ binary hoặc dùng package manager
Đơn giản hơn so với việc xây dựng một ứng dụng web hoàn chỉnh với hạ tầng hosting chuyên biệt
Xét từ góc độ bảo mật, việc chạy các tệp không đáng tin cậy vẫn tiềm ẩn rủi ro, dù sandbox của trình duyệt và khả năng kiểm tra mã nguồn có thể giảm bớt phần nào
Với các tiện ích nhẹ, một tệp HTML duy nhất là cách tiếp cận rất dễ tiếp cận và có tính di động cao

22. Đánh giá LLM bằng semantic entropy

Trong các ứng dụng hỏi đáp dùng LLM, confabulation là một dạng ảo giác mà các phương pháp đánh giá truyền thống khó xử lý
Một cách tiếp cận là dùng entropy thông tin để đo mức độ bất định bằng cách phân tích biến thể từ vựng của đầu ra cho cùng một đầu vào
Việc đánh giá LLM bằng semantic entropy mở rộng ý tưởng này bằng cách tập trung vào khác biệt về ý nghĩa thay vì biến thể ở mức bề mặt
Vì đánh giá theo ý nghĩa thay vì chuỗi từ, phương pháp này có thể áp dụng trên nhiều bộ dữ liệu và tác vụ mà không cần tri thức trước, đồng thời khái quát tốt cho các tác vụ chưa biết
Giúp xác định các prompt có khả năng gây ra confabulation và khuyến nghị thận trọng khi cần
Entropy ngây thơ thường không phát hiện được confabulation, còn semantic entropy hiệu quả hơn trong việc lọc các khẳng định sai

23. Đo lường chất lượng cộng tác với coding agents

Dù đã quan sát thấy mức tăng năng suất thực tế khi dùng coding agents, phần lớn metric đánh giá vẫn quá tập trung vào coding throughput như thời gian ra kết quả đầu tiên, số dòng mã được tạo, hay số tác vụ hoàn thành
Để tránh việc các nhóm rơi vào bẫy tốc độ (speed trap), trọng tâm cần chuyển sang con người và agent cộng tác hiệu quả đến mức nào
Các metric như first-pass acceptance rate, số vòng lặp cho mỗi tác vụ, làm lại sau merge, build thất bại và gánh nặng review mang lại tín hiệu có ý nghĩa hơn so với chỉ nhìn vào tốc độ
Các nhóm dùng Claude Code có thể dùng lệnh /insights để tạo báo cáo phản ánh thành công và thách thức của các phiên agent; cũng có thử nghiệm theo dõi first-pass acceptance của lệnh /review được tùy biến
Chu kỳ phản hồi ngắn và số build thất bại giảm là chỉ dấu của tương tác hiệu quả hơn với agent
Ở cấp độ nhóm thay vì cá nhân, việc theo dõi chất lượng cộng tác cùng với các metric DORA giúp xây dựng bức tranh đầy đủ hơn về tác động của việc áp dụng coding agents

24. MITRE ATLAS

Các hệ thống agentic và công cụ lập trình đang đưa vào những kiến trúc mới và các mối đe dọa bảo mật phát sinh
MITRE ATLAS là một cơ sở tri thức về các chiến thuật và kỹ thuật đối kháng nhắm vào hệ thống AI và ML
Đây là một khung tập trung hơn và được thiết kế để bổ trợ cho khung MITRE ATT&CK rộng hơn, cung cấp phân loại mối đe dọa cho pipeline ML, ứng dụng LLM và hệ thống agentic
Nếu không có từ vựng chung, rủi ro bảo mật thường bị bỏ sót hoặc bị thu gọn thành một bài tập check-box, và ATLAS giúp khắc phục điều đó
Dựa trên nghiên cứu về các sự cố thực tế và các mẫu kỹ thuật, khung này có thể được các nhóm dùng để hỗ trợ threat modeling
Đây là phần bổ sung tự nhiên cho các khung kiểm soát như SAIF, giúp diễn giải bối cảnh đe dọa đang tiến hóa của các hệ thống AI

25. Ralph loop

Một kỹ thuật cho autonomous coding agent, còn được gọi là Wiggum loop, trong đó một prompt cố định được đưa vào agent trong vòng lặp vô hạn
Mỗi vòng lặp bắt đầu với một cửa sổ ngữ cảnh mới — agent chọn việc từ đặc tả hoặc kế hoạch, triển khai nó, rồi khởi động lại vòng lặp với ngữ cảnh mới
Điểm cốt lõi là sự đơn giản: thay vì điều phối teams of coding agents hay coding agent swarms, một agent đơn lẻ tự chủ làm việc dựa trên đặc tả, với kỳ vọng codebase sẽ hội tụ về đặc tả qua nhiều vòng lặp lặp lại
Việc dùng cửa sổ ngữ cảnh mới ở mỗi vòng lặp tránh suy giảm chất lượng do ngữ cảnh tích lũy, đổi lại là chi phí token đáng kể
Các công cụ như goose triển khai mẫu này, và trong một số trường hợp còn mở rộng bằng review chéo giữa các mô hình qua từng vòng lặp

26. Reverse engineering cho design system

Các tổ chức thường phải vật lộn với những giao diện legacy bị phân mảnh, nơi "tiêu chuẩn thiết kế" chỉ tồn tại như một tập hợp lỏng lẻo các trang web riêng lẻ, tài liệu marketing và ảnh chụp màn hình
Trước đây, việc kiểm kê các artifact này để xây nền tảng hợp nhất là một quy trình thủ công và tốn thời gian
Với multimodal LLM, có thể tự động hóa việc trích xuất này để reverse engineering design system từ các tài sản trực quan hiện có
Bằng cách đưa website, ảnh chụp màn hình, và các mảnh giao diện vào công cụ chuyên dụng hoặc các mô hình AI có khả năng thị giác, các nhóm có thể trích xuất các design token cốt lõi như bảng màu, thang typography, quy tắc khoảng cách, đồng thời nhận diện các mẫu component lặp lại
AI tổng hợp dữ liệu trực quan phi cấu trúc này thành biểu diễn ngữ nghĩa có cấu trúc của một design system; khi tích hợp với các công cụ như Figma, đầu ra này giúp tăng tốc đáng kể việc tạo ra thư viện component được chính thức hóa và có thể bảo trì
Ngoài việc giảm công sức kiểm kê trực quan, đây còn đóng vai trò như bước đệm để xây dựng design system “AI-ready”
Với các doanh nghiệp đang gánh nợ thiết kế brownfield, việc dùng AI để thiết lập design system ở mức baseline là điểm khởi đầu thực tế trước khi tái thiết kế toàn diện hoặc chuẩn hóa frontend

27. Cô lập ngữ cảnh theo vai trò trong RAG

Một kỹ thuật kiến trúc chuyển kiểm soát truy cập từ lớp ứng dụng xuống lớp truy xuất
Mỗi data chunk được gắn thẻ quyền hạn theo vai trò tại thời điểm lập chỉ mục; đến thời điểm truy vấn, công cụ tìm kiếm giới hạn không gian truy xuất dựa trên danh tính đã xác thực của người dùng, đối chiếu với metadata của từng chunk
Vì mô hình AI được lọc ngay tại bước truy xuất, phương pháp này bảo đảm không thể truy cập vào ngữ cảnh chưa được cấp quyền, tạo nền tảng zero-trust cho các kho tri thức nội bộ
Nhiều vector database như Milvus hay các dịch vụ dựa trên Amazon S3 hỗ trợ lọc metadata hiệu năng cao, khiến việc áp dụng trở nên thực tế ngay cả với các kho tri thức lớn

28. Kỹ năng như tài liệu onboarding có thể thực thi

Agent Skills, curated shared instructions và các kỹ thuật context engineering khác xuất hiện xuyên suốt Radar lần này; trường hợp sử dụng đáng nhấn mạnh trong bối cảnh lập trình là kỹ năng như tài liệu onboarding có thể thực thi
Có thể áp dụng ở nhiều cấp độ; trong codebase, kỹ năng /_setup có thể đảm nhiệm vai trò của script go.sh và tệp README, kết hợp ngữ nghĩa thực thi của LLM với script cho các bước không thể script hóa
Vượt ra ngoài những gì script có thể làm, nó còn có thể xem xét động trạng thái hiện tại của codebase và môi trường
Nhà tạo thư viện và API có thể cung cấp kỹ năng cho bên tiêu thụ như một phần của tài liệu, thông qua registry kỹ năng nội bộ hoặc bên ngoài (chẳng hạn Tessl)
Hữu ích cho onboarding nền tảng nội bộ của nhóm, giúp hạ thấp rào cản sử dụng công nghệ cốt lõi hoặc giảm ma sát khi áp dụng design system; trước đây chủ yếu phụ thuộc vào máy chủ MCP nhưng nay đang chuyển sang dùng kỹ năng
Cũng như các dạng tài liệu khác, thách thức giữ cho nội dung luôn cập nhật vẫn không biến mất; tuy nhiên, tài liệu có thể thực thi giúp nhận ra sự lỗi thời sớm hơn nhiều so với tài liệu tĩnh

29. Mô hình ngôn ngữ nhỏ

SLM tiếp tục được cải thiện và trong một số trường hợp sử dụng cụ thể đã bắt đầu mang lại mức độ thông minh tốt hơn trên mỗi đô la so với LLM
Các nhóm đang đánh giá SLM để giảm chi phí suy luận và tăng tốc workflow agentic; các tiến bộ gần đây cho thấy lợi ích ổn định về mật độ thông minh, giúp chúng đủ sức cạnh tranh với các LLM cũ trong các tác vụ như tóm tắt và lập trình cơ bản
Điều này phản ánh sự chuyển dịch từ tư duy "càng lớn càng tốt" sang dữ liệu chất lượng cao hơn, model distillation, quantization
Các mô hình như Phi-4-mini và Ministral 3 3B cho thấy mô hình được chưng cất vẫn giữ được nhiều năng lực của mô hình giáo viên lớn hơn
Ngay cả các mô hình siêu nhỏ như Qwen3-0.6B và Gemma-3-270M cũng đã có thể chạy trên thiết bị biên
Với các trường hợp sử dụng agentic mà trước đây LLM cũ là đủ, hãy cân nhắc SLM như một phương án thay thế chi phí thấp, độ trễ thấp và yêu cầu tài nguyên ít hơn

30. Đội ngũ coding agent

Trong Radar trước, đây được mô tả là kỹ thuật mà nhà phát triển điều phối một nhóm nhỏ agent theo vai trò để cộng tác trong công việc lập trình
Từ đó đến nay, rào cản áp dụng đã giảm; hỗ trợ sub-agent đang trở thành tính năng mặc định trong các công cụ coding agent phổ biến, bao gồm tính năng agent teams cung cấp điều phối tích hợp trong Claude Code
Trong một đội ngũ agent, bộ điều phối chính thường quản lý việc sắp xếp thứ tự công việc và chạy song song; các agent cần có khả năng giao tiếp không chỉ với bộ điều phối mà còn với nhau
Trường hợp sử dụng phổ biến là đội reviewer hoặc nhóm implementer phụ trách các phần khác nhau của ứng dụng như backend và frontend
Một số bên trong ngành dùng thay thế cho nhau giữa "agent teams" và "agent swarms" (Claude Code mô tả tính năng agent teams là "our implementation of swarms"), nhưng việc phân biệt chúng vẫn có giá trị
Việc một đội agent nhỏ, có chủ đích cùng cộng tác trong một nhiệm vụ khác khá nhiều so với swarm lớn về rào cản gia nhập, độ phức tạp và trường hợp sử dụng

31. Temporal fakes

Mở rộng ý tưởng mô phỏng hệ thống thế giới thực vốn đã được dùng từ lâu trong các nền tảng IoT và công nghiệp
AI coding agent đang làm giảm đáng kể công sức xây dựng simulator, giúp việc tạo ra bản sao có độ trung thực cao của các phụ thuộc bên ngoài trở nên dễ dàng hơn nhiều
Khác với mock truyền thống chỉ trả về các cặp request-response tĩnh, temporal fakes duy trì state machine nội bộ và mô hình hóa diễn tiến theo thời gian của hệ thống thực
Một nhóm đã dùng kỹ thuật này để phát triển stack observability cho trung tâm dữ liệu GPU quy mô lớn mà không cần mua sắm phần cứng vật lý
- Việc kiểm thử quy tắc cảnh báo, dashboard và phát hiện bất thường trên hệ thống thực là không thực tế (ví dụ: cố tình làm GPU quá nhiệt để xác minh cảnh báo thermal throttle)
- Thay vào đó, họ xây dựng fake cho các miền phần cứng như NVIDIA DCGM và fabric InfiniBand bằng Go
- Với simulator, họ có thể kích hoạt các kịch bản lỗi như thermal throttling, bão lỗi XID, link flap và lỗi PSU với cường độ và thời lượng có thể cấu hình, được điều phối bằng stack process-compose
Một registry trung tâm định nghĩa các kịch bản lỗi hợp lệ, còn máy chủ MCP phơi bày khả năng tiêm các kịch bản đó cho agent
Agent có thể kích hoạt lỗi như tiêm thermal throttle vào một GPU cụ thể, rồi xác minh rằng metric thay đổi đúng như kỳ vọng, cảnh báo được kích hoạt và dashboard được cập nhật
Độ trung thực theo thời gian này khiến kỹ thuật trở nên có giá trị khi kiểm thử các hệ thống phức tạp nơi lỗi có thể dây chuyền; tuy nhiên, nếu fake không trung thành với hành vi thực tế thì sẽ có nguy cơ tạo ra sự tự tin sai lệch trong pipeline tự động hóa

32. Phân tích toxic flow cho AI

Năng lực của agent đang vượt trước các thực hành bảo mật; sự trỗi dậy của các agent “khát quyền hạn” (permission-hungry) như OpenClaw đang khiến các nhóm ngày càng triển khai agent vào những môi trường phơi bày với lethal trifecta — truy cập dữ liệu riêng tư, tiếp xúc với nội dung không đáng tin cậy và khả năng giao tiếp ra bên ngoài
Khi năng lực tăng lên thì bề mặt tấn công cũng mở rộng, khiến hệ thống phơi nhiễm với các rủi ro như prompt injection và tool poisoning
Toxic flow analysis tiếp tục được công nhận là kỹ thuật chủ chốt để khảo sát các hệ thống agentic nhằm xác định các luồng dữ liệu không an toàn và các vector tấn công tiềm ẩn
Rủi ro không còn chỉ giới hạn ở tích hợp MCP; các mẫu tương tự cũng được quan sát trong Agent Skills — tác nhân độc hại có thể đóng gói một kỹ năng trông hữu ích nhưng cài sẵn chỉ dẫn ẩn nhằm làm rò rỉ dữ liệu nhạy cảm
Nhóm strongly khuyến nghị các đội xây dựng agent thực hiện toxic flow analysis và dùng các công cụ như Agent Scan để xác định các luồng dữ liệu không an toàn trước khi bị khai thác

33. Vision language models for end-to-end document parsing

Việc phân tích tài liệu phụ thuộc vào pipeline nhiều giai đoạn kết hợp phát hiện bố cục, OCR truyền thống và script hậu xử lý, nên gặp khó với bố cục phức tạp và công thức toán học
Phân tích tài liệu end-to-end bằng VLM coi hình ảnh tài liệu là một phương thức đầu vào duy nhất, giúp đơn giản hóa kiến trúc, đồng thời bảo toàn thứ tự đọc tự nhiên và nội dung có cấu trúc
Các mô hình mã nguồn mở được huấn luyện chuyên biệt cho mục đích này như olmOCR-2, DeepSeek-OCR (3B) tối ưu hiệu quả token, và PaddleOCR-VL siêu nhỏ đều cho kết quả rất hiệu quả
Dù VLM giúp thay thế pipeline nhiều giai đoạn và giảm độ phức tạp kiến trúc, chúng vẫn có xu hướng hallucination do bản chất sinh sinh
Các trường hợp sử dụng có dung sai lỗi thấp vẫn cần cách tiếp cận lai hoặc OCR mang tính quyết định
Các nhóm xử lý thu thập tài liệu quy mô lớn cần đánh giá cách tiếp cận tích hợp này để xác định liệu có thể duy trì độ chính xác đồng thời giảm chi phí bảo trì dài hạn hay không

Caution

34. Agent instruction bloat

Các tệp ngữ cảnh như AGENTS.md, CLAUDE.md theo thời gian tích lũy thêm tổng quan codebase, mô tả kiến trúc, quy ước và quy tắc
Mỗi phần bổ sung đều hữu ích nếu xét riêng lẻ, nhưng thường dẫn tới agent instruction bloat, khiến chỉ dẫn ngày càng dài và đôi khi xung đột với nhau
Mô hình có xu hướng ít chú ý hơn đến nội dung bị chôn vùi ở giữa ngữ cảnh dài; hướng dẫn nằm sâu trong lịch sử hội thoại dài có thể bị bỏ sót
Khi số lượng chỉ dẫn tăng lên, khả năng các quy tắc quan trọng bị bỏ qua cũng tăng theo
Nhiều nhóm đang dùng AI để tạo tệp AGENTS.md, nhưng nghiên cứu cho thấy bản viết tay thường hiệu quả hơn bản do LLM tạo
Khi sử dụng công cụ agentic, cần có chủ đích và chọn lọc với chỉ dẫn, chỉ thêm khi cần và liên tục tinh chỉnh để duy trì một bộ tối thiểu, nhất quán
Hãy cân nhắc dùng progressive context disclosure để chỉ làm lộ ra những chỉ dẫn và năng lực cần thiết cho tác vụ hiện tại

35. AI-accelerated shadow IT

AI tiếp tục hạ thấp rào cản để người không biết lập trình xây dựng các hệ thống phức tạp, cho phép thử nghiệm và xác thực sớm yêu cầu, nhưng cũng mang vào rủi ro shadow IT được AI tăng tốc
Ngoài các nền tảng workflow no-code tích hợp AI API như OpenAI hay Anthropic, ngày càng có nhiều công cụ agentic như Claude Cowork được cung cấp cho người không biết lập trình
Khi những bảng tính vốn âm thầm vận hành doanh nghiệp tiến hóa thành các workflow agentic tùy biến không có quản trị, chúng tạo ra rủi ro bảo mật đáng kể và kéo theo sự lan rộng của các giải pháp cạnh tranh cho những vấn đề tương tự
Việc phân biệt giữa workflow dùng một lần và các quy trình quan trọng cần triển khai bền vững, sẵn sàng production là chìa khóa để cân bằng giữa thử nghiệm và kiểm soát
Các tổ chức cần ưu tiên quản trị như một phần trong chiến lược áp dụng AI, đồng thời thúc đẩy thử nghiệm trong môi trường được kiểm soát
Sandbox nội bộ được instrument phù hợp có thể cung cấp nơi để người không biết lập trình triển khai prototype với khả năng theo dõi mức sử dụng
Kết hợp với danh mục chia sẻ workflow hiện có sẽ giúp các nhóm tìm ra những gì đã được xây dựng và tránh trùng lặp công sức

36. Codebase cognitive debt

Khoảng cách ngày càng lớn giữa cách hệ thống được triển khai và sự hiểu biết chung của nhóm về cách và lý do nó hoạt động
Khi AI làm tăng tốc độ thay đổi, đặc biệt với nhiều người đóng góp hoặc Coding Agent Swarms, các nhóm có thể mất dấu ý đồ thiết kế và các liên kết phụ thuộc ẩn
Kết hợp với nợ kỹ thuật ngày càng tăng, điều này tạo thành một vòng lặp tự củng cố khiến hệ thống ngày càng khó suy luận hơn
Sự hiểu biết yếu về hệ thống làm giảm khả năng của lập trình viên trong việc định hướng AI hiệu quả, khiến việc dự đoán edge case và dẫn agent tránh khỏi các bẫy kiến trúc trở nên khó khăn hơn
Nếu không được quản lý, hệ thống có thể đạt tới điểm bùng phát nơi thay đổi nhỏ cũng kích hoạt lỗi ngoài dự kiến, bản sửa lỗi gây ra regression, và nỗ lực dọn dẹp lại làm tăng thay vì giảm rủi ro
Hãy tránh sự dễ dãi với mã do AI tạo ra và đưa vào các biện pháp đối phó rõ ràng — feedback sensors for coding agents, theo dõi tải nhận thức của nhóm, và architecture fitness functions để tiếp tục cưỡng chế các ràng buộc cốt lõi khi AI tăng tốc đầu ra

37. Coding agent swarms

Nếu team of coding agents là một nhóm nhỏ có chủ đích, thì coding agent swarm áp dụng hàng chục đến hàng trăm agent vào một vấn đề, với AI quyết định cấu hình và quy mô một cách động
Các dự án như Gas Town và Ruflo (trước đây là Claude Flow) là những ví dụ điển hình
Các mẫu ban đầu cho triển khai swarm đang xuất hiện — phân tách vai trò theo thứ bậc (orchestrator, supervisor, worker tạm thời), sổ cái công việc bền vững giúp agent phân chia và điều phối công việc (Gas Town dùng beads), và cơ chế merge để xử lý xung đột khi làm việc song song
Hai thử nghiệm swarm đặc biệt đáng chú ý — tạo trình biên dịch C của Anthropic và thử nghiệm agent scaling của Cursor (tạo trình duyệt trong suốt một tuần)
Cả hai nhóm đều chọn các trường hợp sử dụng có thể dựa vào đặc tả chi tiết sẵn có, trong đó trường hợp trình biên dịch C còn có bộ test toàn diện cung cấp phản hồi rõ ràng và đo lường được
Những điều kiện này không đại diện cho phát triển sản phẩm điển hình, nơi yêu cầu kém được xác định hơn và việc xác minh khó hơn nhiều
Dù vậy, các thử nghiệm này đang đóng góp vào những mẫu mới nổi giúp swarm chạy dài hạn trở nên khả thi về mặt kỹ thuật; chúng vẫn tốn kém và còn xa mới trưởng thành, nên khuyến nghị thận trọng khi áp dụng

38. Coding throughput như một thước đo năng suất

Trợ lý lập trình AI thực sự mang lại cải thiện năng suất và đang nhanh chóng trở thành công cụ tiêu chuẩn cho lập trình viên
Tuy nhiên, ngày càng nhiều tổ chức đo lường thành công bằng các chỉ số bề nổi như số dòng mã được tạo ra hoặc số lượng pull request (PR)
Khi được dùng tách biệt, các chỉ số coding throughput như vậy có thể ảnh hưởng tiêu cực đến hành vi của nhân viên
Kết quả thường là làn sóng mã không được căn chỉnh đúng, làm chậm quá trình review, gây hại cho throughput bàn giao và đưa vào rủi ro bảo mật, khi kỹ sư tạo PR đầy đầu ra AI được xem xét chưa đầy đủ, khiến reviewer phải qua lại nhiều vòng và làm tăng cycle time
Các chỉ số này không nắm bắt được nỗ lực còn lại cần thiết để đưa mã do AI tạo ra phù hợp với kiến trúc, quy ước và mẫu của nhóm
Có những chỉ báo sớm ý nghĩa hơn — first-pass acceptance rate, tức tần suất đầu ra AI có thể được sử dụng với mức làm lại tối thiểu
Việc đo lường chỉ số này giúp bộc lộ phần nỗ lực bị che khuất và cho phép hành động cải thiện, để nhóm tiếp tục tăng mức chấp nhận thông qua tinh chỉnh prompt, cải thiện tài liệu priming và tăng cường trao đổi về thiết kế
Điều này tạo ra vòng lặp tích cực khi đầu ra AI cần ít chỉnh sửa hơn, và first-pass acceptance liên kết tự nhiên với DORA metrics — tỷ lệ chấp nhận thấp có xu hướng làm tăng tỷ lệ thay đổi thất bại, còn các vòng lặp lặp đi lặp lại sẽ kéo dài lead time của thay đổi
Khi trợ lý AI trở nên phổ biến, các tổ chức cần chuyển trọng tâm khỏi chỉ riêng coding throughput sang các chỉ số phản ánh tác động thực và kết quả bàn giao

39. Bỏ qua tính bền vững trong quy trình làm việc của agent

Một anti-pattern được quan sát ở nhiều nhóm, dẫn đến các hệ thống chạy được trong phát triển nhưng thất bại trong môi trường production
Những thách thức mà hệ thống phân tán phải đối mặt còn nổi bật hơn khi xây dựng agent; tư duy dự liệu thất bại và phục hồi một cách uyển chuyển vượt trội hơn cách tiếp cận mang tính phản ứng
LLM và các lệnh gọi công cụ có thể thất bại do gián đoạn mạng và sự cố máy chủ, làm gián đoạn tiến trình của agent, gây trải nghiệm người dùng kém và làm tăng chi phí vận hành
Một số hệ thống có thể chấp nhận điều này khi tác vụ ngắn hạn, nhưng các workflow phức tạp chạy trong nhiều ngày hoặc nhiều tuần thì cần có tính bền vững
Các framework agent như LangGraph và Pydantic AI đang tích hợp thực thi bền vững
Chúng cung cấp khả năng lưu bền trạng thái của tiến trình và các lệnh gọi công cụ, để agent có thể tiếp tục công việc sau khi gặp lỗi
Với workflow có human in the loop, thực thi bền vững cho phép tạm dừng tiến trình trong khi chờ đầu vào
Các nền tảng durable computing như Temporal, Restate và Golem cũng cung cấp hỗ trợ cho agent
Khả năng quan sát đối với thực thi công cụ tích hợp sẵn và theo dõi quyết định giúp gỡ lỗi dễ hơn và cải thiện hiểu biết về hệ thống production
Hãy bắt đầu với hỗ trợ thực thi bền vững native của framework agent; khi workflow trở nên quan trọng hơn hoặc phức tạp hơn, hãy tận dụng nền tảng độc lập

40. MCP theo mặc định

Model Context Protocol (MCP) đang thu hút sự chú ý, và các nhóm cùng nhà cung cấp có xu hướng chọn nó làm lớp tích hợp mặc định giữa agent AI và hệ thống bên ngoài, dù vẫn có các lựa chọn thay thế đơn giản hơn
Cần thận trọng khi dùng MCP làm mặc định; MCP thực sự mang lại giá trị bổ sung ở các hợp đồng công cụ có cấu trúc, ranh giới xác thực dựa trên OAuth và truy cập multi-tenant được quản trị
Nhưng nó cũng tạo ra thứ mà Justin Poehnelt gọi là "abstraction tax" — mọi lớp giao thức giữa agent và API đều có thể làm mất độ trung thực, và với API phức tạp thì tổn thất này càng chồng chất
Trên thực tế, một CLI được thiết kế tốt với đầu ra --help rõ ràng, phản hồi JSON có cấu trúc và xử lý lỗi có thể dự đoán được có thể cung cấp mọi thứ agent cần mà không có overhead giao thức
Như Simon Willison chỉ ra, "gần như mọi thứ có thể đạt được bằng MCP đều có thể xử lý bằng công cụ CLI"
Đây không phải là bác bỏ MCP; các nhóm nên tránh áp dụng mặc định và trước tiên tự hỏi liệu hệ thống của mình có thực sự cần khả năng tương tác ở cấp giao thức hay không
MCP là hợp lý khi lợi ích về quản trị và tích hợp lớn hơn phần phức tạp tăng thêm cùng khả năng mất độ trung thực tiềm tàng

41. Môi trường phát triển truyền phát pixel

Sử dụng desktop hoặc workstation từ xa kiểu VDI cho phát triển phần mềm, trong đó việc chỉnh sửa, build và debug được thực hiện qua desktop được truyền phát thay vì trên máy cục bộ hoặc môi trường từ xa tập trung vào mã
Các tổ chức tiếp tục áp dụng, đặc biệt để đáp ứng mục tiêu về bảo mật, tiêu chuẩn hóa và onboarding cho các nhóm offshore cũng như các chương trình lift-and-shift lên đám mây
Tuy nhiên trên thực tế, sự đánh đổi thường kém hiệu quả — độ trễ, độ trễ đầu vào và phản hồi màn hình không nhất quán tạo ra ma sát nhận thức liên tục, làm chậm tốc độ bàn giao và khiến công việc phát triển hằng ngày trở nên mệt mỏi hơn
Không giống môi trường phát triển trên đám mây, Google Cloud Workstations, Coder hay VS Code Remote Development — những công cụ đưa năng lực tính toán đến gần mã hơn mà không cần truyền phát toàn bộ desktop
Các thiết lập pixel-streamed ưu tiên kiểm soát tập trung hơn là luồng làm việc của lập trình viên, và thường được áp đặt mà không có đủ ý kiến từ các kỹ sư trực tiếp sử dụng
Trừ khi yêu cầu bảo mật mạnh hoặc ràng buộc tuân thủ rõ ràng lớn hơn chi phí năng suất, không khuyến nghị dùng môi trường phát triển truyền phát pixel làm lựa chọn mặc định cho bàn giao phần mềm

[Platforms]

Adopt

— Không có

Trial

42. AG-UI Protocol

Một giao thức mở và thư viện được thiết kế để chuẩn hóa giao tiếp giữa giao diện người dùng phong phú và agent AI ở backend
Trước đây, việc xây dựng agentic UI đòi hỏi phần kết nối tùy chỉnh để hỗ trợ cộng tác hai chiều có lưu trạng thái; AG-UI giải quyết điều đó bằng kiến trúc nhất quán dựa trên sự kiện hỗ trợ các cơ chế truyền tải như server-sent events (SSE) và WebSockets
Hỗ trợ streaming các bước suy luận, đồng bộ trạng thái và render động các thành phần UI
Tuy nhiên, bối cảnh kiến trúc giao diện agent đang thay đổi nhanh chóng, và AG-UI cố ý đứng ngoài MCP để đóng vai trò là lớp giao diện giữa frontend và backend agent
Một cách tiếp cận khác đang nổi lên ở các ứng dụng MCP mới, đó là đóng gói trực tiếp HTML và UI widget vào máy chủ MCP hoặc skill
Khi các thành phần UI có thể được nhúng và phân phối cùng với công cụ — một mô hình liên quan đến các tiêu chuẩn lân cận như MCP-UI — điều này đặt ra câu hỏi về sự cần thiết của một lớp giao thức UI riêng biệt như AG-UI
Đây vẫn là lựa chọn vững chắc để tách frontend UX khỏi điều phối backend, nhưng cần đánh giá vai trò của nó trong bối cảnh xu hướng tích hợp logic công cụ và UI trong hệ sinh thái MCP

43. Apache APISIX

Gateway mã nguồn mở, hiệu năng cao, cloud-native giúp khắc phục các giới hạn của những giải pháp cũ dựa trên Nginx
Được xây dựng trên LuaJIT của Nginx và OpenResty, sử dụng etcd làm kho lưu trữ cấu hình để loại bỏ độ trễ do reload, phù hợp với microservice động và kiến trúc serverless
Điểm mạnh chính là kiến trúc hoàn toàn động và có thể mở rộng bằng plugin, với hệ sinh thái plugin đa ngôn ngữ gồm API và WASM, cho phép tùy biến quản lý lưu lượng, bảo mật và khả năng quan sát
Hỗ trợ Kubernetes Gateway API, cho phép dùng Apache APISIX làm gateway cho Kubernetes, là ứng viên rất mạnh để thay thế Nginx ingress controller cũ

44. AWS Bedrock AgentCore

Nền tảng agentic để xây dựng, chạy và vận hành agent an toàn ở quy mô lớn mà không phải gánh overhead quản lý hạ tầng, tương tự GCP Vertex AI Agent Builder và Azure AI Foundry Agent Service
Dù có thể dễ dàng áp dụng nền tảng như một khối đen nguyên khối, nhưng kiến trúc tách biệt và chi tiết hơn sẽ mang lại thành công lớn hơn — dùng runtime AgentCore cho các mối quan tâm production như cô lập phiên, bảo mật và khả năng quan sát, còn logic orchestration được giữ trong các framework bên ngoài như LangGraph
Sự tách biệt này giúp vẫn tận dụng được lợi ích của hạ tầng managed, đồng thời giữ được tính linh hoạt để thích ứng khi môi trường LLM thay đổi
Việc ưu tiên tập trung vào runtime cho phép tổ chức dần đưa agentic workload vào production mà không phải trao quyền kiểm soát logic cốt lõi cho lớp orchestration phụ thuộc nhà cung cấp

45. Graphiti

Công cụ knowledge graph theo thời gian mã nguồn mở của Zep, chứng minh tính khả thi trong production cho việc giải quyết bài toán bộ nhớ của LLM
Trong khi vector store phẳng của pipeline RAG không theo dõi được sự thay đổi của dữ kiện theo thời gian, Graphiti thu thập dữ liệu thành các episode riêng biệt và duy trì cửa sổ hiệu lực song thời gian trên các cạnh của đồ thị; dữ kiện cũ không bị ghi đè mà bị vô hiệu hóa
Khác với GraphRAG thiên về batch, công cụ này cập nhật đồ thị theo cách tăng dần và cung cấp tìm kiếm dưới một giây mà không cần gọi LLM tại thời điểm truy vấn nhờ tìm kiếm lai kết hợp semantic search, BM25 và duyệt đồ thị
Có hai yếu tố thúc đẩy đà phát triển — benchmark được bình duyệt báo cáo cải thiện độ chính xác 18,5% và giảm 90% độ trễ, cùng với việc ra mắt MCP server hạng nhất giúp các agent tương thích Model Context Protocol có thể gắn bộ nhớ thời gian dài với rất ít công sức tích hợp
Việc được cộng đồng đón nhận mạnh mẽ là thêm một tín hiệu về mức độ sẵn sàng cho production
Neo4j là backend chính, còn FalkorDB là lựa chọn thay thế nhẹ hơn
Cần lưu ý chi phí trích xuất LLM cho mỗi lần ghi và sự cần thiết phải cố định dependency do trạng thái phát hành trước 1.0

46. Langfuse

Nền tảng kỹ thuật LLM mã nguồn mở, xử lý khả năng quan sát, quản lý prompt, đánh giá và quản lý dataset
Kể từ lần đánh giá gần nhất, dự án đã trưởng thành đáng kể; kiến trúc v3 đưa ClickHouse, Redis và S3 vào làm các thành phần backend, cải thiện khả năng mở rộng nhưng cũng làm tăng độ phức tạp khi self-host
Cả SDK Python và TypeScript đều được xây dựng native trên OpenTelemetry, rất phù hợp với các nhóm đang dùng khả năng quan sát dựa trên OTEL
Các tính năng mới như SDK chạy thử nghiệm và hỗ trợ structured output cho thử nghiệm prompt đã mở rộng Langfuse từ công cụ theo dõi thuần túy sang workflow đánh giá có hệ thống
Đáng để cân nhắc trong một không gian ngày càng chật chội với Arize Phoenix, Helicone và LangSmith
Các nhóm chủ yếu xây trên Pydantic AI cũng nên cân nhắc Pydantic Logfire, vốn chọn cách tiếp cận rộng hơn như một nền tảng khả năng quan sát OTEL full-stack thay vì bộ công cụ chuyên cho LLM
Là lựa chọn đáng tin cậy cho các nhóm cần theo dõi, đánh giá và quản lý prompt tích hợp trong một nền tảng self-host duy nhất; tuy nhiên nếu nhu cầu chính chỉ là khả năng hiển thị chi phí và độ trễ ở lớp model, thì nên đánh giá xem công cụ hẹp hơn như Helicone có đủ hay không

47. Port

Cổng thông tin nhà phát triển nội bộ thương mại được thiết kế để cải thiện trải nghiệm nhà phát triển, cung cấp cho đội platform một nguồn sự thật duy nhất cho workflow self-service bằng cách tập trung tài sản phần mềm, tự động hóa workflow và áp đặt các tiêu chuẩn kỹ thuật
Ngày càng trở nên quan trọng khi các tổ chức muốn chuẩn hóa workflow kỹ thuật, đồng thời đưa template, API, tự động hóa và agent ra cho nhà phát triển theo cách họ thực sự có thể sử dụng
Không chỉ là cổng thông tin độc lập, Port còn có thể được dùng trực tiếp trong IDE thông qua API và lớp MCP của mình
Hoạt động tốt với những tổ chức muốn có năng lực portal dạng sản phẩm mà không cần đầu tư nặng vào platform engineering
Trong các dự án khách hàng, công cụ này giúp các đội platform tương đối nhỏ nhanh chóng cung cấp self-service hiệu quả đồng thời hỗ trợ hàng nghìn nhà phát triển
Đáng để đánh giá với những tổ chức cần nhanh chóng có năng lực cổng thông tin nhà phát triển nội bộ và chấp nhận được các ràng buộc của nền tảng thương mại cùng sự phụ thuộc vào nhà cung cấp

48. Replit

Nền tảng phát triển cộng tác cloud-native cung cấp môi trường phát triển tức thì, lập trình thời gian thực và trợ lý AI tích hợp ngay trong trình duyệt
Kết hợp editor, runtime, triển khai và workflow lập trình với AI vào một nền tảng tích hợp duy nhất, cho phép nhà phát triển bắt đầu viết code ngay mà không cần thiết lập cục bộ
IDE cộng tác dựa trên AI đặc biệt hữu ích trong việc giảm ma sát khi onboarding, rất phù hợp để cùng cả nhóm làm prototype
Cũng rất hiệu quả cho các buổi đào tạo, chia sẻ kiến thức và bootcamp
Một số người có thể xem Replit là nơi làm các dự án cá nhân có hỗ trợ AI, nhưng môi trường này đủ mạnh để cạnh tranh với IDE cục bộ truyền thống, giúp việc lặp lại và cộng tác dễ dàng hơn nhiều

49. SigNoz

Nền tảng khả năng quan sát mã nguồn mở native với OpenTelemetry hỗ trợ thống nhất log, metric và trace
Giải quyết nhu cầu APM và instrumentation cho microservice hiện đại cùng kiến trúc phân tán, đồng thời tránh bị khóa vào nhà cung cấp
Tận dụng ClickHouse làm cơ sở dữ liệu cột mặc định để cung cấp lưu trữ có khả năng mở rộng, hiệu năng cao và tiết kiệm chi phí cùng với truy vấn nhanh, qua đó trở thành lựa chọn self-host mạnh mẽ thay thế cho các nền tảng như Datadog
Hỗ trợ truy vấn linh hoạt thông qua PromQL và ClickHouse SQL, cùng cảnh báo qua nhiều kênh khác nhau
Trong thực tế, SigNoz đã cho thấy có thể giảm mức tiêu thụ tài nguyên hạ tầng và tổng chi phí khả năng quan sát mà không làm suy giảm hiệu năng
Dù có dịch vụ cloud managed, các Docker image và Helm chart sẵn sàng sử dụng là lựa chọn thực tế cho những tổ chức muốn duy trì quyền kiểm soát dữ liệu và hạ tầng

Assess

50. Agent Trace

Đặc tả mở do Cursor đề xuất nhằm chuẩn hóa việc quy thuộc mã bằng AI
Khi việc áp dụng coding agent tăng lên, nhu cầu hiểu ai đã chỉnh sửa mã được mở rộng vượt ra ngoài lập trình viên con người để bao gồm cả các thay đổi do AI tạo ra
Các công cụ hiện có như git blame có thể cho thấy một dòng mã đã được sửa, nhưng không thể nắm bắt liệu thay đổi đó do con người, AI hay cả hai tạo ra
Agent Trace áp dụng cách tiếp cận trung lập với nhà cung cấp để định nghĩa phương pháp theo dõi thay đổi mã, và không đưa ra quan điểm về cách lưu trữ dữ liệu theo dõi
Tương thích với nhiều hệ thống quản lý phiên bản, bao gồm Git, Mercurial và Jujutsu
Đặc tả định nghĩa các loại tác nhân đóng góp như human, AI, mixed, unknown và các bản ghi theo dõi mô tả nguồn gốc của từng đóng góp
Những tín hiệu áp dụng ban đầu xuất hiện qua sự hỗ trợ từ các công cụ như Cline, OpenCode và các triển khai như Git AI

51. ClickStack

Nền tảng observability mã nguồn mở tương thích OpenTelemetry, hợp nhất log, trace, metric và session trong một kho dữ liệu hiệu năng cao duy nhất (dựa trên ClickHouse)
Khi hạ tầng mở rộng và chi phí observability tăng lên, nhiều nhóm phải vật lộn với chuỗi công cụ telemetry phân mảnh và các nền tảng vendor đắt đỏ
ClickStack tận dụng kho lưu trữ dạng cột của ClickHouse để cho phép truy vấn độ phân biệt cao với độ trễ dưới một giây trên khối lượng lớn dữ liệu telemetry, cung cấp nền tảng đơn giản và hiệu quả chi phí hơn cho observability

52. Coder

Một lựa chọn thay thế tốt cho pixel-streamed development environments, tách biệt nơi mã chạy và cách lập trình viên tương tác
Thay vì stream toàn bộ giao diện desktop, lập trình viên kết nối tới môi trường từ xa bằng IDE cục bộ như VS Code hoặc qua trình duyệt, mang lại trải nghiệm phản hồi tốt hơn mà không làm giảm khả năng sử dụng
Mã chạy trên hạ tầng từ xa có thể mở rộng, còn môi trường được định nghĩa và quản lý như code, giúp các nhóm chuẩn hóa thiết lập phát triển và đơn giản hóa onboarding cho lập trình viên mới
Đồng thời cũng thuận tiện trong việc cung cấp quyền truy cập có kiểm soát tới các hệ thống nội bộ và đơn giản hóa quyền truy cập cho các AI coding agent đã được phê duyệt trước
Coder được xem là điểm trung gian giữa phát triển cục bộ và desktop ảo hóa hoàn toàn — cung cấp khả năng kiểm soát tập trung và governance mà không gặp các giới hạn về tính khả dụng của pixel-streamed VDI
Là lựa chọn tốt cho các tổ chức cần môi trường thực thi từ xa hoặc được kiểm soát, đặc biệt ở những nơi cần tài nguyên tính toán cao hơn hoặc yêu cầu truy cập an toàn
Cần đánh giá overhead vận hành và trách nhiệm bảo mật đi kèm với việc quản lý các môi trường như vậy

53. Databricks Agent Bricks

Khi cách tiếp cận dựa trên agent trở nên phổ biến, các nền tảng dữ liệu đang tiến hóa để hỗ trợ các workload này một cách native thay vì như mô-đun bổ sung
Databricks Agent Bricks cung cấp các thành phần dựng sẵn, tự động tối ưu hóa cho các mẫu AI phổ biến như trợ lý tri thức và data analyst
Theo cách tiếp cận khai báo — lập trình viên định nghĩa mục tiêu và dữ liệu nền tảng, còn framework xử lý việc thực thi và tối ưu hóa
Nhờ đơn giản hóa LLMOps và giảm công sức cần thiết cho data curation, các nhóm có thể tập trung vào kết quả kinh doanh hơn là boilerplate
Một nhóm đã dùng nó cùng với custom agent để đánh giá và xây dựng giải pháp RAG phức tạp cho R&D tiền lâm sàng
Nếu đã đầu tư vào hệ sinh thái Databricks và đang khám phá cách tiếp cận dựa trên agent cho các trường hợp sử dụng phổ biến như chatbot và trích xuất tài liệu, đây là lựa chọn đáng để đánh giá

54. DuckLake

Định dạng data lake và catalog hợp nhất, giúp đơn giản hóa kiến trúc lakehouse bằng cách dùng cơ sở dữ liệu SQL tiêu chuẩn cho catalog và quản lý metadata
Trong khi các định dạng bảng mở truyền thống như Iceberg hay Delta Lake phụ thuộc vào cấu trúc metadata dựa trên file phức tạp, DuckLake lưu metadata trong cơ sở dữ liệu catalog (như SQLite, PostgreSQL, DuckDB) đồng thời lưu trữ dữ liệu dưới dạng file Parquet trên ổ đĩa cục bộ hoặc kho object storage tương thích S3
Cách tiếp cận lai này cải thiện độ trễ lập kế hoạch truy vấn và độ tin cậy giao dịch khi cập nhật đồng thời
DuckDB đóng vai trò query engine thông qua extension ducklake, cung cấp giao diện SQL quen thuộc cho các thao tác DDL và DML tiêu chuẩn
Giữ lại các đặc tính lakehouse như partitioning, nhưng bỏ qua index và khóa chính/khóa ngoại
Hỗ trợ time travel, schema evolution và tuân thủ ACID, mang lại lựa chọn ít phức tạp cho các nhóm theo đuổi một stack phân tích độc lập
Dù vẫn còn ở giai đoạn đầu về độ trưởng thành, đây là một lựa chọn thay thế đầy hứa hẹn và gọn nhẹ cho kiến trúc lakehouse truyền thống
Phù hợp với môi trường dữ liệu được đơn giản hóa, nơi muốn tránh overhead vận hành gắn với hệ sinh thái dựa trên Spark hoặc Trino

55. FalkorDB

Cơ sở dữ liệu đồ thị dựa trên Redis hỗ trợ Cypher, phù hợp cho các nhóm muốn có năng lực graph mà không cần triển khai một nền tảng graph nặng nề
Là lựa chọn thực tế cho các tổ chức xây dựng workload AI và ứng dụng giàu quan hệ, nơi ma sát vận hành thấp là quan trọng và dịch vụ graph chạy trên máy chủ được ưu tiên hơn lưu trữ nhúng
Dù kiến trúc đầy hứa hẹn và mô hình cho nhà phát triển khá dễ tiếp cận, vẫn cần xác minh hành vi production của FalkorDB về khả năng mở rộng, công cụ vận hành và độ trưởng thành dài hạn của hệ sinh thái trước khi quyết định triển khai rộng rãi

56. Google Dialogflow CX

Nền tảng conversational AI được quản lý của Google Cloud, kết hợp máy trạng thái dựa trên đồ thị được xây dựng bằng Flows và Pages với các năng lực sinh nội dung dựa trên Vertex AI Gemini
Trước đây Thoughtworks từng theo dõi tiền thân của nó là Dialogflow trong Radar
CX đại diện cho một cuộc tái thiết kế đáng kể, và thu hút chú ý sau khi Google tích hợp các mô hình Vertex AI Gemini vào năm 2024, giới thiệu Generative Playbooks cho agent dựa trên chỉ dẫn và Data Store RAG để grounding phản hồi trên nội dung đã được lập chỉ mục
Đã được dùng để xây dựng agent khám phá dữ liệu bằng ngôn ngữ tự nhiên, trong đó Dialogflow CX được chọn thay vì cách tiếp cận SDK tùy chỉnh nhờ môi trường low-code và Generative Playbooks
Được cấu hình bằng few-shot prompting để chuyển các truy vấn ngôn ngữ tự nhiên thành SQL
Các nhóm xây dựng trên Google Cloud nhận thấy việc triển khai giao diện ngôn ngữ tự nhiên trên dữ liệu nội bộ có cấu trúc nhanh hơn so với stack agent tùy chỉnh
Tuy nhiên, không có free tier, mức độ phụ thuộc sâu vào Google Cloud dẫn đến lock-in nhà cung cấp đáng kể, và cần lên kế hoạch cho công sức context engineering

57. MCP Apps

Phần mở rộng chính thức đầu tiên của Model Context Protocol, cho phép máy chủ MCP trả về các giao diện HTML tương tác được render trực tiếp trong cuộc trò chuyện dưới dạng dashboard, form và trực quan hóa
Được Anthropic, OpenAI và các cộng tác viên mã nguồn mở cùng phát triển, chuẩn hóa schema tài nguyên ui:// để công cụ khai báo các mẫu UI được render trong sandbox iframe và có thể graceful degradation thành văn bản khi host không hỗ trợ UI
Khác với AG-UI, vốn hoạt động như một lớp thư viện riêng biệt, MCP Apps đóng gói UI trực tiếp bên trong máy chủ MCP
Thiết kế hai chiều cho phép mô hình quan sát hành vi người dùng, còn giao diện có thể xử lý dữ liệu thời gian thực và thao tác trực tiếp mà văn bản không thể làm được
Các client bao gồm Claude, ChatGPT, VS Code và Goose đã phát hành hỗ trợ
Các nhóm đang khám phá tương tác agent phong phú hơn cần đánh giá liệu độ phức tạp bổ sung này có xứng đáng với trường hợp sử dụng của họ so với phản hồi văn bản thuần túy hay không

58. Monarch

Khung lập trình phân tán mã nguồn mở mang sự đơn giản của workload PyTorch trên một máy đơn lẻ lên các cụm GPU lớn
Cung cấp Python API để tạo tiến trình và actor từ xa, đồng thời nhóm chúng thành bộ sưu tập mesh có hỗ trợ nhắn tin broadcast
Cung cấp khả năng chịu lỗi thông qua supervision tree, cho phép lỗi lan truyền lên trên theo phân cấp để xử lý lỗi gọn gàng và khôi phục chi tiết
Hỗ trợ truyền point-to-point RDMA để di chuyển bộ nhớ GPU·CPU hiệu quả, đồng thời cung cấp trừu tượng tensor phân tán để actor có thể làm việc với tensor được phân mảnh trên toàn bộ tiến trình mà vẫn giữ mô hình lập trình mệnh lệnh
Monarch được xây dựng trên backend Rust hiệu năng cao
Dù vẫn đang ở giai đoạn phát triển ban đầu, trừu tượng hóa giúp tensor phân tán hoạt động như cục bộ rất mạnh mẽ, có thể giảm đáng kể độ phức tạp của huấn luyện AI phân tán quy mô lớn

59. Neutree

Nền tảng mã nguồn mở để quản lý và phục vụ LLM trên hạ tầng riêng, định vị như một lớp dịch vụ mô hình cho AI doanh nghiệp
Cung cấp control plane hợp nhất cho quản lý vòng đời mô hình, serving suy luận và lập lịch tính toán trên nhiều loại phần cứng khác nhau như bộ tăng tốc NVIDIA·AMD·Intel
Khi các tổ chức chuyển từ API được host sang tự host và triển khai có quản trị, Neutree giải quyết một khoảng trống rõ ràng — vận hành workload LLM với các năng lực cấp doanh nghiệp như multi-tenancy, kiểm soát truy cập, hạch toán mức sử dụng và trừu tượng hóa hạ tầng
Tách model serving khỏi logic ứng dụng để các nhóm có thể triển khai, mở rộng và định tuyến mô hình trên nhiều môi trường gồm bare metal, VM và container mà không bị gắn chặt vào một nhà cung cấp cloud cụ thể
Tuy nhiên, đây vẫn là công nghệ tương đối mới, cần tiếp cận thận trọng khi áp dụng
Hệ sinh thái, độ trưởng thành vận hành và năng lực tích hợp vẫn đang tiếp tục phát triển so với các nền tảng ML đã được thiết lập hơn
Đầy hứa hẹn, nhưng phù hợp nhất với các nhóm sẵn sàng đầu tư vào việc đánh giá và định hình hạ tầng AI doanh nghiệp mới nổi

60. OptScale

Nền tảng FinOps multi-cloud mã nguồn mở hỗ trợ các workload AI/ML nặng, nơi chi phí GPU và thí nghiệm có thể tăng rất nhanh
Thu thập dữ liệu thanh toán và sử dụng từ cloud API, rồi kết hợp khả năng quan sát chi phí, khuyến nghị tối ưu hóa, theo dõi ngân sách và phát hiện bất thường trong một hệ thống duy nhất với cảnh báo dựa trên chính sách phù hợp với cấu trúc nhóm hoặc doanh nghiệp
So với OpenCost, OptScale cung cấp phân tích ở cấp Kubernetes đồng thời bao phủ các trường hợp sử dụng FinOps ngoài Kubernetes rộng hơn
So với các bộ giải pháp doanh nghiệp như IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost và Flexera One, nó mang lại nhiều quyền kiểm soát hơn và ít phụ thuộc nhà cung cấp hơn
Đổi lại là chi phí vận hành cao hơn, độ phức tạp triển khai lớn hơn, các edge case của connector và lo ngại liên quan đến vệ sinh bảo mật container image
Cần được xem như một khoản đầu tư vào năng lực nền tảng chứ không phải sản phẩm plug-and-play

61. Rhesis

Nền tảng kiểm thử mã nguồn mở cho LLM và ứng dụng agentic, cho phép các nhóm định nghĩa hành vi mong đợi bằng ngôn ngữ tự nhiên, tạo kịch bản kiểm thử đối kháng và đánh giá kết quả qua cả UI lẫn SDK hoặc API
Trong khi các cách kiểm thử truyền thống giả định hành vi có tính quyết định, hệ thống AI thất bại theo những cách tinh vi hơn — bao gồm jailbreak, tương tác nhiều lượt, vi phạm chính sách và các edge case phụ thuộc ngữ cảnh
Đây là nền tảng hữu ích cho các nhóm cần nhiều hơn việc chỉ đánh giá prompt đơn giản
Các tính năng như conversation simulator, kiểm thử đối kháng, tracing dựa trên OpenTelemetry và tự host qua Docker là cách tiếp cận thực tế để đưa các nhóm sản phẩm, lĩnh vực và kỹ thuật vào cùng một quy trình kiểm thử chung
Lợi ích chính là cải thiện khả năng xác thực trước khi đưa vào production đối với các hệ thống phi quyết định
Cần cân nhắc các đánh đổi quen thuộc như chi phí đánh giá, giới hạn của metric kiểu LLM-as-judge và việc nền tảng đòi hỏi yêu cầu được xác định rõ trước khi có thể tạo ra giá trị
Đáng để đánh giá đối với các nhóm xây dựng hệ thống LLM hoặc agentic cần khả năng kiểm thử cộng tác, lặp lại được vượt xa các kiểm tra prompt cơ bản

62. RunPod

Khi các tổ chức gia tăng thử nghiệm huấn luyện và fine-tuning LLM, các hyperscaler như AWS và Google Cloud có thể mang đến chi phí cao và khả năng sẵn có phần cứng hạn chế
RunPod cung cấp một lựa chọn thay thế hiệu quả về chi phí cho workload AI đòi hỏi tính toán lớn
Vận hành như một chợ GPU phân tán toàn cầu, cung cấp khả năng truy cập on-demand tới nhiều loại phần cứng, từ cụm H100 cấp doanh nghiệp đến RTX 4090 cấp tiêu dùng, thường với chi phí thấp hơn đáng kể so với các nhà cung cấp cloud truyền thống
Đây là lựa chọn thực tế đáng để đánh giá cho các nhóm cần hạ tầng linh hoạt, thân thiện ngân sách để phát triển, huấn luyện và triển khai mô hình AI mà không cần cam kết dài hạn hay bị khóa chặt vào nhà cung cấp

63. Sprites

Môi trường sandbox trạng thái do Fly.io thiết kế để thực thi cô lập cho AI coding agent
Trong khi phần lớn sandbox cho agent chỉ tồn tại tạm thời để thực hiện công việc rồi biến mất, Sprites cung cấp môi trường Linux bền vững với khả năng checkpoint và khôi phục không giới hạn
Nhà phát triển có thể chụp snapshot toàn bộ trạng thái môi trường, bao gồm dependency đã cài đặt, cấu hình runtime và thay đổi hệ thống tệp, rồi rollback nếu agent đi chệch hướng
Điều này vượt xa những gì chỉ Git có thể khôi phục, bằng cách ghi lại trạng thái hệ thống mà version control không theo dõi
Khi các nhóm ngày càng chấp nhận sandboxed execution for coding agents như một mặc định hợp lý, Sprites đại diện cho một đầu của phổ lựa chọn — cách tiếp cận trạng thái, không dùng đồ dùng một lần, đánh đổi sự đơn giản của container tạm thời để lấy các tùy chọn khôi phục phong phú hơn
Các nhóm đang đánh giá sandboxing cho agent nên cân nhắc Sprites tùy theo nhu cầu và quy trình làm việc của mình, cùng với các lựa chọn tạm thời như Dev Containers

64. torchforge

Thư viện reinforcement learning native cho PyTorch được thiết kế cho hậu huấn luyện quy mô lớn của mô hình ngôn ngữ
Cung cấp trừu tượng cấp cao tách logic thuật toán khỏi các mối quan tâm hạ tầng, điều phối Monarch cho tuning, vLLM cho suy luận và torchtitan cho huấn luyện phân tán
Cách tiếp cận này cho phép nhà nghiên cứu biểu đạt workflow reinforcement learning phức tạp bằng API giống pseudocode, đồng thời mở rộng workload trên hàng nghìn GPU mà không cần quản lý các chi tiết cấp thấp như đồng bộ tài nguyên, lập lịch hay khả năng chịu lỗi
Bằng cách tách biệt “cái gì” (thiết kế thuật toán) khỏi “như thế nào” (thực thi phân tán), torchforge đơn giản hóa việc thử nghiệm và lặp lại trong các hệ thống alignment quy mô lớn
Đây là một bước đi hữu ích giúp các kỹ thuật hậu huấn luyện nâng cao dễ tiếp cận hơn, nhưng các nhóm vẫn cần đánh giá độ trưởng thành và mức độ phù hợp trong hạ tầng ML hiện có

65. torchtitan

Nền tảng native cho PyTorch nhằm tiền huấn luyện quy mô lớn các mô hình generative AI, cung cấp triển khai tham chiếu gọn gàng và mô-đun cho huấn luyện phân tán hiệu năng cao
Kết hợp các primitive phân tán tiên tiến thành một hệ thống gắn kết để hỗ trợ song song hóa 4D gồm dữ liệu·tensor·pipeline·context 4D parallelism
Khi việc huấn luyện các mô hình ở quy mô như Llama 3.1 405B đòi hỏi quy mô và hiệu quả rất lớn, torchtitan mang lại nền tảng thực tiễn để xây dựng và vận hành các workload huấn luyện lớn
Thiết kế mô-đun giúp các nhóm dễ dàng thử nghiệm và phát triển chiến lược song song hóa mà vẫn giữ được mức độ sẵn sàng cho production
Đây là bước tiến hữu ích trong việc chuẩn hóa huấn luyện mô hình quy mô lớn trong hệ sinh thái PyTorch, đặc biệt phù hợp với các nhóm đang xây dựng hạ tầng tiền huấn luyện riêng

[Tools]

Adopt

66. Axe-core

Công cụ kiểm thử mã nguồn mở để phát hiện các vấn đề về khả năng truy cập trên website và các ứng dụng khác dựa trên HTML
Kiểm tra trang tuân thủ các tiêu chuẩn như WCAG — bao gồm các mức phù hợp A, AA, AAA — và chỉ ra các thực hành tốt phổ biến về accessibility
Kể từ lần đầu xuất hiện trên Radar ở mức Trial vào năm 2021, nhiều nhóm đã áp dụng Axe-core cho khách hàng và nội bộ
Accessibility ngày càng trở thành một thuộc tính chất lượng thiết yếu; tại châu Âu, các quy định như European Accessibility Act buộc các tổ chức phải đáp ứng yêu cầu về khả năng truy cập của dịch vụ số
Phù hợp tốt với quy trình phát triển hiện đại nhờ khả năng kích hoạt các kiểm tra tự động trong pipeline CI
Giúp nhóm ngăn hồi quy, duy trì tuân thủ và nhận phản hồi sớm trong quá trình phát triển, đặc biệt là đảm bảo accessibility trở thành một phần của vòng phản hồi khi AI hỗ trợ và các công cụ agentic coding được áp dụng rộng rãi

67. Claude Code

Công cụ agentic AI coding của Anthropic để lập kế hoạch và thực thi các workflow phức tạp nhiều bước
Các nhóm trong và ngoài Thoughtworks sử dụng hằng ngày để phân phối phần mềm production, được xem rộng rãi là chuẩn tham chiếu về năng lực và tính dễ dùng, nên được chuyển lên Adopt
Môi trường agent CLI đã mở rộng nhanh chóng với các công cụ như OpenAI Codex CLI, Google Gemini CLI, OpenCode, pi, nhưng Claude Code vẫn là lựa chọn được nhiều nhóm ưa chuộng
Việc sử dụng đã vượt ra ngoài viết mã để thực thi các workflow rộng hơn, bao gồm đặc tả, story, cấu hình, hạ tầng, tài liệu và các quy trình kinh doanh được định nghĩa bằng markdown
Tiếp tục giới thiệu các tính năng mà những công cụ khác đang theo sau, như skills, subagents, điều khiển từ xa và workflow nhóm mang tính agentic
Các nhóm áp dụng cần thực hành vận hành có chừng mực và pairing; agentic coding chuyển nỗ lực của lập trình viên từ triển khai thủ công sang đặc tả ý định, ràng buộc và ranh giới review
Có thể tăng tốc phân phối, nhưng cũng làm tăng nguy cơ sự tự mãn với mã do AI tạo ra, khiến hệ thống khó bảo trì và phát triển hơn cho cả con người lẫn agent
Sự quan tâm đang tăng lên đối với context engineering để làm cho workflow agentic đáng tin cậy hơn (nhận biết chủ đề, chọn context theo phạm vi), cách triển khai curated shared instructions và harness engineering

68. Cursor

Cùng với Claude Code, đây là một trong những coding agent được áp dụng rộng rãi nhất, liên tục xuất hiện như lựa chọn mặc định của các nhóm delivery
Đã trưởng thành thành một môi trường agentic toàn diện với các tính năng như plan mode, hooks, subagents
Dù các agent chạy trên terminal cũng phổ biến, nhiều lập trình viên nhận thấy việc giám sát agent trong IDE mang lại trải nghiệm phong phú hơn để xem lại và tinh chỉnh kế hoạch trước khi thực thi
Việc áp dụng Agent Client Protocol giúp hạ thấp rào cản với lượng người dùng JetBrains lớn, đưa năng lực của Cursor vào các IDE đó
Khả năng kiểm tra từng bước của agent hoặc quay lui về bước trước khi kế hoạch đi chệch hướng là đặc biệt có giá trị
Việc tận dụng Agent Skills giúp các nhóm đóng gói chỉ dẫn có thể tái sử dụng, hỗ trợ chuẩn hóa cách agent tương tác với các codebase phức tạp
Lợi ích về năng suất là rõ ràng, nhưng mức tự chủ agentic vẫn đòi hỏi kiểm thử tự động nghiêm ngặt và giám sát của con người để bắt các hồi quy tinh vi

69. Kafbat UI

Web UI mã nguồn mở miễn phí để giám sát và quản lý các cụm Apache Kafka
Đặc biệt hữu ích khi nhóm cần kiểm tra các payload khó đọc trong quá trình debug hằng ngày
Các nhóm thường bị kẹt khi debug các message đã mã hóa; hỗ trợ SerDes tích hợp sẵn và có thể mở rộng bằng plugin của Kafbat UI cung cấp cách thực tế để áp dụng giải mã hoặc decoding tùy chỉnh nhằm đọc lại message
Mang lại phản hồi nhanh hơn và trải nghiệm vận hành tốt hơn cho đội ngũ phát triển và hỗ trợ so với các script debug dùng một lần
Được khuyến nghị cho các môi trường dùng Kafka nặng, nơi việc kiểm tra message an toàn và xử lý sự cố hiệu quả nên là thực hành tiêu chuẩn

70. mise

Kể từ lần đánh giá trước, đã tiến hóa từ một lựa chọn thay thế hiệu năng cao cho asdf thành frontend mặc định cho môi trường phát triển
Hợp nhất ba mối quan tâm vốn bị phân mảnh là quản lý phiên bản công cụ và ngôn ngữ, quản lý biến môi trường, thực thi tác vụ vào một công cụ hiệu năng cao viết bằng Rust, được cấu hình bằng file khai báo mise.toml
mise dễ thiết lập và hoạt động tốt với pipeline CI/CD
Thông qua tích hợp với Cosign và GitHub Artifact Attestations, nó bổ sung lớp bảo mật chuỗi cung ứng thường thiếu trong các trình quản lý phiên bản khác
Là lựa chọn mặc định được khuyến nghị cho các nhóm muốn chuẩn hóa thiết lập môi trường phát triển
Đặc biệt hữu ích trong các môi trường polyglot với nhiều microservice khi các codebase đồng thời áp dụng phiên bản ngôn ngữ mới
Cũng hoạt động cùng các công cụ chuyên biệt theo ngôn ngữ hiện có, nên các nhóm không cần di chuyển toàn bộ cùng lúc

Trial

71. cargo-mutants

Công cụ mutation testing cho Rust, giúp vượt ra ngoài các chỉ số code coverage đơn thuần
Tự động chèn các lỗi nhỏ có chủ đích như hoán đổi toán tử hoặc trả về giá trị mặc định để xác minh liệu các bài test hiện có có thực sự bắt được hồi quy hay không
Cách tiếp cận zero-config đặc biệt hiệu quả; khác với các công cụ trước đây, không cần thay đổi source tree
Cung cấp vòng phản hồi hữu ích cho các nhóm mới làm quen với Rust, giúp xác định các edge case còn thiếu và cải thiện độ tin cậy của test unit lẫn integration
cargo-mutants là một triển khai chuyên biệt của mutation testing, kỹ thuật cũng đang được thử nghiệm trong các hệ sinh thái khác
Chi phí chính là thời gian chạy test tăng lên, vì mỗi mutant đều cần incremental build
Để quản lý điều này, nên nhắm vào các module cụ thể trong quá trình phát triển cục bộ hoặc chạy toàn bộ test suite bất đồng bộ trong CI
Đôi khi có thể cần lọc các mutant tương đương về mặt logic, nhưng mức tăng độ tin cậy của test thu được vượt trội so với phần nhiễu bổ sung

72. Claude Code plugin marketplace

Trước đây, việc chia sẻ lệnh tùy chỉnh, agent chuyên biệt, máy chủ MCP và skill là một quy trình thủ công khi nhà phát triển phải sao chép và dán chỉ dẫn từ Confluence hoặc các nguồn bên ngoài khác
Điều này thường dẫn đến lệch phiên bản, khiến thành viên trong nhóm sử dụng các chỉ dẫn dự án đã lỗi thời
Các nhóm đang tận dụng Claude Code plugin marketplace để dùng mô hình triển khai dựa trên Git, phân phối các lệnh, prompt và skill dùng chung
Bằng cách lưu trữ marketplace nội bộ của nhóm trên GitHub hoặc nền tảng tương tự, tổ chức có thể phân phối các artifact này an toàn và nhất quán hơn
Nhà phát triển có thể đồng bộ trực tiếp các công cụ và quy trình làm việc dựa trên AI vào môi trường cục bộ thông qua CLI
Các coding agent khác như Cursor cũng hỗ trợ plugin marketplace cho nhóm, cho phép cách chia sẻ các artifact này được tinh gọn và có quản trị hơn

73. Dev Containers

Cách tiếp cận tiêu chuẩn hóa để định nghĩa môi trường phát triển đóng gói bằng container có thể tái lập bằng tệp cấu hình devcontainer.json
Ban đầu được thiết kế để cung cấp thiết lập phát triển nhất quán cho nhóm, nhưng đã xuất hiện một trường hợp sử dụng mới hấp dẫn là môi trường thực thi sandbox cho coding agent
Khi chạy AI coding agent trong Dev Container, chúng được cô lập khỏi hệ thống tệp, thông tin xác thực và mạng của máy chủ, cho phép nhóm cấp quyền rộng cho agent mà không gây rủi ro cho máy host
Đặc tả mở được hỗ trợ gốc trong các công cụ dựa trên VS Code như VS Code và Cursor
DevPod mở rộng hỗ trợ devcontainer tới mọi trình soạn thảo hoặc quy trình làm việc terminal qua SSH
Áp dụng mặc định dùng một lần (tức là container được dựng lại từ cấu hình mỗi lần khởi động), mang lại ranh giới bảo mật sạch với cái giá là phải cài đặt lại công cụ và phụ thuộc
Với các nhóm cần trạng thái bền vững hoặc khả năng checkpoint và khôi phục, có thể dùng các cách tiếp cận khác như Sprites
Ngoài sandbox cho agent, còn mang lại lợi ích bảo mật chuỗi cung ứng khi định nghĩa toolchain trong cấu hình khai báo, giảm nguy cơ tiếp xúc với gói bị xâm phạm và phụ thuộc ngoài dự kiến

74. Figma Make

Trước đây từng là blip self-serve UI prototyping with GenAI, kỹ thuật này nay đã được các nhóm phát triển, bao gồm product manager và designer, áp dụng rộng rãi để tạo prototype độ trung thực cao có thể dùng cho kiểm thử người dùng
Figma Make là một lựa chọn mạnh mẽ nhờ tận dụng các component và layer thực từ design system, giúp kết quả rất giống ứng dụng production
Sử dụng các mô hình AI tùy chỉnh được huấn luyện trên những mẫu thiết kế chất lượng cao
Các nhóm đang dùng nó để tạo màn hình thiết kế mới, cải thiện màn hình hiện có và xây dựng prototype có thể chia sẻ để thu thập phản hồi người dùng nhanh chóng

75. OpenAI Codex

Đã phát triển thành công cụ lập trình agentic độc lập, có thể dùng qua ứng dụng macOS và CLI
Được thiết kế để giao phó công việc tự động — khi nhận prompt, nó lên kế hoạch, triển khai và lặp lại trên nhiều tệp với mức can thiệp tối thiểu
Hiệu quả như một công cụ tạo bản nháp tốc độ cao, đặc biệt hữu ích cho công việc greenfield và các tác vụ triển khai lặp lại
Tuy nhiên, OpenAI Codex có xu hướng đề xuất các pattern thư viện hợp lý về mặt logic nhưng đã lỗi thời về mặt chức năng, nên kiểm thử tự động và review của con người là bắt buộc
Giống như các công cụ agentic khác trong Radar này, rủi ro tích lũy technical debt tinh vi là có thật, và tỷ lệ thuận với mức độ tự chủ mà nhóm trao cho nó

76. Typst

Hệ thống sắp chữ dựa trên markup, đã khẳng định vị thế là người kế thừa hiện đại của LaTeX cho việc tạo tài liệu bằng lập trình
Kết hợp typography chất lượng cao với cú pháp đơn giản hơn, đồng thời cung cấp pipeline biên dịch rất nhanh có thể biên dịch cả tài liệu rất lớn chỉ trong một phần nhỏ thời gian so với toolchain LaTeX truyền thống
Typst cung cấp thông báo lỗi rõ ràng hơn cùng năng lực scripting tích hợp như điều kiện và vòng lặp
Có thể nạp dữ liệu có cấu trúc từ JSON hoặc CSV, rất phù hợp cho việc tạo tài liệu tự động
Các nhóm dùng nó để tạo sao kê và báo cáo cho khách hàng ngân hàng và dịch vụ tài chính cần tạo ở quy mô lớn với định dạng nhất quán
Trình biên dịch mã nguồn mở có thể tự lưu trữ, và hệ sinh thái đang phát triển bao gồm các gói do cộng đồng đóng góp
Dễ tiếp cận hơn LaTeX trong khi vẫn mang lại chất lượng typography tương đương

Assess

77. Agent Scan

Trình quét bảo mật cho hệ sinh thái agent, phát hiện các thành phần cục bộ bao gồm máy chủ MCP và skill, đồng thời gắn cờ các rủi ro như prompt injection, tool poisoning, toxic flow, secret hardcode và xử lý thông tin xác thực không an toàn
Giải quyết khoảng trống mới nổi về khả năng quan sát chuỗi cung ứng của agent, cung cấp cách thực tế để kiểm kê và kiểm thử bề mặt agent đang tăng trưởng nhanh
Tuy nhiên, việc áp dụng cần có chủ đích — quá trình quét yêu cầu chia sẻ metadata của thành phần với Snyk API, và chất lượng tín hiệu cũng như tỷ lệ false positive cần được xác minh trong môi trường thực tế
Điều quan trọng là xác nhận giá trị vận hành trước khi nhóm biến Agent Scan thành một phần của cổng kiểm soát bắt buộc trong quy trình bàn giao

78. Beads

Trình theo dõi issue dựa trên Git, được thiết kế như lớp bộ nhớ bền vững cho coding agent
Thay vì dựa vào các bản kế hoạch Markdown tạm thời, nó cung cấp cho agent đồ thị công việc có cấu trúc thân thiện với branch để quản lý quan hệ chặn, phát hiện công việc đã sẵn sàng và điều phối các tác vụ dài hạn qua nhiều phiên
Beads được xây dựng trên Dolt, một cơ sở dữ liệu SQL có kiểm soát phiên bản tích hợp, hỗ trợ branch, merge, diff và sao chép bảng tương tự như Git repository
Đại diện cho một danh mục mới của công cụ bộ nhớ dự án và theo dõi công việc native cho agent
Các dự án giai đoạn đầu khác trong không gian này gồm ticket và tracer
Không giống các hệ thống ticket truyền thống như GitHub Issues và Jira, nó cho phép các quy trình làm việc mới cho điều phối thực thi đa agent tự chủ, bao gồm cả việc agent tự giao việc cho nhau

79. Bloom

Công cụ của Anthropic dành cho các nhà nghiên cứu an toàn AI để đánh giá hành vi của LLM
Phát hiện các hành vi như sycophancy (xu nịnh) và self-preservation (tự bảo toàn)
Thay vì benchmark tĩnh, nó dùng cấu hình hạt giống để định nghĩa hành vi mục tiêu và các tham số đánh giá, sau đó tạo động nhiều cuộc hội thoại kiểm thử và đánh giá kết quả
Cách tiếp cận này đối với đánh giá hành vi tự động là cần thiết để theo kịp tốc độ phát hành mô hình, đồng thời cho phép các nhóm nghiên cứu bên ngoài thực hiện đánh giá
Petri là công cụ đi kèm để xác định hành vi nào xuất hiện trong một mô hình nhất định, còn Bloom xác định các hành vi đó xảy ra thường xuyên đến mức nào trong những kịch bản nào; cùng nhau chúng tạo thành một bộ đánh giá đầy đủ hơn
Một mối lo là Bloom cần một mô hình teacher (hoặc evaluator) để đánh giá mô hình student đã cho; mô hình teacher có thể có điểm mù và thiên kiến, nên dùng nhiều evaluator có thể giảm thiên lệch của kết quả
Đáng để các nhóm nghiên cứu an toàn AI đánh giá như phần bổ sung cho benchmark tĩnh trong việc đánh giá các hành vi mô hình mới nổi

80. CDK Terrain

Nhánh fork cộng đồng của Cloud Development Kit for Terraform(CDKTF) mà HashiCorp đã ngừng sử dụng và lưu trữ vào tháng 12 năm 2025
CDK Terrain(CDKTN) tiếp quản từ điểm CDKTF bị dừng lại, cho phép các nhóm định nghĩa hạ tầng bằng TypeScript, Python, Go và provision thông qua Terraform hoặc OpenTofu
Với các nhóm đã đầu tư vào CDKTF, dự án này bảo toàn mã và workflow hiện có, đồng thời cung cấp lộ trình di chuyển thay vì ép buộc chuyển sang HCL hoặc Pulumi
Dự án phát hành hằng tháng và bổ sung hỗ trợ OpenTofu như một mục tiêu hạng nhất
Tuy nhiên, fork do cộng đồng duy trì của một dự án bị vendor từ bỏ luôn đi kèm rủi ro cố hữu về hỗ trợ dài hạn, và cách tiếp cận CDKTF đã không đạt được mức độ áp dụng rộng rãi
HashiCorp khi khai tử đã viện dẫn sự thiếu phù hợp giữa sản phẩm và thị trường
Các nhóm hiện đang dùng CDKTF nên đánh giá CDK Terrain như một lựa chọn kế thừa, đồng thời cân nhắc liệu đây có phải thời điểm thích hợp để di chuyển sang hướng tiếp cận được hỗ trợ rộng hơn hay không

81. CodeScene

Từng là một blip về social code analysis vào năm 2017, nhưng sự gia tăng áp dụng coding agent đang tạo ra mối quan tâm mới đối với các công cụ như CodeScene
Đây là công cụ behavioral code analysis dùng để xác định technical debt bằng cách kết hợp metric về độ phức tạp mã với lịch sử version control
Khác với static analysis truyền thống, công cụ này nhấn mạnh vào các "hotspot", giúp các nhóm ưu tiên refactor dựa trên hoạt động phát triển thực tế và tác động kinh doanh
Hiện nay công cụ cũng cung cấp hướng dẫn cho thiết kế mã thân thiện với AI
Các nhóm nhận thấy khi coding agent có thể sửa mã nhanh hơn rất nhiều so với lập trình viên con người, chất lượng mã trở nên quan trọng hơn nữa
Metric CodeHealth của CodeScene cung cấp guardrail hữu ích bằng cách xác định các khu vực quá phức tạp để LLM có thể refactor an toàn mà không gặp rủi ro hallucination
Được khuyến nghị đánh giá như guardrail cho việc áp dụng coding agent; metric CodeHealth làm nổi bật các mục tiêu refactor an toàn và chỉ ra những vùng cần cải thiện trước khi đưa agent vào áp dụng

82. ConfIT

Một thư viện cho phép định nghĩa test API kiểu integration và component theo cách khai báo bằng JSON thay vì viết mã mệnh lệnh
Mối quan tâm với cách tiếp cận này tăng lên vì các test suite lớn thường tích lũy nhiều boilerplate quanh HTTP client, cấu hình request và assertion
Phát triển có hỗ trợ AI càng củng cố xu hướng này, vì định nghĩa test có cấu trúc dễ tạo và bảo trì hơn so với mã thủ tục dài dòng
Dựa trên trải nghiệm khách hàng và các đánh giá, lớp khai báo này giúp giảm trùng lặp giữa test component và integration, cải thiện khả năng đọc và giúp ý định kiểm thử dễ tiến hóa trên toàn đội ngũ
Tuy nhiên, bản thân ConfIT có mức độ áp dụng trong cộng đồng còn hạn chế và hệ sinh thái nhỏ, nên dù có các lợi ích này vẫn khó khuyến nghị rộng rãi
Đáng để các nhóm .NET đang khám phá API test theo hướng specification-driven đánh giá, nhưng cần xác minh khả năng bảo trì dài hạn, độ phù hợp hệ sinh thái và các đánh đổi vận hành

83. Entire CLI

Hook vào workflow Git để ghi lại các phiên AI coding agent — transcript, prompt, tool call, file đã chạm tới, mức sử dụng token — thành metadata có thể tìm kiếm, được lưu trên một nhánh repository chuyên biệt
Hỗ trợ Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid và GitHub Copilot CLI
Khi AI agent trở thành bên đóng góp chính cho codebase, các nhóm phải đối mặt với khoảng cách ngày càng lớn giữa những gì Git theo dõi và những gì thực sự diễn ra trong các phiên coding
Entire CLI tạo ra audit trail cho hoạt động của agent bằng cách ghi lại toàn bộ phiên cùng với commit mà không làm ô nhiễm lịch sử của nhánh chính
Hệ thống checkpoint cũng cho phép khôi phục thực dụng, giúp các nhóm quay lại trạng thái tốt đã biết khi agent đi chệch hướng và tiếp tục từ bất kỳ checkpoint nào
Dù công cụ còn rất mới và hệ sinh thái về khả năng truy vết phiên agent vẫn đang hình thành, đây là lựa chọn phù hợp tự nhiên cho các nhóm có yêu cầu tuân thủ hoặc kiểm toán liên quan đến mã do AI tạo ra

84. Git AI

Một tiện ích mở rộng Git mã nguồn mở để theo dõi mã do AI tạo ra trong repository, liên kết mọi dòng do AI viết với agent, model và prompt đã tạo ra nó
Git AI dùng checkpoint và hook để theo dõi các thay đổi mã tăng dần giữa thời điểm bắt đầu và kết thúc commit
Mỗi checkpoint bao gồm diff giữa trạng thái hiện tại và checkpoint trước đó, được đánh dấu là do AI hay con người viết
Cách tiếp cận này chính xác hơn so với các cách chỉ tập trung đếm số dòng mã tại thời điểm chèn vào
Sử dụng tiêu chuẩn mở dựa trên Git Notes để theo dõi mã do AI tạo ra
Dù hệ sinh thái agent được hỗ trợ vẫn đang trưởng thành, công cụ này đáng để đánh giá với các nhóm muốn duy trì trách nhiệm giải trình và khả năng bảo trì dài hạn trong workflow agentic
Cả con người và AI agent đều có thể dùng kỹ năng /ask để tham chiếu các phiên agent đã được lưu trữ, từ đó truy vấn ý định ban đầu và các quyết định kiến trúc đằng sau một khối mã cụ thể

85. Google Antigravity

Một nhánh fork độc lập của VS Code được xây dựng trên công nghệ được cấp phép từ Windsurf, ra mắt dưới dạng public preview cùng Gemini 3 vào tháng 11 năm 2025
Tái cấu trúc IDE xung quanh điều phối đa agent — Agent Manager chạy song song nhiều agent trên các tác vụ, trình duyệt Chromium tích hợp cho phép agent tương tác trực tiếp với UI đang chạy, và hệ thống skill lưu các chỉ dẫn agent có thể tái sử dụng vào repository
Agent Manager đóng vai trò như một dashboard "Mission Control" hơn là sidebar chat tiêu chuẩn, đánh dấu sự chuyển đổi căn bản vai trò của lập trình viên từ viết mã theo từng dòng sang điều phối nhiều luồng công việc tự trị
Khi cần, lập trình viên vẫn có thể vào editor để duy trì sự kiểm soát human-in-the-loop(HITL)
Google Antigravity tích hợp với Google Cloud và Firebase thông qua Model Context Protocol, đồng thời hỗ trợ phát triển agent bằng Agent Development Kit
Hiện vẫn ở trạng thái public preview, chưa có ngày GA, và tư thế bảo mật cùng mức độ sẵn sàng cho doanh nghiệp vẫn đang tiếp tục hoàn thiện
Mô hình thực thi đa agent và khả năng truy cập trình duyệt tự trị là tín hiệu cho hướng đi của các agentic IDE

86. Google Mainframe Assessment Tool

Giúp tổ chức dịch ngược các ứng dụng chạy trên mainframe, phân tích toàn bộ danh mục hoặc từng hệ thống riêng lẻ
Ở cốt lõi, công cụ này dựa vào trình phân tích cú pháp ngôn ngữ mang tính quyết định để lập bản đồ luồng gọi và phụ thuộc dữ liệu trên toàn bộ codebase, tạo ra góc nhìn có cấu trúc về cách các ứng dụng tương tác
Trên nền tảng đó, các tính năng AI tạo sinh cung cấp tóm tắt, tài liệu hóa, tạo ca kiểm thử và đề xuất hiện đại hóa
Cách tiếp cận này phù hợp với mô thức rộng hơn về hiểu codebase legacy bằng GenAI, trong đó hiểu biết sâu về hệ thống tạo nền tảng cho việc sử dụng AI hiệu quả
Dù Google Mainframe Assessment Tool vẫn chưa hỗ trợ mọi stack công nghệ mainframe chủ đạo, công cụ này đang phát triển rất nhanh
Các nhóm nhận thấy nó hữu ích trong các dự án với khách hàng tập trung vào khám phá và hiện đại hóa ứng dụng mainframe

87. OpenCode

Đang nhanh chóng nổi lên như một trong những coding agent mã nguồn mở nổi bật nhất với trải nghiệm ưu tiên terminal mạnh mẽ
Điểm mạnh chính là tính linh hoạt về mô hình — hỗ trợ frontier model được host, endpoint tự host và mô hình cục bộ
Điều này khiến OpenCode trở nên hấp dẫn cho việc kiểm soát chi phí, tùy biến và các môi trường bị hạn chế, bao gồm cả thiết lập air gap
Đồng thời điều đó cũng có nghĩa người dùng cần nắm rõ giấy phép và điều khoản của nhà cung cấp khi dùng gói thuê bao hoặc API
Mô hình mở rộng của OpenCode là một phần hấp dẫn cốt lõi khác, hỗ trợ cả plugin lẫn tích hợp MCP cho workflow, công cụ và guardrail theo từng nhóm
Nhiều người dùng tận dụng Oh My OpenCode, một harness tùy chọn nhưng phổ biến, cung cấp thiết lập batteries-included và giàu tính định hướng hơn với các nhóm agent được điều phối sẵn cùng các mô thức orchestration phong phú hơn

88. OpenSpec

Khi năng lực của AI coding agent tiếp tục phát triển, các nhà phát triển ngày càng đối mặt với thách thức về tính dự đoán và khả năng bảo trì khi yêu cầu và ngữ cảnh chỉ tồn tại trong lịch sử chat tạm thời
Để giải quyết điều này, các công cụ spec-driven development (SDD) đã xuất hiện
OpenSpec là một framework SDD mã nguồn mở đưa vào lớp đặc tả nhẹ để bảo đảm nhà phát triển và AI agent thống nhất về những gì sẽ được xây dựng trước khi sinh mã
Điểm khác biệt là workflow linh hoạt và tối giản, thường được rút gọn còn ba bước — propose → apply → archive
Nhiều framework SDD (GitHub Spec Kit chẳng hạn) hoặc workflow Agentic Skills (Superpowers chẳng hạn) phù hợp với dự án greenfield hơn so với brownfield
Thay vì yêu cầu định nghĩa đầy đủ đặc tả từ trước, việc tập trung vào spec deltas của OpenSpec đặc biệt hiệu quả và phù hợp tốt với các hệ thống hiện có
Khác với các lựa chọn thay thế nặng nề hơn buộc áp dụng workflow nghiêm ngặt (BMAD chẳng hạn) hoặc cần tích hợp IDE đặc thù nhà cung cấp (Kiro chẳng hạn), OpenSpec mang tính lặp và trung lập với công cụ
Đây là framework thân thiện với developer đáng để đánh giá cho các nhóm muốn đưa cấu trúc và tính dự đoán vào phát triển có hỗ trợ AI mà không phải chấp nhận quy trình nặng nề
Đồng thời, khi mô hình và coding agent ngày càng mạnh hơn, các nhóm cũng được khuyến nghị theo dõi, xem xét lại năng lực native và đánh giá lại mức độ cần thiết của công cụ SDD

89. PageIndex

Công cụ xây dựng chỉ mục phân cấp của tài liệu cho pipeline RAG dựa trên suy luận, không dùng vector, thay vì phụ thuộc vào truy xuất dựa trên embedding truyền thống
Trong khi việc chia nhỏ tài liệu thành vector có thể làm mất thông tin cấu trúc và hạn chế khả năng thấy được lý do truy xuất kết quả, PageIndex xây dựng chỉ mục kiểu mục lục để LLM duyệt từng bước và tìm nội dung liên quan
Tương tự cách con người quét qua heading rồi đi sâu vào từng phần cụ thể, công cụ tạo ra dấu vết suy luận tường minh giải thích vì sao một phần cụ thể được chọn
Hoạt động tốt với các tài liệu mà ý nghĩa phụ thuộc nhiều vào cấu trúc hơn là ngữ nghĩa, ví dụ báo cáo tài chính có dữ liệu số, tài liệu pháp lý với các điều khoản tham chiếu chéo, tài liệu lâm sàng hoặc khoa học phức tạp
Tuy nhiên có đánh đổi, vì suy luận của LLM là một phần của quá trình truy xuất nên có thể tạo ra độ trễ và chi phí đáng kể, đặc biệt với tài liệu lớn

90. Pencil

Công cụ canvas thiết kế tích hợp với IDE và coding agent như Cursor và Claude Code
Không giống Figma hiện chỉ cung cấp quyền truy cập đọc, Pencil chạy máy chủ MCP cục bộ hai chiều, cung cấp cả quyền đọc lẫn ghi để thao tác trực tiếp với canvas
Giống các công cụ như Figma Make và Builder.io, công cụ này cũng cung cấp năng lực design-to-code, nhưng với cách tiếp cận thiên về developer hơn — file thiết kế được lưu trong repo dưới dạng JSON mở .pen, cho phép quản lý phiên bản tài sản thiết kế cùng với mã
Việc tích hợp với các công cụ quen thuộc với developer giúp thu hẹp khoảng cách trong khâu bàn giao giữa thiết kế và phát triển
Với các hệ thống thiết kế lớn và phức tạp, Figma vẫn là tiêu chuẩn cộng tác xuyên vai trò
Tuy nhiên, đây là lựa chọn đáng cân nhắc cho các nhóm không có designer chuyên trách hoặc có developer sở hữu kỹ năng thiết kế tốt

91. Pi

Coding agent terminal tối giản mã nguồn mở được viết bằng TypeScript
Là lựa chọn hấp dẫn với những người thích mày mò và thử nghiệm hơn là mặc định chủ đạo trong doanh nghiệp
Pi là harness tối giản nhưng dễ tùy biến hơn so với các agent hoàn chỉnh như OpenCode
Dễ thích nghi hơn so với việc xây mới một agent bằng các framework agentic như ADK, LangGraph, Mastra
Dù có động lực phát triển mạnh và phát hành tích cực, dự án vẫn còn ở giai đoạn đầu và phần lớn do maintainer dẫn dắt
Cần xem pi là khối xây dựng hướng tới kỹ sư, không phải nền tảng doanh nghiệp hoàn chỉnh với đầy đủ guardrail và hỗ trợ

92. Qwen 3 TTS

Mô hình text-to-speech mã nguồn mở thu hẹp đáng kể khoảng cách chất lượng với sản phẩm thương mại, đồng thời cho developer mức độ kiểm soát lớn hơn nhiều so với nhiều API trả phí
Hỗ trợ đa ngôn ngữ, có thể voice cloning từ mẫu ngắn (khoảng 10-15 giây), và cho phép fine-tuning hậu huấn luyện cho giọng nói theo miền hoặc theo nhân vật cụ thể
Là lựa chọn hấp dẫn cho các nhóm cần giọng nói đặc thù thương hiệu hoặc quyền kiểm soát on-prem
Qwen 3 TTS vẫn mới được phát hành gần đây, nên các nhóm cần xác minh độ ổn định, kiểm soát an toàn, mức độ phù hợp giấy phép và độ trưởng thành vận hành trước khi đưa vào các workload giọng nói quan trọng trong production

93. SGLang

Khung phục vụ hiệu năng cao giúp giảm overhead tính toán của suy luận LLM thông qua đồng thiết kế giữa ngôn ngữ lập trình frontend và runtime backend
Áp dụng RadixAttention, một kỹ thuật quản lý bộ nhớ chủ động cache và tái sử dụng trạng thái KV (key-value) trên toàn bộ prompt
Cách tiếp cận này mang lại cải thiện hiệu năng đáng kể so với các engine phục vụ tiêu chuẩn như vLLM trong các kịch bản có mức độ trùng lặp prefix cao
Với các nhóm xây dựng tác tử tự chủ phức tạp, phụ thuộc vào system prompt dài và sử dụng few-shot prompting diện rộng với các ví dụ dùng chung, SGLang có thể đem lại lợi ích đáng kể về độ trễ và hiệu quả

94. ty

Khi Python tiếp tục tăng trưởng về mức độ phổ biến, đặc biệt trong lĩnh vực AI và khoa học dữ liệu, việc sở hữu một hệ thống kiểu mạnh ngày càng trở nên có giá trị
Ty là trình kiểm tra kiểu Python và language server cực nhanh được viết bằng Rust
Là một phần của hệ sinh thái Astral, cũng bao gồm các công cụ như uv và ruff
Cung cấp phản hồi nhanh và tích hợp tốt với các trình soạn thảo phổ biến như Visual Studio Code
Dùng ty cùng với các công cụ Astral khác có thể đơn giản hóa việc phát triển Python trong các tổ chức quy mô lớn
Khi agentic coding ngày càng phổ biến, việc có một trình kiểm tra kiểu mang tính quyết định với vòng phản hồi nhanh giúp bắt lỗi sớm và giảm công sức review code cho các lỗi đơn giản

95. Warp

Kể từ lần cuối được đưa vào Radar, Warp đã tiến hóa vượt xa mô tả “terminal có tính năng AI”
Trong khi vẫn giữ các thế mạnh cốt lõi — đầu ra lệnh dựa trên block, gợi ý bằng AI và các tính năng notebook — nó đã mở rộng sang vùng mà trước đây IDE thường đảm nhiệm
Hiện nay có thể render Markdown, hiển thị cây tệp và mở tệp trực tiếp từ terminal, đồng thời hỗ trợ toàn bộ workflow phát triển agentic trên nhiều panel — một panel chạy coding agent như Claude Code, một panel khác chạy shell và panel thứ ba hiển thị tệp trong workspace
Lợi ích thực tế được quan sát là Warp xử lý đầu ra văn bản thông lượng cao do các coding agent hiện đại tạo ra tốt hơn terminal truyền thống, nơi tốc độ render và khả năng đọc có thể trở thành nút thắt cổ chai
Nó cũng bổ sung coding assistant tích hợp sẵn, dù nhóm chưa đánh giá rộng rãi
Gần đây Warp cũng ra mắt Oz, một nền tảng điều phối cho cloud agent tích hợp với terminal, nhưng mục này tập trung vào chính terminal
Với các nhóm thích terminal nhẹ, có thể kết hợp linh hoạt và muốn tự mang công cụ AI riêng vào, Ghostty có thể phù hợp hơn — một cách tiếp cận cố ý tối giản, trái ngược với triết lý batteries-included của Warp
Tốc độ ra tính năng mới và tham vọng nền tảng rộng hơn của Warp khiến việc chuyển sang Trial vẫn còn quá sớm, trước khi sản phẩm ổn định hơn và có thêm kinh nghiệm thực tế với các năng lực mới

96. WuppieFuzz

Một fuzzer mã nguồn mở cho REST API, sử dụng định nghĩa OpenAPI để tạo request hợp lệ, biến đổi chúng để khám phá các edge case và dựa vào phản hồi coverage phía máy chủ để ưu tiên các đầu vào chạm tới đường thực thi mới
Phần lớn các nhóm vẫn dựa vào kiểm thử tích hợp và kiểm thử hợp đồng dựa trên ví dụ, gần như không khám phá các đầu vào bất ngờ, chuỗi request bất thường hay các đường xử lý nhiều lỗi, dù API thường là bề mặt tích hợp chính của các hệ thống hiện đại
Dựa trên đánh giá ban đầu, WuppieFuzz có vẻ là một phần bổ sung đầy hứa hẹn cho các hình thức kiểm thử này — có thể phát hiện các vấn đề như ngoại lệ chưa được xử lý, lỗ hổng phân quyền, rò rỉ dữ liệu nhạy cảm, lỗi phía máy chủ và lỗi logic mà kiểm thử script có thể bỏ sót
Các nhóm vẫn cần đánh giá cách nó phù hợp với CI, overhead thời gian chạy mà nó tạo ra và kết quả thực sự hữu ích đến mức nào
Vì lý do đó, công cụ này đáng để đánh giá đối với các nhóm xây dựng REST API quan trọng hoặc được phơi ra bên ngoài

Caution

97. OpenClaw

Một dự án mã nguồn mở thuộc danh mục mà tác giả gọi là “hyper-personal AI assistant”
Người dùng có thể tự lưu trữ instance của mình, duy trì khả năng sử dụng liên tục qua các kênh nhắn tin như WhatsApp hoặc iMessage và thực thi tác vụ thông qua các công cụ được kết nối
Với bộ nhớ lâu dài về hội thoại, sở thích và thói quen, nó tạo ra một trải nghiệm cá nhân thường trực khác biệt rõ rệt so với giao diện chat GenAI hay coding agent điển hình
Mô hình này rõ ràng rất hấp dẫn và đã truyền cảm hứng cho những bên theo sau như Claude Cowork
Lý do đặt OpenClaw vào mục Caution là vì mô hình này đòi hỏi những đánh đổi đáng kể về bảo mật
Nó càng hữu ích khi được cấp nhiều quyền truy cập hơn vào lịch, email, tệp và liên lạc, đồng thời tập trung quyền hạn đúng theo kiểu mẫu đã được cảnh báo trong toxic flow analysis for AI
Rủi ro này không chỉ riêng OpenClaw; nó cũng áp dụng cho các triển khai khác cùng kiểu mẫu, bao gồm cả sản phẩm của các nhà cung cấp đã có vị thế
Họ đã đăng lời khuyên cho các nhóm đang cân nhắc OpenClaw cùng môi trường thực thi sandbox, và các lựa chọn thay thế như NanoClaw hay ZeroClaw có thể giúp giảm blast radius
Tuy nhiên, bản thân mô hình hyper-personal assistant vẫn có xu hướng đòi hỏi nhiều quyền hạn và luôn là rủi ro cao

[Languages and Frameworks]

Adopt

98. Apache Iceberg

Một định dạng bảng mở cho các tập dữ liệu phân tích quy mô lớn, định nghĩa cách các tệp dữ liệu, metadata và schema được tổ chức trên các hệ thống lưu trữ như S3
Đã phát triển mạnh trong vài năm gần đây và trở thành khối xây dựng nền tảng cho kiến trúc lakehouse trung lập về công nghệ
Được mọi nhà cung cấp nền tảng dữ liệu lớn hỗ trợ, bao gồm AWS (Athena, EMR, Redshift), Snowflake, Databricks và Google BigQuery, khiến nó trở thành một lựa chọn mạnh để tránh bị khóa vào nhà cung cấp
Điều làm Apache Iceberg khác biệt so với các định dạng bảng mở khác là tính mở trên cả phương diện tính năng lẫn quản trị, trái ngược với các lựa chọn thay thế mà năng lực bị giới hạn hoặc bị kiểm soát bởi một nhà cung cấp duy nhất
Về độ tin cậy, thiết kế dựa trên snapshot mang lại serializable isolation, ghi đồng thời an toàn thông qua optimistic concurrency và lịch sử phiên bản bao gồm rollback, cung cấp bảo đảm chính xác mạnh mà không tạo ra nút thắt hiệu năng
Dù Apache Spark là engine phổ biến nhất, nó cũng được hỗ trợ tốt bởi Trino, Flink, DuckDB và nhiều công cụ khác, phù hợp với nhiều trường hợp sử dụng từ nền tảng dữ liệu doanh nghiệp đến phân tích cục bộ gọn nhẹ
Đã giành được niềm tin mạnh mẽ như một định dạng dữ liệu ổn định và mở trong nhiều nhóm, và được khuyến nghị là lựa chọn mặc định cho các tổ chức xây dựng nền tảng dữ liệu hiện đại

99. Declarative Automation Bundles

Trước đây được gọi là Databricks Asset Bundles, nay đã phát triển thành công cụ chủ chốt để đưa thực hành kỹ thuật phần mềm và CI/CD vào hệ sinh thái Databricks
Đã trưởng thành đáng kể, cho phép các nhóm quản lý bằng mã phần lớn tài nguyên nền tảng, bao gồm cluster, pipeline ETL, job, mô hình machine learning, dashboard
Với lệnh databricks bundle plan, các nhóm có thể xem trước thay đổi và áp dụng thực hành triển khai lặp lại được cho các artifact Databricks, tương tự như cách quản lý hạ tầng bằng các công cụ như Terraform
Bằng cách coi các tài sản vốn thường dễ thay đổi như dashboard và pipeline ML là mã, có thể quản lý phiên bản, kiểm thử và triển khai với mức độ nghiêm ngặt tương đương microservice truyền thống
Dựa trên kinh nghiệm trong môi trường production, Declarative Automation Bundles đã khẳng định vị thế là một cách tiếp cận đáng tin cậy để quản lý workflow dữ liệu và ML trong Databricks
Khuyến nghị các nhóm làm việc sâu trong hệ sinh thái Databricks cân nhắc áp dụng để chuẩn hóa thực hành quản lý hạ tầng

100. React JS

Là lựa chọn mặc định cho phát triển UI bằng JavaScript từ năm 2016, nhưng nay đáng để xem lại nhờ bản phát hành ổn định của React Compiler trong một phần của React 19 (ra mắt vào tháng 10 năm ngoái)
Xử lý memoization ở thời điểm build nên useMemo và useCallback thủ công hầu như không còn cần thiết; khuyến nghị các nhóm vẫn giữ chúng như cơ chế thoát hiểm khi cần kiểm soát chính xác dependency của effect
Đã được battle-test tại Meta, hỗ trợ Expo SDK 54, Vite, Next.js, và loại bỏ cả một nhóm mã boilerplate hiệu năng vốn là cái giá lâu nay khi làm việc với React ở quy mô lớn
React 19 cũng giới thiệu Actions và các hook như useActionState, useOptimistic, đơn giản hóa xử lý form và biến đổi dữ liệu mà không cần phụ thuộc vào thư viện bên ngoài
Năm 2025, React Foundation được ra mắt dưới Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion, Vercel cùng tham gia với Meta — củng cố sự ổn định dài hạn của thư viện và giải tỏa những lo ngại mà các nhóm thận trọng từng viện dẫn khi cân nhắc áp dụng

101. React Native

Được chuyển lên Adopt như lựa chọn mặc định cho phát triển mobile đa nền tảng
Trước đây ở Trial, nhưng việc triển khai New Architecture — cụ thể là JSI và Fabric — đã giải quyết các lo ngại lâu nay về nút thắt bridge và tốc độ khởi tạo
Ghi nhận mức tăng hiệu năng đáng kể trong các chuyển đổi UI phức tạp và workload đòi hỏi nhiều dữ liệu
Khi rời bỏ bridge bất đồng bộ, React Native giờ đây mang lại độ phản hồi tiệm cận native trong khi vẫn duy trì một codebase duy nhất
Đã được sử dụng thành công trong nhiều dự án production, còn Expo và hệ sinh thái xoay quanh React đã trưởng thành và ổn định
Dù việc quản lý state vẫn cần lên kế hoạch cẩn thận, lợi ích năng suất từ workflow fast refresh và bộ kỹ năng dùng chung vẫn vượt trội các chi phí đó
Là khuyến nghị hàng đầu cho hầu hết các trường hợp sử dụng mobile hybrid đối với các nhóm theo đuổi hiệu năng, tính nhất quán và tốc độ

102. Svelte

Là framework UI JavaScript biên dịch component thành JavaScript tối ưu ngay tại thời điểm build, không phụ thuộc vào runtime lớn phía trình duyệt hay virtual DOM
Kể từ lần được giới thiệu gần nhất ở Trial, nhiều nhóm hơn đã dùng thành công trong production; SvelteKit cũng trở thành lựa chọn vững chắc hơn cho SSR và ứng dụng web full-stack, làm tăng niềm tin để chuyển lên Adopt
Những lý do ban đầu để chọn Svelte vẫn còn nguyên giá trị — tạo bundle nhỏ, hiệu năng runtime mạnh, và mô hình component đơn giản hơn
Các năng lực mới trong Svelte 5 như runes và snippets giúp tính phản ứng và cấu trúc UI trở nên rõ ràng và linh hoạt hơn
Mang lại trải nghiệm phát triển gọn gàng hơn với ít mã hơn so với các framework frontend nặng hơn
Phản hồi từ các nhóm ngày càng cho thấy đây là một lựa chọn thay thế đáng tin cậy cho React hoặc Vue, chứ không còn là một lựa chọn ngách
Dù vẫn cần cân nhắc độ quen thuộc của hệ sinh thái, tuyển dụng và mức độ phù hợp với nền tảng, đây vẫn được khuyến nghị là mặc định hợp lý để xây dựng ứng dụng web hiện đại khi hiệu năng và sự đơn giản trong triển khai là quan trọng

103. Typer

Là thư viện Python để xây dựng CLI từ các hàm có type annotation tiêu chuẩn, cung cấp sẵn help text tự động, shell autocompletion, và lộ trình rõ ràng từ script nhỏ đến ứng dụng CLI lớn
Mức độ liên quan ngày càng tăng khi các nhóm chuyển đổi công cụ nội bộ, tự động hóa và workflow nhà phát triển liền kề AI thành CLI hạng nhất
Typer dễ đưa vào dự án thực tế, và các nhóm đánh giá cao tốc độ tạo ra những câu lệnh rõ ràng, dễ đọc
Điểm mạnh gồm API dựa trên type hint, help và autocompletion tự động, cùng con đường ít ma sát từ script đơn giản đến CLI nhiều lệnh
Tuy nhiên, đây là giải pháp đặc thù cho Python và có thể không phải lựa chọn tốt nhất nếu cần hành vi CLI tùy biến cao hoặc tính nhất quán xuyên ngôn ngữ
Được khuyến nghị cho các nhóm xây dựng CLI phục vụ workflow phân phối, vận hành và trải nghiệm nhà phát triển

Trial

104. Agent Development Kit (ADK)

Là framework của Google để xây dựng và vận hành AI agent, cung cấp các abstraction thiên về kỹ thuật phần mềm cho orchestration, công cụ, đánh giá và triển khai
Kể từ khi được đưa vào Assess, hệ sinh thái và năng lực vận hành đã trưởng thành đáng kể, với phát triển đa ngôn ngữ sôi động hơn cùng các tính năng observability và runtime mạnh hơn
Các framework agent gốc của từng nhà cung cấp hiện là một lĩnh vực đông đúc — những lựa chọn cạnh tranh như Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK đều đang tiến triển
Các lựa chọn mã nguồn mở như LangGraph và CrewAI vẫn là lựa chọn mạnh cho các nhóm ưu tiên tính di động của framework và hệ sinh thái rộng hơn
Dù ADK ở một số phần vẫn trong trạng thái pre-GA, đôi lúc còn thô và gây ma sát khi nâng cấp, nhưng vẫn ghi nhận nhiều trường hợp sử dụng thành công hơn, đặc biệt trong các dự án đã đầu tư vào nền tảng Google

105. DeepEval

Framework mã nguồn mở dựa trên Python để đánh giá hiệu năng LLM
Có thể dùng để đánh giá các hệ thống và ứng dụng RAG được xây dựng bằng các framework như LlamaIndex hoặc LangChain, cũng như cho baseline và benchmark của mô hình
Vượt ra ngoài các metric so khớp từ đơn giản để cung cấp đánh giá đáng tin cậy hơn trong các kịch bản thực tế thông qua đánh giá độ chính xác, mức độ liên quan và tính nhất quán
Bao gồm các năng lực như phát hiện hallucination, chấm điểm mức độ liên quan của câu trả lời và tối ưu hyperparameter; tính năng đặc biệt hữu ích là cho phép nhóm định nghĩa metric theo use case tùy chỉnh
Gần đây DeepEval đã được mở rộng để hỗ trợ các workflow agentic phức tạp và hệ thống hội thoại nhiều lượt
Không chỉ đánh giá đầu ra cuối cùng, công cụ còn cung cấp các metric dựng sẵn cho tool correctness, step efficiency, task completion, bao gồm cả đánh giá tương tác với máy chủ MCP
Cũng đã giới thiệu conversation simulation để tự động tạo test case nhằm stress test các ứng dụng nhiều lượt ở quy mô lớn

106. Docling

Thư viện mã nguồn mở Python và TypeScript dùng để chuyển đổi tài liệu phi cấu trúc thành đầu ra gọn gàng, máy có thể đọc được
Sử dụng cách tiếp cận dựa trên computer vision để hiểu bố cục và ngữ nghĩa, xử lý các đầu vào phức tạp như PDF, bao gồm cả tài liệu scan, sang các định dạng có cấu trúc như JSON và Markdown
Phù hợp cho pipeline RAG và tạo structured output from LLMs, trái ngược với các cách tiếp cận truy xuất ưu tiên thị giác như ColPali
Docling cung cấp giải pháp mã nguồn mở tự self-hosted thay thế cho các dịch vụ đám mây quản lý độc quyền như Azure Document Intelligence, Amazon Textract, Google Document AI, và tích hợp tốt với các framework như LangGraph
Hoạt động tốt trong các workload trích xuất ở quy mô production trên nhiều loại PDF số và PDF scan, bao gồm cả các tệp rất lớn chứa văn bản, bảng và hình ảnh
Mang lại cân bằng mạnh giữa chất lượng và chi phí cho các workflow agentic RAG ở downstream

107. LangExtract

Thư viện Python dùng để trích xuất thông tin có cấu trúc từ văn bản phi cấu trúc dựa trên chỉ dẫn tùy chỉnh của người dùng, bao gồm grounding nguồn chính xác liên kết từng thực thể được trích xuất với vị trí của nó trong tài liệu gốc
Xử lý tài liệu đặc thù theo lĩnh vực như ghi chú lâm sàng và báo cáo
Điểm mạnh cốt lõi là khả năng truy vết nguồn, bảo đảm mỗi điểm dữ liệu được trích xuất đều có thể lần ngược về nguồn
Có thể xuất các thực thể đã trích xuất thành tệp JSONL, định dạng chuẩn cho dữ liệu mô hình ngôn ngữ, và trực quan hóa bằng giao diện HTML tương tác để rà soát theo ngữ cảnh
Các nhóm đang cân nhắc structured output from LLMs cho xử lý tài liệu nên đánh giá LangExtract cùng với các cách tiếp cận ép schema như Pydantic AI
LangExtract phù hợp hơn với tài liệu nguồn dài, phi cấu trúc, còn Pydantic AI xuất sắc trong việc ràng buộc định dạng đầu ra cho đầu vào ngắn hơn và dễ dự đoán hơn

108. LangGraph

Kể từ Radar trước, chúng tôi quan sát thấy kiến trúc LangGraph — coi mọi hệ thống đa tác tử như đồ thị có trạng thái với trạng thái dùng chung toàn cục — không phải lúc nào cũng là lựa chọn tốt nhất để xây dựng hệ thống agentic
Các cách tiếp cận thay thế, như cách được dùng trong các framework như Pydantic AI, cũng hoạt động tốt
Thay vì bắt đầu với đồ thị cứng nhắc và trạng thái dùng chung quy mô lớn, cách tiếp cận này ưu tiên giao tiếp tác tử đơn giản thông qua thực thi mã, rồi chỉ bổ sung cấu trúc đồ thị khi cần
Trong nhiều use case, cách này tạo ra hệ thống gọn hơn và hiệu quả hơn, vì mỗi tác tử chỉ truy cập phần trạng thái mà nó cần, giúp việc suy luận, kiểm thử và debug dễ hơn
Do đó rời khỏi Adopt; đây vẫn là một công cụ mạnh, nhưng không còn được xem là lựa chọn mặc định để xây dựng mọi hệ thống agentic

109. LiteLLM

Bắt đầu như một lớp trừu tượng mỏng trên nhiều nhà cung cấp LLM, rồi mở rộng thành một AI gateway thực thụ
Vượt ra ngoài việc đơn giản hóa tích hợp API để giải quyết các mối quan tâm xuyên suốt phổ biến của hệ thống GenAI — bao gồm retry và failover, load balancing giữa các nhà cung cấp, theo dõi chi phí có kèm kiểm soát ngân sách
Các nhóm ngày càng áp dụng LiteLLM làm mặc định hợp lý cho các ứng dụng dùng AI
Gateway này cũng cung cấp một nơi nhất quán để xử lý các mối quan tâm về governance, bao gồm theo dõi request, kiểm soát truy cập, quản lý API key, lọc nội dung và guardrail ở tầng edge như chỉnh sửa hoặc che dữ liệu
Tuy nhiên, các nhóm phụ thuộc vào tính năng khác biệt của từng nhà cung cấp thường vẫn cần các tham số riêng theo nhà cung cấp, từ đó tái đưa vào sự kết dính mà gateway muốn loại bỏ
Chế độ drop_params âm thầm loại bỏ các tham số không được hỗ trợ, có thể dẫn đến mất năng lực mà không có khả năng quan sát trên toàn bộ các quyết định định tuyến
Đây là lựa chọn thực tế cho kiểm soát vận hành, nhưng việc tận dụng năng lực riêng của nhà cung cấp đồng nghĩa phải duy trì cả sự phụ thuộc vào gateway lẫn mã gắn chặt với nhà cung cấp

110. Modern.js

Meta-framework React của ByteDance, được đưa vào Trial cho các nhóm có yêu cầu micro frontend dựa trên Module Federation
Tác nhân kích hoạt mang tính thực dụng — nextjs-mf đang theo hướng end-of-life, Pages Router chỉ dự kiến nhận các bản sửa backport nhỏ, không có kế hoạch phát triển mới, và kiểm thử CI được dự đoán sẽ bị gỡ vào nửa cuối năm 2026
Do Next.js thiếu hỗ trợ Module Federation chính thức và plugin cộng đồng đang dần bị loại bỏ, đội ngũ cốt lõi của Module Federation khuyến nghị Modern.js là framework hỗ trợ chính cho kiến trúc dựa trên federation
Plugin @module-federation/modern-js-v3 cung cấp ngay việc nối dây build tự động, còn streaming SSR và Bridge API có thể dùng như các năng lực riêng biệt
Tuy nhiên vẫn có giới hạn trong tích hợp — @module-federation/bridge-react hiện chưa tương thích với môi trường Node, nên không thể dùng Bridge trong các kịch bản SSR
Trải nghiệm ban đầu là tích cực, và lộ trình migration được xác định rõ cho các nhóm đã dùng Module Federation
Hệ sinh thái bên ngoài ByteDance vẫn đang trong quá trình trưởng thành, cần tài liệu dày dặn hơn và kế hoạch tham gia chặt chẽ hơn với upstream
Hiện tại, khoản đầu tư này là hợp lý cho các use case Module Federation chưa có lựa chọn thay thế nào được hỗ trợ tốt hơn

Assess

111. Agent Lightning

Khung tối ưu hóa và huấn luyện agent giúp kích hoạt tối ưu prompt tự động, tinh chỉnh có giám sát, học tăng cường theo kiểu agentic
Phần lớn các framework agent tập trung vào việc xây dựng agent, nhưng không tập trung vào việc cải thiện theo thời gian
Agent Lightning hỗ trợ các framework như AutoGen và CrewAI, cho phép liên tục cải thiện agent hiện có mà không cần thay đổi phần triển khai nền tảng
Điều này đạt được thông qua cách tiếp cận gọi là Training-Agent Disaggregation, đưa vào một lớp nằm giữa quá trình huấn luyện và framework agent
Hai thành phần cốt lõi — Lightning Server quản lý quy trình huấn luyện và cung cấp API cho mô hình đã cập nhật, còn Lightning Client đóng vai trò runtime thu thập trace và gửi về server để hỗ trợ huấn luyện
Khuyến nghị các đội đã có triển khai agent ổn định nên khám phá như một cách liên tục cải thiện hiệu năng agent

112. GitHub Spec Kit

Trong các cuộc thảo luận của chu kỳ này, spec-driven development nổi bật rõ rệt, với hai phe rộng lớn xuất hiện — các đội dựa vào cấu trúc tối thiểu và năng lực cải thiện liên tục của coding agent, và các đội ưa chuộng workflow được định nghĩa cùng đặc tả chi tiết
Nhiều đội đang thử nghiệm thực hành spec-driven bằng GitHub Spec Kit, chủ yếu trong môi trường brownfield
Khái niệm cốt lõi của Spec Kit là constitution, một bộ quy tắc nền tảng để đồng bộ vòng đời phát triển phần mềm
Trên thực tế, một constitution hữu ích thường nắm bắt phạm vi dự án, ngữ cảnh miền nghiệp vụ, phiên bản công nghệ, tiêu chuẩn mã hóa, cấu trúc repository (ví dụ: kiến trúc hexagonal, layered module), giúp agent hoạt động trong các ranh giới kiến trúc đã định
Các thách thức như instruction bloat cũng xuất hiện — tập lệnh chỉ dẫn cho agent ngày càng phình to do liên tục bổ sung ngữ cảnh dự án, và cuối cùng dẫn đến context rot; một đội đã giải quyết bằng cách tách hướng dẫn có thể tái sử dụng thành skill, giữ chỉ dẫn cho agent gọn hơn và chỉ nạp ngữ cảnh chi tiết khi cần
Trong các hệ thống brownfield, nhiều lần làm lại bắt nguồn từ ý định không rõ ràng, giả định ẩn và các ràng buộc được phát hiện quá muộn; một đội đã áp dụng vòng đời spec → plan → tasks → coding → review để giúp đưa vấn đề ra ánh sáng sớm hơn
Theo thời gian, ngữ cảnh có thể lặp lại được chuyển sang các tệp như .github/prompts/speckit.<command>.prompt.md, giúp prompt ngắn hơn và hành vi của agent nhất quán hơn
Có báo cáo về những điểm còn thô như các kiểm tra phòng thủ không cần thiết và đầu ra markdown quá dài dòng
Một số vấn đề được giải quyết bằng cách tùy biến template và chỉ dẫn của Spec Kit, chẳng hạn giới hạn số lượng tệp markdown được tạo và giảm độ dài dòng của console
Cuối cùng, các kỹ sư giàu kinh nghiệm với thực hành clean coding và kiến trúc vững chắc là những người khai thác được nhiều giá trị nhất từ workflow spec-driven

113. Mastra

Framework mã nguồn mở native TypeScript để xây dựng ứng dụng AI và agent
Cung cấp workflow engine dựa trên đồ thị, cách tiếp cận tích hợp nhiều nhà cung cấp LLM, cơ chế tạm dừng và tiếp tục human-in-the-loop, cùng các primitive cho RAG và memory
Cũng bao gồm công cụ tích hợp sẵn để viết MCP server và phục vụ đánh giá cùng observability, với tài liệu cho nhà phát triển rõ ràng
Mastra mang lại một lựa chọn thay thế cho stack nặng về Python, cho phép các đội xây dựng năng lực AI phong phú ngay trong hệ sinh thái web sẵn có như Node.js hoặc Next.js
Đáng để đánh giá với các đội đã đầu tư vào hệ sinh thái TypeScript và muốn tránh phải chuyển sang Python cho lớp AI

114. Pipecat

Framework mã nguồn mở để xây dựng agent giọng nói thời gian thực và đa phương thức bằng mô hình pipeline dạng mô-đun cho STT, LLM, TTS và điều phối truyền tải
Thu hút sự quan tâm mạnh vì cho phép các đội lặp nhanh trên hành vi hội thoại và thay đổi nhà cung cấp với độ ma sát tương đối thấp
So với LiveKit Agents, Pipecat cung cấp độ linh hoạt framework cao hơn nhưng lộ trình production kém tích hợp hơn, đặc biệt ở triển khai self-hosted, độ tin cậy truyền tải và xử lý lượt tương tác độ trễ thấp ở quy mô lớn
Dù mang lại nền tảng mạnh cho kỹ thuật đối mặt trực tiếp, vẫn cần đáng kể công việc platform engineering trước khi dựa vào nó cho các workload production quan trọng với doanh nghiệp

115. Superpowers

Khi việc sử dụng coding agent gia tăng, không có một workflow duy nhất phù hợp cho mọi đội; thay vào đó, các đội đang phát triển workflow tùy chỉnh dựa trên ngữ cảnh và ràng buộc của mình
Superpowers là một trong các workflow như vậy, được xây dựng từ các skill có thể kết hợp
Nó bao bọc coding agent thành các skill trong workflow có cấu trúc, khuyến khích brainstorming trước khi code, lập kế hoạch chi tiết trước khi triển khai, TDD với chu kỳ red-green-refactor bắt buộc, debug có hệ thống ưu tiên nguyên nhân gốc rễ, và code review sau triển khai
Được phân phối dưới dạng plugin thông qua Claude Code plugin marketplace và Cursor plugin marketplace

116. TanStack Start

Framework full-stack cho React và Solid được xây dựng trên TanStack Router, có thể so sánh với Next.js, hỗ trợ SSR, caching và nhiều tính năng tương tự
TanStack Start cung cấp độ an toàn compile-time end-to-end cho server function, loader và toàn bộ routing, giúp giảm rủi ro liên kết hỏng hoặc kiểu dữ liệu không khớp ở frontend
Ưa chuộng cấu hình tường minh hơn là convention, nên trải nghiệm gần với làm việc bằng React thuần hơn
Có thể bổ sung năng lực SSR dần dần theo nhu cầu
So với Next.js với các mặc định mang tính định hướng hơn, dễ gây hành vi ngoài dự kiến nếu không quen với cơ chế bên trong, nó tường minh và dễ dự đoán hơn
Hệ sinh thái TanStack cũng đã trưởng thành đáng kể, mang lại bộ công cụ mạnh mẽ để xây dựng ứng dụng web hiện đại

117. TOON (Token-Oriented Object Notation)

Mã hóa dữ liệu JSON có thể đọc được bởi con người, được thiết kế để giảm lượng token sử dụng khi dữ liệu có cấu trúc được đưa vào LLM
Có thể giữ JSON trong các hệ thống hiện có và chỉ chuyển đổi tại điểm tương tác với mô hình
Chi phí token, độ trễ và giới hạn context window đang trở thành các yếu tố thiết kế thực tế cần cân nhắc trong pipeline RAG, workflow agent và các ứng dụng nặng về AI khác
JSON thô thường tiêu tốn token vào các khóa lặp lại và overhead cấu trúc nhiều hơn là vào nội dung hữu ích
Trong các đánh giá ban đầu, TOON là một tối ưu hóa last mile thú vị cho đầu vào prompt, đặc biệt với các bộ dữ liệu lớn và đều đặn nơi định dạng có nhận thức schema hiệu quả hơn JSON và dễ cho mô hình xử lý hơn
Đây không phải là sự thay thế cho JSON trong API, cơ sở dữ liệu hay đầu ra mô hình, và thường là lựa chọn không phù hợp cho cấu trúc lồng sâu hoặc không đồng nhất, mảng bán đồng nhất, hay dữ liệu bảng phẳng nơi CSV gọn hơn
Nó cũng có thể kém phù hợp hơn trong các đường đi quan trọng về độ trễ, nơi JSON rút gọn hoạt động tốt
Đáng để đánh giá với các đội xây dựng ứng dụng LLM nơi kích thước đầu vào có cấu trúc là mối quan tâm đáng kể về chi phí hoặc chất lượng; cần benchmark với chính dữ liệu và stack mô hình của mình so với JSON hoặc CSV

118. Unsloth

Một framework mã nguồn mở tập trung vào việc giúp tinh chỉnh LLM và học tăng cường nhanh hơn đáng kể, đồng thời hiệu quả hơn về bộ nhớ
Việc tinh chỉnh LLM bao gồm hàng chục tỷ phép nhân ma trận, có lợi thế khi tăng tốc bằng GPU; Unsloth chuyển đổi các phép toán này thành các kernel tùy chỉnh hiệu suất cao cho GPU NVIDIA để tối ưu hóa, giúp giảm mạnh chi phí và mức sử dụng bộ nhớ
Giúp có thể tinh chỉnh mô hình trên GPU tiêu dùng từ T4 trở lên thay vì phải dùng các cụm H100 đắt đỏ
Hỗ trợ LoRA, tinh chỉnh toàn phần, huấn luyện đa GPU, tinh chỉnh ngữ cảnh dài (tối đa 500K token), nhắm đến các mô hình phổ biến như Llama, Mistral, DeepSeek-R1, Qwen, Gemma
Khi các ứng dụng AI đặc thù theo lĩnh vực ngày càng phụ thuộc vào tinh chỉnh, Unsloth giảm đáng kể rào cản gia nhập

Thoughtworks Technology Radar, Tập 34 được công bố

Những thách thức của việc đánh giá công nghệ trong thời đại agent

Giữ nguyên nguyên tắc nhưng xem xét lại pattern

Vấn đề bảo mật của những agent khao khát quyền hạn

Kiềm cương coding agent

[Techniques]

Adopt

Trial

Đánh giá

Caution

[Platforms]

Adopt

Trial

Assess

[Tools]

Adopt

Trial

Assess

Caution

[Languages and Frameworks]

Adopt

Trial

Assess

Bài viết liên quan

Chưa có bình luận nào.