- Hội nghị dành cho nhà phát triển của Anthropic: được tổ chức cả trực tuyến và trực tiếp, với các sự kiện trực tiếp diễn ra tại San Francisco 5/6, London 5/19, Tokyo 6/10. Tại sự kiện ở San Francisco, video của 19 phiên đã được công bố
- Claude đang phát triển theo hướng thực hiện tác vụ dài hơn, bộ nhớ dài hạn, sử dụng nhiều công cụ hơn, kiểm chứng tốt hơn
- Thay đổi cốt lõi là những phần trước đây do nhà phát triển tự xây như thực thi lặp, chọn công cụ, kiểm chứng, bộ nhớ, quản lý ngữ cảnh đang được đưa vào bên trong sản phẩm và nền tảng của Claude
- Sự khác biệt giữa sản phẩm và tổ chức đang dịch chuyển từ cách gọi mô hình sang việc mở cho mô hình công cụ, dữ liệu, quyền hạn, ngữ cảnh nào
- So với việc tự viết mã, các yếu tố như kiểm chứng, bảo mật, quản lý quyền hạn, khả năng quan sát, hệ thống đánh giá, vận hành tổ chức đang trở thành nút thắt cổ chai mới
- Những lĩnh vực quan trọng trong tương lai là công cụ tùy chỉnh, bộ nhớ đáng tin cậy, đánh giá, ranh giới bảo mật, context engineering, agent experience
- Tập trung vào các cải tiến sản phẩm để Claude Code và Claude Platform hoạt động tốt hơn cho nhà phát triển
- Phần lớn người dùng không trực tiếp dùng Claude API hay terminal, mà sử dụng Claude bên trong các sản phẩm do nhà phát triển xây dựng
- Mức sử dụng API của Claude Platform đã tăng gần 17 lần so với cùng kỳ năm trước
- Nhà phát triển Claude Code trung bình chạy Claude 20 giờ mỗi tuần
- Giới hạn sử dụng 5 giờ của Claude Code được tăng gấp đôi cho các gói Pro, Max, Team và Enterprise tính theo seat
- Giới hạn API của Claude Opus cũng được nâng lên đáng kể
- Công ty muốn tận dụng năng lực của trung tâm dữ liệu Colossus One của SpaceX để cung cấp thêm tài nguyên tính toán cho nhà phát triển cá nhân và các nhóm nhỏ
- Opus 4.7 giúp cải thiện hiệu năng agent lập trình, chất lượng lập kế hoạch và tỷ lệ giải quyết công việc kỹ thuật thực tế tại Amp, Rakuten và Intuit
- Claude trong tương lai sẽ hướng tới khả năng phán đoán tốt hơn, ngữ cảnh và bộ nhớ lớn hơn, nhiều agent phối hợp với nhau
- Các tính năng mới của Claude Code xoay quanh hai trục: cải thiện khả năng sử dụng cho nhà phát triển và tăng cường tính tự chủ
- Remote Control cho phép tiếp tục phiên đã bắt đầu trong terminal trên web hoặc di động
- Full screen terminal UI dùng virtual scrollback để cung cấp khả năng render không nhấp nháy và màn hình gọi công cụ có thể bấm được
- GUI của Claude Code đã thay đổi để có thể quản lý nhiều phiên bằng cách ghim, lọc, nhóm và chia đôi màn hình
- Trong plan view, diff view và files view, có thể để lại bình luận theo từng dòng và Claude sẽ gom lại để xử lý sau
- Auto Mode sẽ phân loại xem một lệnh gọi công cụ có mang tính phá hủy hay có dấu hiệu giống prompt injection hay không, rồi nếu an toàn thì chạy mà không cần xác nhận quyền hạn
- Worktree cho phép nhiều phiên Claude làm việc song song trên các nhánh và bản sao tệp được cô lập riêng
- Auto memory cho phép Claude quản lý
memory.md theo từng dự án và các tệp liên quan, đồng thời tái sử dụng lệnh build, manh mối debug và tùy chọn dự án trong các phiên sau
- Routines và
/loop giúp tự động chạy các phiên Claude Code bằng cron, GitHub webhook và API trigger
- Memory được xem là thành phần nền tảng của bước tiếp theo sau MCP, Claude Code, Agent SDK và Skills
- Bộ nhớ của Claude Managed Agents được tổ chức như một hệ thống tệp, để Claude có thể trực tiếp sắp xếp và cập nhật bằng Bash và Grep
- Opus 4.7 đưa ra quyết định tốt hơn về việc lưu gì, chia tệp ra sao và duy trì cấu trúc bộ nhớ như thế nào
- Có thể tách bộ nhớ tổ chức chỉ đọc và bộ nhớ công việc đọc-ghi để nhiều agent cùng đọc và ghi vào một kho bộ nhớ
- Để tránh ghi đè khi có hàng trăm agent trở lên cùng lúc thay đổi bộ nhớ, hệ thống dùng kiểm soát đồng thời lạc quan dựa trên content hash
- Hệ thống lưu lại lịch sử thay đổi, chủ thể tạo, phiên, thời điểm để quản lý bộ nhớ có thể kiểm toán trong môi trường doanh nghiệp
- Dreaming phân tích bất đồng bộ các phiên agent gần đây và transcript để tìm và sắp xếp các lỗi lặp lại, chiến lược thành công, bộ nhớ trùng lặp và bộ nhớ đã cũ
- Harvey áp dụng Dreaming vào benchmark pháp lý và tăng tỷ lệ hoàn thành công việc lên 6 lần trong một kịch bản pháp lý
- Trong demo SRE, Dreaming phát hiện mẫu retry 60 giây mà nhiều agent không nhận ra khi nhìn riêng lẻ, rồi phản ánh nó vào bộ nhớ
- Mục tiêu là một cấu trúc học liên tục nơi công việc của agent hôm nay tự động làm cho agent của ngày mai tốt hơn
- Ở quy mô GitHub Copilot, prompt caching là phương tiện cốt lõi để giảm chi phí và độ trễ
- Tỷ lệ cache hit mục tiêu là 94-96%, và mức 70% được xem là tín hiệu có vấn đề trong việc lắp ráp prompt hoặc thiết kế caching
- Phần đầu của system prompt và danh sách công cụ nên được giữ tĩnh nhiều nhất có thể
- Nếu UUID, thời điểm hay dynamic tool loading xuất hiện ở phần đầu, cache sẽ dễ bị vỡ
- Ngay cả trong harness đi qua nhiều mô hình, cũng cần giữ tính thân thiện với cache để các lệnh gọi Opus có thể tái sử dụng cache trước đó
- GitHub vận hành mô hình mới theo thứ tự benchmark offline, sử dụng nội bộ, A/B test, đánh giá trực tuyến (eval), tối ưu sau phát hành
- Chiến lược Advisor là dùng mô hình thực thi giá rẻ xử lý phần lớn công việc, và chỉ gọi Opus như một cố vấn khi cần phán đoán quan trọng
- Không phải bản thân mô hình mà là lớp vận hành gắn kết prompt, công cụ, cache, chọn mô hình, đánh giá, phản hồi trực tuyến mới quyết định chất lượng và chi phí
- Mã phụ trợ trước đây phải tự viết vào năm ngoái nay đang được tích hợp vào mô hình và API
- Trong việc dùng công cụ, giá trị của router thủ công hay retry decorator đang giảm dần
- Claude giờ có thể tự tìm công cụ, xem lệnh gọi công cụ thất bại, phục hồi rồi gọi lại
- Trong phần hướng dẫn công cụ, nên ghi không chỉ đầu vào mà cả schema đầu ra
- Khi biết trước cấu trúc đầu ra, Claude có thể tận dụng kết quả tốt hơn mà không cần các lượt gọi qua lại không cần thiết
- Hook công cụ trước/sau của Claude Code có thể dùng để chặn các lệnh gọi nhất định hoặc tự động ghi log và phân tích kết quả
- Ngữ cảnh 1 triệu token, nén phía máy chủ, chỉnh sửa ngữ cảnh giúp đơn giản hóa việc quản lý ngữ cảnh cho các tác vụ dài
- Có thể định kỳ xóa ảnh chụp màn hình cũ, kết quả tìm kiếm, kết quả đọc tệp, nhưng vẫn giữ lại những phán đoán được tạo ra từ các kết quả đó
- Opus 4.7 có thể trả về tọa độ pixel 1:1 từ ảnh chụp màn hình ở độ phân giải gốc lên tới 1440p, giúp giảm gánh nặng hiệu chỉnh tọa độ trong tự động hóa màn hình
- Mã dùng để bù đắp giới hạn của mô hình có vòng đời ngắn, còn mã kết nối công cụ, dữ liệu, xác thực, ngữ cảnh miền mà Claude không thể tự nhìn thấy sẽ tồn tại lâu hơn
- Claude Managed Agents gói thành một nền tảng các yếu tố cần thiết cho agent vận hành chạy dài hạn như quản lý ngữ cảnh, quản lý thông tin xác thực, bảo mật, kiểm soát truy cập, rà soát của con người, khả năng quan sát
- Cấu hình cơ bản gồm agent configuration, environment và session
- Có thể xem user event, agent event, session event và span event qua session events
- Console tập hợp trên một màn hình các mục thiết lập, môi trường, toàn bộ trace thực thi, điểm nghẽn, hành động được khuyến nghị
- outcomes là tính năng khiến Claude lặp lại cho đến khi thỏa mãn tiêu chí kết thúc và tiêu chí chấm điểm được xác định מראש
- Điều phối nhiều agent, bộ nhớ và Dreaming cũng được đề cập cùng nhau như các tính năng nâng cao
- Trong bản demo dashboard, agent đã tìm ra song song hóa, fast mode và tối ưu prompt để giảm thời gian render từ khoảng 37 giây xuống 10 giây
- Agent vận hành không chỉ cần vòng lặp gọi model mà còn phải có cả theo dõi, phân tích điểm nghẽn, quyền hạn, xác minh
- Anthropic đang thiếu tài nguyên tính toán do mức sử dụng và doanh thu tăng trưởng nhanh hơn dự kiến
- Công ty muốn đảm bảo năng lực tính toán bổ sung để cung cấp nhiều hơn cho nhà phát triển và người dùng
- Nhà phát triển được xem là người dùng cốt lõi của Claude, đồng thời là nhóm cho thấy sớm nhất cách AI lan rộng ra toàn bộ nền kinh tế
- Thay đổi tiếp theo của Claude Code là chuyển từ năng suất cá nhân sang năng suất của nhóm và tổ chức
- Khi tốc độ viết mã tăng lên, bảo mật, xác minh, độ tin cậy, khả năng bảo trì trở thành những điểm nghẽn mới
- Khi năng lực model thay đổi nhanh chóng, những sản phẩm còn bất khả thi vài tháng trước bỗng trở nên khả thi
- Thị trường API sẽ tiếp tục quan trọng
- Claude trong tương lai sẽ vượt qua mức hỗ trợ công việc của một cá nhân để hướng tới mở rộng công việc của nhiều người và nhiều agent trong toàn tổ chức
- Robobun của Bun tự động tái hiện GitHub issue và tạo PR kèm theo test
- Điều kiện thất bại ở phiên bản trước và vượt qua ở nhánh sửa lỗi được dùng làm tiêu chí nộp PR
CLAUDE.md trở thành tài liệu vận hành agent, chứa lệnh build, lệnh test, vị trí test, mẫu lỗi trong quá khứ, cấu trúc thư mục và cách đọc log CI
- Dùng cùng CodeRabbit, Claude Code Review và Robobun để tự động hóa việc kiểm tra style, tuân thủ
CLAUDE.md và rà soát các điều kiện biên ngoài diff
- Claude Code và Opus 4.7 phù hợp với các công việc nâng hiệu năng dần dần khi mục tiêu, cách đo lường và vòng lặp xác minh được xác định rõ
- Điểm nghẽn chuyển từ viết mã sang lập kế hoạch và xác minh
- PR do agent tạo ra không nhất thiết là kết quả phải được merge, mà có thể được xem như đề xuất để rà soát
- Ngay cả khi PR từ agent tăng lên, tiêu chuẩn merge của con người không giảm mà còn có thể cao hơn
- AI teammates của Asana hướng tới các agent làm việc như đồng nghiệp thực sự trong doanh nghiệp
- Agent trở thành actor để cùng con người xử lý phê duyệt, workflow và các tác vụ nhiều bước
- Việc sử dụng agent ở nhiều doanh nghiệp hiện vẫn dừng ở luồng một người dùng, nơi một người nhận kết quả rồi chuyển cho người tiếp theo
- Asana hướng tới luồng cộng tác nơi nhiều người cùng tương tác với một agent, còn tri thức và bộ nhớ thì được tích lũy
- Asana work graph kết nối mục tiêu, portfolio, project, task, approval và các quyết định trước đó để dùng làm ngữ cảnh cho agent
- AI teammate đi vào hệ thống như một đồng nghiệp con người với cấu hình dùng chung, kiểm soát truy cập dựa trên vai trò, khả năng kiểm toán
- Claude Managed Agents xử lý các tác vụ nhiều bước như soạn thảo kế hoạch chiến dịch và tạo mockup landing page HTML
- Asana tập trung vào giao diện cho con người, ngữ cảnh doanh nghiệp, bảo mật và khả năng kiểm toán, còn Claude Managed Agents đảm nhiệm vòng lặp xác minh, grader, outcomes và thực thi nhiều agent
- Hơn 21 AI teammates dựng sẵn được cung cấp cho các công việc PMO, marketing, IT, HR và R&D
- Phản hồi được lưu vào bộ nhớ của agent để người dùng tiếp theo không lặp lại cùng một sai sót
- Trong một tổ chức kỹ thuật AI-native, thông lượng viết mã không còn là điểm nghẽn đắt đỏ nhất
- Xác minh, review, bảo mật, bảo trì, điều phối liên chức năng trở thành những điểm nghẽn mới lớn hơn
- So với lộ trình 6 tháng hay tài liệu thiết kế cho toàn bộ công việc từ trước, luồng lập kế hoạch đúng thời điểm và tạo prototype nhanh phù hợp hơn với đội Claude Code
- Tranh luận kỹ thuật chuyển từ các buổi thảo luận dài trước bảng trắng sang tạo nhiều PR triển khai để so sánh tác động thực tế và hình dạng API
- Khi việc sinh mã trở nên dễ dàng hơn, test, tự động hóa và xác minh sớm càng quan trọng hơn
- Quan trọng hơn câu hỏi “ai đã viết đoạn mã này” là phân biệt nguyên nhân hồi quy, việc có cần chuyên gia trả lời hay không và mục đích thu thập ngữ cảnh
- Đội Claude Code giao cho Claude xử lý style, lint, phản hồi PR, một phần sửa lỗi và thêm test
- Rà soát pháp lý, mã nhạy cảm về bảo mật, ranh giới tin cậy, cảm quan sản phẩm vẫn tiếp tục do chuyên gia con người đảm nhiệm
- Trong tuyển dụng, họ coi trọng hơn builder sáng tạo có cảm quan sản phẩm và chuyên môn hệ thống sâu thay vì chỉ thông lượng đơn thuần
- Chỉ số thành công có thể được nhìn qua thời gian onboarding rút ngắn, chu kỳ PR rút ngắn, số commit được Claude hỗ trợ tăng lên
- Gamma nhanh chóng phản ánh vào sản phẩm các cải tiến về gọi công cụ và điều phối agent để tăng cường luồng biên tập dựa trên agent
- Gamma sử dụng MCP connector không chỉ như tính năng tích hợp mà còn như kênh thu hút khách hàng và điểm vào quy trình công việc
- Cognition giảm bớt một số hệ thống lập kế hoạch và bộ nhớ tự xây khi model trở nên giỏi hơn trong chỉnh sửa mã, sử dụng file system và lập kế hoạch chạy dài hạn
- Harvey thiết kế lại cấu trúc sản phẩm tại mỗi bước ngoặt của foundation model, reasoning model và coding agent
- Năng lực nền tảng hiện tại của Harvey khó có thể đạt được nếu không có cấu trúc agent-native
- Các sản phẩm AI-native phải giả định rằng cấu trúc hiện tại có thể lỗi thời trong vòng 6-12 tháng
- Ghi nhận, khả năng quan sát, phát lại, đánh giá trở thành các cơ chế thiết yếu để ứng phó với thay đổi cấu trúc nhanh
- Trong các lĩnh vực nhạy cảm như pháp lý, cần có ranh giới dữ liệu vững chắc giữa dữ liệu công khai, dữ liệu riêng tư, bộ nhớ và luồng agent
- Điều quan trọng hơn là cấu trúc có thể nhanh chóng hấp thụ bước nhảy năng lực tiếp theo, thay vì cấu trúc được tối ưu cho giới hạn của một model cụ thể
- Vercel xem hạ tầng tác nhân là hướng đi cốt lõi
- Đám mây có thể mở rộng thành một dạng hạ tầng tự phục hồi, tự tối ưu hóa và tự thay đổi cấu hình
- AI Gateway được xem như CDN cho token
- Nó trở thành một lớp xử lý nhiều nhà cung cấp và mô hình, đảm nhận định tuyến, ứng phó sự cố và kiểm soát chi phí
- Token Opus chiếm tỷ trọng chi tiêu lớn hơn rất nhiều so với tỷ trọng mức sử dụng, nên khi đưa mô hình trí tuệ cao vào sản phẩm cần nhìn rõ cấu trúc chi phí
- Sau khi đưa vào Opus 4.5, V0 có thể đơn giản hóa kiểm tra cú pháp, tự động sửa lỗi và một số quy trình xử lý vốn dùng để hiệu chỉnh mô hình trước đó
- Bước nhảy vọt về năng lực mô hình không chỉ dẫn tới việc bổ sung tính năng mới mà còn kéo theo thay đổi là loại bỏ mã hiệu chỉnh hiện có
- Sau khi mở rộng việc dùng Opus trong V0, chi tiêu credit sản phẩm tăng gấp đôi
- Trong tương lai, không chỉ phát triển dựa trên CLI và UI mà cả các tác nhân bất đồng bộ với ít giám sát của con người hơn cũng có thể phát triển mạnh hơn
- Test-time compute là một trục mà Claude dùng nhiều token và thời gian hơn trong lúc suy luận để giải các bài toán khó
- Cùng là Opus 4.7 nhưng chất lượng mô phỏng giao thông thay đổi rất lớn tùy theo mức effort low, high, max
- Càng dùng nhiều thời gian và token, đồ họa, luồng giao thông và chuyển động xe càng trở nên chân thực hơn
- Token mà Claude sử dụng được chia thành token suy nghĩ, token gọi công cụ và token văn bản
- Token suy nghĩ dùng cho suy luận nội bộ, token gọi công cụ dùng để tương tác với thế giới bên ngoài, còn token văn bản dùng để giao tiếp với người dùng
- effort là cơ chế điều chỉnh thể hiện sự cân bằng giữa thời gian, chi phí và chất lượng
- Task Budgets cho phép đặt trần về token, thời gian và chi phí mà Claude có thể dùng cho một tác vụ cụ thể
- Adaptive thinking cho phép Claude tự do chọn thứ tự suy nghĩ khi cần, dùng công cụ và trả lời người dùng
- Trong coding và các use case agentic, extra high được xem là giá trị mặc định tốt
- Với các tác vụ phân loại hoặc trích xuất đơn giản ở quy mô lớn, mô hình nhỏ có lợi thế hơn; còn để hoàn thành nhanh các tác vụ cần trí tuệ, mô hình lớn với effort thấp có thể tốt hơn
- Khoảng 90% kỹ sư của Datadog sử dụng công cụ lập trình AI cho mã đang vận hành
- Trong số đó, ít nhất 2/3 dùng Claude Code
- Phạm vi sử dụng công cụ lập trình AI đang mở rộng từ các hàm riêng lẻ, bài kiểm thử và mã kết nối sang công việc ở cấp độ hệ thống
- Nút thắt cổ chai đã chuyển từ việc viết mã sang vòng lặp phản hồi và xác minh vận hành
- Trong thử nghiệm Helix, Claude Code có thể tạo ra một dịch vụ streaming tương tự Kafka chỉ trong vài ngày
- Để đưa vào môi trường vận hành, cần có shadowing, các bậc thang xác minh và mileage hệ thống
- Tempor khiến tác nhân không tạo công cụ ứng biến ngay lập tức mà trước tiên phải tạo ra một bản thiết kế chứa trạng thái, chuyển trạng thái, hiệu ứng và bất biến
- Bảng chuyển trạng thái, câu lệnh chính sách, hiệu ứng có kiểu, bộ xác minh và kiểm thử thuộc tính giúp phần mềm do tác nhân tạo ra trở nên có thể kiểm tra được
- Muốn trao tự do cho agent thì phải biến các bất biến và quy trình xác minh của hệ thống vận hành thành thứ máy có thể đọc được
- Cách dễ nhất để thiết lập Claude Code trên Google Cloud là dùng trình hướng dẫn cấu hình dựa trên Application Default Credentials
- Trình hướng dẫn cấu hình có thể phát hiện và cố định project, region và model khả dụng
- Khi dùng model Claude trên Google Cloud, có thể tận dụng tính phí theo token, provisioned throughput, giảm gánh nặng xoay vòng API key, áp dụng chính sách project, giữ dữ liệu trong project, endpoint theo khu vực/toàn cầu
- Bản demo được trình bày theo luồng năm vai trò gồm PM, UI/UX designer, software engineer, security engineer và data/growth marketer cùng xây dựng hoàn chỉnh một ứng dụng phản hồi
- PM đưa wireframe vẽ tay vào Claude Code để tạo nguyên mẫu nhanh
- Ở bước UI/UX, plan mode được dùng để Claude đưa ra kế hoạch trước khi triển khai
- Google Cloud developer knowledge API và MCP server kết nối tài liệu mới nhất và hướng dẫn kiến trúc với Claude Code
- Google Cloud Skills được dùng để hỗ trợ triển khai các khối riêng lẻ như triển khai API lên Cloud Run, kết nối Cloud Run với Firestore
- Dùng sub-agent để triển khai song song API, pipeline thu thập và dashboard
- Security review prompt kiểm tra các vấn đề OWASP hoặc quyền của service account, sửa các vấn đề được phát hiện rồi triển khai lên Cloud Run
- Ưu tiên tối ưu hóa tác nhân cho môi trường vận hành là prompt caching, context engineering và chiến lược Advisor
- Prompt caching giúp giảm chi phí token đầu vào, rút ngắn thời gian đến token đầu tiên và giảm gánh nặng hạn mức sử dụng của token được cache
- Tỷ lệ cache hit ở mức 90%+ được xem là mục tiêu
- Độ ổn định của phần đầu prompt, vị trí định nghĩa công cụ và vị trí chèn giá trị động đều ảnh hưởng tới cache
- Tool search tool chỉ tải các định nghĩa công cụ cần thiết đúng lúc để tiết kiệm ngữ cảnh
- Nếu đưa toàn bộ công cụ vào ngay từ đầu thì cả ngữ cảnh lẫn cache đều bị đội gánh nặng
- Programmatic tool calling không đưa nguyên vẹn quá nhiều kết quả công cụ vào mà chỉ chọn những mảnh cần thiết để đưa vào ngữ cảnh
- Compaction giúp rút gọn các cuộc hội thoại cũ và kết quả công cụ để tiếp tục các công việc dài
- Chiến lược Advisor là để Sonnet hoặc Haiku xử lý phần lớn công việc, và chỉ gọi Opus làm cố vấn khi cần phán đoán quan trọng
- Cốt lõi không phải là gọi mô hình nhiều hơn, mà là thiết kế để mô hình làm việc với loại ngữ cảnh, công cụ và cấu trúc cache nào
- Người dùng Replit Agent kỳ vọng có thể tạo ra ứng dụng hoạt động chỉ bằng ngôn ngữ tự nhiên mà không cần chỉ định framework hay bài kiểm thử
- Khó đo chất lượng của Replit Agent nếu chỉ nhìn như benchmark lập trình thông thường, tức chỉ xem bản vá có vượt qua bài kiểm thử hay không
- Việc đánh giá phải xem ứng dụng có hoạt động đúng như người dùng yêu cầu hay không
- Replit dùng kết hợp đánh giá offline và đánh giá online
- Đánh giá offline đóng vai trò cổng kiểm tra trước khi phát hành agent mới, còn đánh giá online được dùng để phản ứng nhanh sau khi sử dụng thực tế
- VibeBench là benchmark công khai trong đó 20 PRD thực tế được đưa vào để tạo ứng dụng từ kho lưu trữ trống, rồi bộ đánh giá tự động kiểm thử ứng dụng trong trình duyệt
- Phần lớn mô hình gặp khó khăn hơn khi mở rộng tiếp chính đoạn mã do chính chúng tạo ra
- Cần đặt các bước kiểm thử và xác minh giữa các tính năng để giảm việc tiếp tục chồng chất lên một nền tảng thiếu ổn định
- Telescope là hệ thống nội bộ dùng để gom các dấu vết thực thi trong vận hành theo ngữ nghĩa nhằm tìm lỗi ở phần đuôi dài, phân loại vấn đề, để agent tạo PR, rồi xác minh bằng VibeBench hoặc kiểm thử A/B
- Đánh giá không còn là danh sách kiểm tra cuối cùng trước khi phát hành mà trở thành động cơ cải thiện agent mỗi ngày
- Người dùng Claude Code triển khai nhanh hơn với mức độ tin tưởng cao hơn so với năm ngoái
- Trong phần công bố, cuộc bình chọn của người tham dự cho thấy nhiều người cảm nhận Claude giúp tăng tốc 10 lần, 5 lần, 2 lần
- Trên SWE-bench Verified, Sonnet 3.7 đạt khoảng 62%, còn Opus 4.7 đạt 87%
- Opus 4.7 có khả năng xử lý thành công các PR khó mà Sonnet 3.7 từng thất bại cao hơn hơn 3 lần
- Trong demo tái tạo Claude.ai bằng cùng một prompt, các model trước đó tạo ra UI chat thông thường và phát sinh lỗi, còn Opus 4.7 triển khai màu sắc của Claude, phản hồi API, lịch sử chat, đồ họa nội tuyến và dark mode
- Các lĩnh vực được cải thiện gồm lập kế hoạch, khôi phục lỗi, duy trì sự chú ý trong các lần chạy dài
- Model mới sẽ lập kế hoạch trước, quay lại khi thất bại và giữ system prompt cùng mục tiêu tốt hơn ngay cả trong ngữ cảnh dài
- Cần tạo ra các bài đánh giá có phân bố gần với sản phẩm thì mới có thể thấy được cải thiện thực tế
- Model càng tốt thì các bài đánh giá hiện có càng dễ bão hòa, vì vậy bài đánh giá cũng cần tiếp tục khó hơn
- Khi có frontier model mới xuất hiện, cần thử giảm lại các quy trình hiệu chỉnh và prompt hiện có
- Cursor cho rằng nút thắt cổ chai không nằm ở trí tuệ của model, mà ở việc con người không thể cung cấp cho model đủ công cụ, ngữ cảnh và mục tiêu lớn
- Cũng như khi onboarding lập trình viên, agent cũng cần được cấp máy tính, môi trường phát triển và tài liệu
- Onboarding agent của Cursor khám phá repository và xác định cách chạy ứng dụng, các dịch vụ, biến môi trường và quyền hạn
- AnyDev CLI là công cụ giúp agent khởi động dịch vụ, chờ trạng thái sẵn sàng, kiểm tra trạng thái, đồng thời xử lý cả việc tạo tài khoản test hoặc đăng nhập
- Môi trường phát triển cho agent càng tốt thì lập trình viên càng chạy nhiều cloud agent hơn và giao các tác vụ lớn hơn
- Nguyên tắc cơ bản của tính tự chủ là cung cấp cho agent đôi mắt, công cụ và ngữ cảnh tốt
- Agent cần có khả năng nhìn thấy trạng thái ứng dụng, cuộc trò chuyện của các agent khác và trạng thái dịch vụ như con người
- Cursor xem computer use là một thành phần nền tảng quan trọng tiếp theo sau coding
- Claude 4.7 cho phép agent tự ghi lại demo end-to-end để kiểm chứng tính năng, đồng thời giúp con người nhanh chóng hiểu kết quả trước khi review code
- Cursor xem agent experience là một đối tượng thiết kế riêng, và nếu agent gặp luồng xử lý gây khó chịu, bị hỏng hoặc gây bối rối thì sẽ để lại issue
work on the factory
- Mục tiêu cuối cùng không phải là để con người dẫn dắt thủ công từ A đến D, mà là tạo ra một hệ thống có thể giải quyết từ A đến Z
Chưa có bình luận nào.