- Phần lớn các công ty xây dựng sản phẩm AI vẫn mắc kẹt ở giai đoạn thử nghiệm và thiếu các hệ thống, công cụ đáng tin cậy
- Trường hợp của chúng tôi
- Đầu năm nay, chúng tôi đã cập nhật mô hình LLM từ
gpt-4o-2024-08-06 lên gpt-4o-2024-11-20
- Tỷ lệ vượt qua các bài kiểm tra prompt cốt lõi giảm từ 100% xuống 79%
- Trong khi đó, Sonnet 3.5 của Anthropic lại cho tỷ lệ vượt qua 95%
- Nhiều công ty AI nói quá dễ dàng về việc chuyển đổi giữa các nhà cung cấp
- Việc này không chỉ đơn thuần là phải kiểm thử AI
- Xây dựng hạ tầng kiểm thử để đo hiệu năng mô hình và định lượng tác động của việc thay đổi mô hình không hề đơn giản
- Những gì chúng tôi đã xây dựng để định lượng
- Ít nhất hơn 30 kịch bản kiểm thử riêng biệt
- Mã so sánh đầu ra kỳ vọng với đầu ra thực tế của prompt
- Chính test runner
- Chiến lược để chạy kiểm thử trong CI với chi phí hợp lý
- Cái bẫy AI MVP mà hầu hết các nhóm đều rơi vào
- Giai đoạn 1. MVP đánh lừa: một bản demo trông như được hoàn thành chỉ trong vài ngày xuất hiện. Nhưng rồi nhanh chóng mắc các lỗi cơ bản
- Giai đoạn 2. ±0: cố gắng cải thiện nó, nhưng mọi thứ chỉ ngày càng phức tạp hơn và trở nên khó dự đoán. 90% công ty đang ở giai đoạn này
- Giai đoạn 3. Khoa học: đến lúc này, họ nhận ra cần có các bài kiểm tra đánh giá, công cụ observability, v.v. và bắt đầu xây dựng chúng
- Giai đoạn 4. Thực sự hoạt động: cuối cùng cũng có giám sát liên tục, bộ kiểm tra đánh giá toàn diện và công cụ phân tích nhanh
- Tất cả những điều này đều không dễ, không đơn giản, mà rất khó khăn
- Nhiều công ty mắc kẹt ở giai đoạn MVP hỗn loạn và thậm chí còn không hiểu tính năng AI họ đã phát hành đang hoạt động ra sao
- Việc bán sản phẩm AI bằng cách nói rằng "thứ cần thiết chỉ là X" là đã đơn giản hóa thực tế quá mức
- Nếu ai đó nói họ đang xây dựng chiến lược AI đa nhà cung cấp, hãy hỏi họ đo lường và đánh giá bằng cách nào
Chưa có bình luận nào.