Tương lai của nghiên cứu AI: từ công thức đến meal kit
(open.substack.com)Tóm tắt chính (TL;DR)
-
Bùng nổ bài báo AI = tiến bộ + đồng thời là ‘Noise Tax’
- Số bài báo AI mỗi năm từ 2013 → 2023: ~102.000 → ~242.000
- Tỷ trọng AI trong các bài báo CS cùng giai đoạn: 21,6% → 41,8%
-
Càng nhiều bài báo, chi phí sàng lọc/tái hiện/vận hành càng bùng nổ
- Đọc nhiều hơn nhưng sản phẩm lại kém ổn định hơn
- Càng chạy theo SOTA thì tính tái lập và khả năng vận hành càng giảm
-
Khi đưa bài báo vào production, 4 chế độ thất bại gần như luôn xuất hiện
-
Vì vậy, tín hiệu của năm 2026 rất đơn giản:
DIY (tự hiện thực công thức) ↓ / Packaging (meal kit) ↑- Thay vì “đọc bài báo rồi tự làm”, đơn vị có thể triển khai ngay sẽ chiến thắng
- Các kiểu đóng gói như NVIDIA NIM / SLM / Ollama đang tạo ra xu hướng tiêu chuẩn hóa
Định nghĩa vấn đề: bài báo AI là ‘công thức Michelin’
Tác giả ví các bài báo nghiên cứu AI như công thức của đầu bếp Michelin.
Bản thân công thức không có gì sai. Chỉ là bếp của chúng ta khác nhau.
Bài báo được nấu trong một căn bếp hoàn hảo.
- Cụm H100
- Bộ dữ liệu đã được làm sạch kỹ càng
- Những mẹo ẩn được tối ưu hóa cho môi trường thí nghiệm
Nhưng khi công thức ấy được đưa xuống hiện trường (on-prem/legacy/compliance/vận hành), cùng một hiện tượng lại lặp lại.
Từ bài báo đến production: 4 chế độ thất bại
1) Broken Utensils (hạ tầng)
-
Kết quả trong bài báo thường dựa trên hàng nghìn H100
-
Còn thực tế là GPU nhỏ / VRAM hạn chế / mạng bị ràng buộc
-
Vấn đề không phải là “hiệu năng giảm đi một chút”
→ mà là hiện tượng đó hoàn toàn không xuất hiện -
Triệu chứng thường gặp:
- “Vẫn chạy được, nhưng không có hành vi như kỳ vọng”
- Pipeline hoàn tất nhưng promised behavior thì không xuất hiện
2) Spoiled Ingredients (dữ liệu)
-
Bài báo giả định dữ liệu đã được tinh lọc
-
Dữ liệu thực tế thì gồm:
- log, PDF scan, tài liệu legacy, schema thay đổi, nguồn gốc không rõ ràng
-
RAG/suy luận sẽ lập tức trượt sang ảo giác nếu cấu trúc/căn cứ/tính nhất quán bị phá vỡ
-
Điều nguy hiểm hơn là:
- Nó trôi chảy, nên càng dễ bị tin
- Kiểu “trông có vẻ đúng nhưng thực ra sai” là thứ đắt giá nhất
3) Missing Salt (chi tiết kỹ thuật)
-
Phần “Season to taste” mới là đoạn lớn nhất
-
Điểm quyết định ngoài thực tế là:
- khởi tạo / scheduler / tinh chỉnh ở mức 0.001 / prompt template
-
Những thứ này không thể nhét hết vào 8 trang bài báo
-
Và thực chiến rốt cuộc được quyết định ở đây:
- Không phải công thức mà là gia vị bí mật (điều kiện tái lập) quyết định kết quả
4) Responsibility Gap (trách nhiệm)
-
Khi thất bại, kết luận thường là:
- “Toán học thì đúng. Vấn đề là môi trường của bạn”
-
Trách nhiệm của khoảng trống đó bị đẩy xuống downstream
→ và cuối cùng người đọc bài báo rồi đề xuất áp dụng là người lãnh đòn. -
Khi có sự cố/kiểm toán, nó sẽ thành “hệ thống do chúng ta làm ra”
2 giới hạn mang tính cấu trúc: vì sao người ta từ bỏ DIY
A) Bùng nổ bài báo = Noise Tax
Càng nhiều bài báo thì chi phí sàng lọc càng bùng nổ.
- Đọc nhiều hơn nhưng sản phẩm lại kém ổn định hơn
- Càng chạy theo SOTA thì khả năng vận hành càng đi xuống
- Đây không phải “sự phong phú tri thức” mà là “chi phí lựa chọn”
B) Hướng dịch chuyển của vốn: từ ‘bài báo’ → ‘vận hành’
Tiền đang dịch chuyển từ “công thức mới” sang gói có thể vận hành được.
Câu hỏi đầu tư đã thay đổi.
- Là demo, hay là vận hành thật?
- Có đáp ứng được chi phí/độ trễ/khả năng quan sát/kiểm toán không?
Rủi ro vận hành thường quy về 3 loại sau:
- Rủi ro chi phí: PoC thì chạy được nhưng vận hành thật thì bùng nổ
- Rủi ro độ tin cậy: nếu căn cứ/nguồn bị hỏng thì câu trả lời dù nghe hợp lý vẫn nguy hiểm
- Rủi ro trách nhiệm: khi có sự cố hay kiểm toán thì trách nhiệm thuộc về chúng ta
Tín hiệu mạnh nhất của 2026: Packaging
AI Meal Kit = đơn vị triển khai sẵn + có ranh giới trách nhiệm khi thất bại
Nói cách khác, kết luận cho năm 2026 là:
> Packaging beats ingenuity.
4 tín hiệu thị trường
Signal #1) NVIDIA NIMs
- Cấu hình model/phụ thuộc/tối ưu hóa được cố định trong container
- Giảm việc phải đoán mò toolchain
- Gia vị bí mật đã được đóng gói sẵn bên trong
- Thông điệp: “Tune less. Run more.”
Signal #2) SLMs
- Các “công thức phù hợp với căn bếp” ngày càng nhiều hơn
- Khả năng vận hành local/edge tăng lên
- Hướng đi là: bounded / predictable / cheaper to operate
Signal #3) AI in a Box
- Máy chủ không còn được bán như “linh kiện” mà như “thành phẩm”
- Bao gồm RAG/bảo mật/cấu hình cơ bản
- Tác động: xuất hiện ranh giới rõ ràng về việc ai chịu trách nhiệm cho khoảng trống đó
Signal #4) Ollama / LM Studio
- Độ khó cấu hình môi trường giảm mạnh
- Số người vận hành tăng lên
- Khi số người vận hành tăng, thị trường luôn diễn ra như sau: tiêu chuẩn hóa tăng tốc
Góc nhìn thực tiễn: các chỉ số cần xem ngay
- Compute Fit: Hiệu năng mục tiêu có tái hiện được trên “GPU/VRAM của chúng ta” không?
- Data Fit: Dữ liệu đầu vào có giữ được “cấu trúc/căn cứ/nguồn gốc” không?
- Hidden Salt: Script/prompt/giá trị tuning cần cho tái lập có được khóa phiên bản không?
- Owner: Khi thất bại thì bề mặt trách nhiệm nằm ở đâu? (chúng ta? vendor? package?)
- Ops: Khả năng quan sát (log/metric), rollback, trần chi phí, kiểm toán có được thiết kế sẵn không?
Kết luận
Năm 2026, thay vì “model thông minh hơn”,
“đơn vị triển khai ít phát nổ hơn” mới là bên chiến thắng.
Bài báo vẫn sẽ tiếp tục xuất hiện, nhưng thị trường mua trí tuệ đã được đóng gói.
Các đội ngũ cũng phải chọn.
- Tiếp tục tự hiện thực công thức
- Hay đóng gói/vận hành ở cấp độ meal kit
One-liner
> “Bài báo bán ý tưởng, còn thị trường mua vận hành.”
2 bình luận
Nhưng trong kinh doanh, vốn dĩ đã từng có những trường hợp người ta đọc bài báo khoa học rồi tự triển khai để dùng trực tiếp chưa..?
Có chứ. Nhưng phần lớn là thay vì đọc paper rồi làm từ con số 0, nhiều trường hợp thường dựa vào các bản triển khai tham chiếu mã nguồn mở.
Dạo này bên AI, cứ có paper hot là hàng loạt POC cũng được đăng lên, nhưng khi đưa vào production thì vì dữ liệu/hạ tầng/tuning mà nhiều lúc “chạy thì vẫn chạy, nhưng không ra đúng cái vị như kỳ vọng”.
Vì thế gần đây có cảm giác mọi người đang đổ dồn về các stack được đóng gói sẵn như vLLM, Ollama.