28 điểm bởi xguru 2024-01-29 | 6 bình luận | Chia sẻ qua WhatsApp

Định nghĩa ngăn xếp AI hiện đại

  • Tầng 1: Tính toán và mô hình nền tảng - bao gồm chính các mô hình nền tảng và hạ tầng để huấn luyện, tinh chỉnh, tối ưu hóa và triển khai mô hình
  • Tầng 2: Dữ liệu - bao gồm hạ tầng kết nối LLM với ngữ cảnh phù hợp trong hệ thống dữ liệu doanh nghiệp, cùng các thành phần cốt lõi như tiền xử lý dữ liệu, ETL và pipeline dữ liệu, cơ sở dữ liệu vector, kho metadata, bộ nhớ đệm ngữ cảnh, v.v.
  • Tầng 3: Triển khai - bao gồm các công cụ giúp nhà phát triển quản lý và điều phối ứng dụng AI, như framework agent, quản lý prompt, định tuyến mô hình và điều phối
  • Tầng 4: Khả năng quan sát - bao gồm các giải pháp giám sát hành vi thời gian chạy của LLM và bảo vệ chúng trước các mối đe dọa

Đường cong trưởng thành AI mới

  • Cấu trúc thị trường và công nghệ định hình ngăn xếp AI hiện đại đang tiến hóa rất nhanh, và các thành phần chủ chốt cùng những bên dẫn đầu đã bắt đầu xuất hiện
  • Trước thời kỳ LLM, phát triển ML mang tính tuyến tính và “lấy mô hình làm trung tâm”, nhưng LLM đã chuyển sang cách tiếp cận “lấy sản phẩm làm trung tâm”, cho phép cả những đội không có chuyên môn ML cũng có thể tích hợp AI vào sản phẩm
  • Khi ngăn xếp AI trưởng thành hơn, các nhóm phát triển tìm cách tùy biến trải nghiệm AI bằng dữ liệu đặc thù của doanh nghiệp hoặc khách hàng
  • Đường cong trưởng thành AI
    • Giai đoạn 1: Closed-source models only chỉ dùng mô hình đóng
      • Vào đầu năm 2023, chi phí và nỗ lực kỹ thuật chủ yếu tập trung vào chính mô hình nền tảng, với chỉ một số tùy biến đơn giản phía trên nó (prompt engineering / few-shot learning, v.v.)
      • Các nhà cung cấp mô hình nguồn đóng lớn như OpenAI và Anthropic đã giành được lực kéo ban đầu ở giai đoạn này và khẳng định vị thế là những người chiến thắng đầu tiên của ngăn xếp AI hiện đại
    • Giai đoạn 2: Retrieval-augmented generation sinh nội dung tăng cường truy xuất
      • Trọng tâm được chuyển sang tầng dữ liệu thay vì tầng mô hình, trở thành trung tâm của nỗ lực xây dựng ứng dụng AI
      • Đặc biệt, sự phổ biến của RAG đòi hỏi hạ tầng tầng dữ liệu mạnh hơn như cơ sở dữ liệu vector Pinecone và công cụ tiền xử lý dữ liệu Unstructured
      • Phần lớn doanh nghiệp và startup hiện đang ở giai đoạn này
    • Giai đoạn 3: Hybrid model deployment triển khai mô hình lai
      • Các công ty dẫn đầu như Typeface và Descript đã bắt đầu dùng mã nguồn mở để bổ sung cho mô hình nguồn đóng trong các tác vụ miền lớn, chuyên biệt
      • Các nhà cung cấp triển khai mô hình như Modal, Baseten và Fireworks cũng bắt đầu đạt được lực kéo đáng kể
    • Giai đoạn 4 trở đi: Custom models mô hình tùy chỉnh
      • Hiện vẫn có rất ít công ty đủ trưởng thành hoặc thực sự cần tự xây dựng mô hình riêng, nhưng trong tương lai sẽ có thêm nhiều trường hợp sử dụng từ các doanh nghiệp lớn muốn khai thác stack ở mức sâu hơn
      • Các công ty như Predibase và Lamini, cung cấp công cụ cho tinh chỉnh tiết kiệm bộ nhớ (bao gồm lượng tử hóa 4-bit, QLoRA, memory paging/offload), sẽ hỗ trợ xu hướng này

Bốn nguyên tắc thiết kế chính cho ngăn xếp hạ tầng AI mới

  • Cuộc cách mạng AI không chỉ tạo ra nhu cầu cho một ngăn xếp hạ tầng mới mà còn tái định hình cách doanh nghiệp tiếp cận phát triển ứng dụng, chi tiêu R&D và tổ chức đội ngũ
  • Các nguyên tắc thiết kế chính:
    • 1. Phần lớn chi tiêu được dùng cho suy luận và huấn luyện
      • Trong giai đoạn đầu của cuộc cách mạng LLM, có vẻ như mọi công ty rồi sẽ có thể huấn luyện mô hình ngôn ngữ lớn của riêng mình
      • Những mô hình như BloombergGPT được công bố vào tháng 3/2023 (LLM 50b được huấn luyện đặc biệt trên dữ liệu tài chính) từng được xem là dấu hiệu báo trước cho làn sóng bùng nổ của các LLM theo doanh nghiệp và theo miền
      • Nhưng làn sóng đó đã không xảy ra
      • Theo khảo sát AI doanh nghiệp gần đây của Menlo Ventures, gần 95% tổng chi tiêu cho AI đang được dùng cho runtime và tiền huấn luyện
      • Tỷ lệ này chỉ bị đảo ngược ở các nhà cung cấp mô hình nền tảng lớn như Anthropic. Ở lớp ứng dụng, ngay cả những bên xây dựng AI tinh vi như Writer cũng dành hơn 80% năng lực tính toán cho suy luận thay vì huấn luyện
    • 2. Chúng ta đang sống trong một thế giới đa mô hình (Multi-Model)
      • Không có một mô hình đơn lẻ nào có thể “thống trị tất cả”
      • 60% doanh nghiệp đang sử dụng nhiều mô hình và định tuyến prompt đến mô hình có hiệu năng tốt nhất
      • Cách tiếp cận đa mô hình giúp loại bỏ phụ thuộc vào một mô hình duy nhất, tăng khả năng kiểm soát và giảm chi phí
    • 3. RAG là cách tiếp cận kiến trúc thống trị
      • LLM là cỗ máy suy luận xuất sắc, nhưng vẫn bị hạn chế về tri thức theo miền và theo doanh nghiệp
      • Để tạo ra trải nghiệm AI hữu ích, các nhóm đang nhanh chóng triển khai các kỹ thuật tăng cường tri thức, bắt đầu từ retrieval-augmented generation (RAG)
      • RAG mang lại “bộ nhớ” đặc thù doanh nghiệp cho mô hình nền tảng thông qua các cơ sở dữ liệu vector như Pinecone
      • Kỹ thuật này hiện vượt xa các phương pháp tùy biến khác đang dùng trong production như fine-tuning, low-rank adaptation hay adapter, vốn chủ yếu hoạt động ở tầng mô hình chứ không phải tầng dữ liệu
      • Xu hướng này sẽ còn tiếp diễn, và các phần mới của mặt phẳng dữ liệu, bao gồm công cụ tiền xử lý dữ liệu (ví dụ: Cleanlab) và pipeline ETL (ví dụ: Unstructured), được kỳ vọng sẽ được tích hợp vào kiến trúc runtime
    • 4. Mọi nhà phát triển giờ đều là nhà phát triển AI
      • Trên toàn cầu có 30 triệu lập trình viên, nhưng chỉ có 300 nghìn kỹ sư ML và 30 nghìn nhà nghiên cứu ML
      • Trong số những người đang thúc đẩy đổi mới ở tuyến đầu của ML, ước tính trên toàn thế giới chỉ có khoảng 50 nhà nghiên cứu biết cách xây dựng các hệ thống ở cấp độ GPT-4 hoặc Claude 2
      • Trước thực tế đó, tin tốt là những công việc từng đòi hỏi nhiều năm nghiên cứu nền tảng và chuyên môn ML tinh vi giờ đây có thể được hoàn thành trong vài ngày hoặc vài tuần bởi các lập trình viên phổ thông, miễn là họ có thể thiết kế hệ thống dữ liệu dựa trên các LLM đã được tiền huấn luyện mạnh mẽ
      • Những sản phẩm như Einstein GPT của Salesforce (AI CoPilot cho Sales) và Intuit Assist (trợ lý tài chính dựa trên Generative AI) chủ yếu được xây dựng bởi các đội tinh gọn gồm các kỹ sư AI — tức các kỹ sư full-stack truyền thống làm việc trên mặt phẳng dữ liệu của ngăn xếp AI hiện đại

Bước tiếp theo

  • Ngăn xếp AI hiện đại đang tiến hóa rất nhanh, và có một số phát triển được dự báo sẽ tiếp tục trong năm nay
  • Các ứng dụng AI thế hệ tiếp theo đang thử nghiệm RAG tiên tiến hơn
    • RAG hiện là vua, nhưng cách tiếp cận này không phải không có vấn đề
    • Nhiều triển khai vẫn sử dụng các kỹ thuật embedding và truy xuất còn ngây thơ, bao gồm chia nhỏ tài liệu dựa trên số lượng token, lập chỉ mục kém hiệu quả và thuật toán xếp hạng chưa tối ưu
    • Nó vẫn gặp các vấn đề như phân mảnh ngữ cảnh, ảo giác, độ hiếm thực thể và truy xuất kém hiệu quả
    • Để giải quyết những vấn đề này, các kiến trúc thế hệ tiếp theo đang thử nghiệm RAG tiên tiến hơn: suy luận Chain-Of-Thought, suy luận Tree-Of-Thought, Reflexion, truy xuất dựa trên luật, v.v.
  • Các mô hình nhỏ sẽ chiếm tỷ trọng lớn hơn trong ngăn xếp AI hiện đại
    • Khi các bên xây dựng ứng dụng AI đào sâu hơn vào ngăn xếp AI hiện đại, số lượng các mô hình chi tiết hơn, đặc thù theo tác vụ được dự báo sẽ tăng lên
    • Các mô hình được tinh chỉnh cho từng tác vụ sẽ lan rộng ở những lĩnh vực mà các mô hình nguồn đóng lớn quá cồng kềnh hoặc quá đắt đỏ
    • Hạ tầng để xây dựng pipeline ML và tinh chỉnh sẽ trở nên cực kỳ quan trọng ở giai đoạn này khi doanh nghiệp tự tạo các mô hình đặc thù tác vụ của riêng mình
    • Các kỹ thuật lượng tử hóa do Ollama và ggml cung cấp sẽ giúp các nhóm tận dụng tối đa mức tăng tốc mà mô hình nhỏ mang lại
  • Các công cụ mới cho khả năng quan sát (Observability) và đánh giá mô hình (Model Evaluation) đang xuất hiện
    • Trong phần lớn năm 2023, việc logging và đánh giá либо không được thực hiện, hoặc được làm thủ công, hoặc được thực hiện qua các benchmark học thuật vốn là điểm khởi đầu của phần lớn ứng dụng doanh nghiệp
    • Theo khảo sát của Criteo, khoảng 70% doanh nghiệp đã áp dụng AI đang dùng con người để rà soát đầu ra như kỹ thuật đánh giá chính. Lý do là vì rủi ro rất cao
    • Khách hàng kỳ vọng đầu ra chất lượng cao và họ hoàn toàn có quyền như vậy; các doanh nghiệp cũng rất rõ rằng họ có thể đánh mất niềm tin của khách hàng vì ảo giác
    • Vì vậy, khả năng quan sát và đánh giá mở ra cơ hội lớn cho các công cụ mới
    • Những cách tiếp cận mới đầy hứa hẹn như Braintrust, Patronus, Log10 và AgentOps đã bắt đầu xuất hiện
  • Kiến trúc sẽ dịch chuyển theo hướng serverless
    • Cũng như các hệ thống dữ liệu doanh nghiệp khác, ngăn xếp AI hiện đại đang dần chuyển sang serverless theo thời gian
    • Ở đây, cần phân biệt serverless kiểu “máy tạm thời” (ví dụ: hàm lambda) với serverless scale-to-zero thực sự (ví dụ: kiến trúc Neon cho Postgres)
    • Với serverless scale-to-zero, việc trừu tượng hóa hạ tầng giúp lập trình viên giảm bớt độ phức tạp vận hành khi chạy ứng dụng, lặp nhanh hơn, và doanh nghiệp có thể tối ưu tài nguyên đáng kể khi chỉ trả tiền cho mức sẵn sàng thay vì năng lực tính toán
    • Mô hình serverless sẽ được áp dụng cho mọi phần của ngăn xếp AI hiện đại
    • Pinecone đang áp dụng cách tiếp cận này như một kiến trúc hiện đại cho vector computing
    • Neon với Postgres, Momento với caching, còn Baseten và Modal với suy luận cũng đang làm điều tương tự

6 bình luận

 
hyeonseokoh94 2024-01-31

Bài viết hay và thú vị.

 
galadbran 2024-01-30

https://vi.news.hada.io/topic?id=6658 Neon - Postgres serverless mã nguồn mở

 
kaistj 2024-01-30

Mong rằng trong môi trường nhiều biến động sẽ tạo ra thêm nhiều cơ hội mới~
Theo một hướng tích cực

 
dlehals2 2024-01-29

Trên toàn thế giới chỉ có khoảng 30 triệu lập trình viên thôi sao??

 
xguru 2024-01-29

Theo báo cáo thường được trích dẫn của Evans Data Corporation, tính đến năm 2022 con số này vào khoảng 26,3 triệu người.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Dù số nhà phát triển sử dụng GitHub đã vượt 100 triệu người, nhưng có lẽ khó có thể xem tất cả đều là nhà phát triển.
https://github.blog/2023-01-25-100-million-developers-and-counting/

 
dlehals2 2024-01-29

Ra vậy, ít hơn mình nghĩ khá nhiều đấy. Trong lúc đó mình thử tra dân số thế giới thì là 7,8 tỷ người.. không biết từ khi nào lại tăng lên đến mức này nữa haha