Vượt ra ngoài bot: AI agent đang dẫn dắt làn sóng tiếp theo của tự động hóa doanh nghiệp

xguru · 2024-10-07T11:21:01+09:00

Mọi công việc đều có thể được xem là một gói các tác vụ được con người và máy móc cùng chia sẻ Phần mềm đang xử lý ngày càng nhiều tác vụ hơn, nhưng phần lớn quy trình kinh doanh vẫn do con người sở hữu AI agent được kỳ vọng sẽ thay đổi mang tính quyết định sự cân bằng công việc này Không giống các thế hệ phần mềm trước, thông qua kiến trúc nhận thức mới, chúng có thể tự động hóa linh hoạt các quy trình end-to-end Đây không chỉ là AI có thể đọc và viết, mà là AI có thể quyết định luồng logic của ứng dụng và hành động thay cho người dùng, đồng thời đại diện cho cơ hội lớn nhất của LLM trong doanh nghiệp Chẳng phải đây chỉ là RPA sao?: Giới hạn và vấn đề của RPA Điều này có thể nghe quen thuộc, vì UiPath và Zapier đã bán một tầm nhìn tương tự dưới tên gọi "bot automation" trong 10 năm qua UiPath là gã khổng lồ RPA, tự động hóa các quy trình như trích xuất thông tin từ tài liệu, di chuyển thư mục, điền biểu mẫu, cập nhật cơ sở dữ liệu bằng cách ghi lại hành vi người dùng qua screen scraping và tự động hóa GUI rồi mô phỏng các bước tuần tự Sau đó, các nhà cung cấp iPaaS như Zapier đã giới thiệu cách tiếp cận "API automation" nhẹ hơn, nhưng khác với UiPath, phạm vi bị giới hạn ở tự động hóa ứng dụng web UiPath và Zapier đã chứng minh thị trường cho các nền tảng tự động hóa ngang dựa trên luật, có thể kết hợp linh hoạt, nhằm giải quyết phần đuôi dài của các quy trình doanh nghiệp tồn tại trong và giữa các hệ thống phần mềm đặc thù theo phòng ban hoặc ngành Tuy nhiên, khi doanh nghiệp mở rộng tự động hóa dựa trên bot, khoảng cách giữa năng lực của kiến trúc hiện có và mức độ tự chủ được hứa hẹn bắt đầu bộc lộ Vẫn cần rất nhiều nhân lực và thao tác thủ công. Quy trình xây dựng và bảo trì tự động hóa vẫn đau đớn một cách đáng kể vì quá thủ công Tự động hóa UI dễ vỡ hoặc tích hợp API bị hạn chế. Tự động hóa UI thường hỏng khi giao diện phần mềm thay đổi, còn API thì ổn định hơn nhưng tích hợp với phần mềm legacy hoặc on-premise lại ít hơn nhiều Không thể xử lý dữ liệu phi cấu trúc. 80% dữ liệu doanh nghiệp là phi cấu trúc hoặc bán cấu trúc, nhưng tự động hóa dựa trên chuỗi bước không thể làm việc thông minh với loại dữ liệu này Ngay cả khi cố tích hợp LLM, các giải pháp RPA và iPaaS hiện tại vẫn bị trói buộc trong kiến trúc mang tính quyết định luận Autopilot của UiPath và AI Actions của Zapier chỉ cung cấp LLM cho các mẫu thiết kế agent cấp thấp hơn như text-to-action hoặc các node cho tìm kiếm ngữ nghĩa, tổng hợp và tạo one-shot Những năng lực AI này có thể rất mạnh, nhưng vẫn đang bỏ lỡ các use case đột phá hơn của LLM trong tự động hóa quy trình AI agent khác biệt về căn bản với vai trò là công cụ ra quyết định Không giống bot RPA hay ứng dụng RAG ngày nay, agent nằm ở trung tâm luồng điều khiển của ứng dụng như một công cụ ra quyết định Lần đầu tiên, điều này cho phép khả năng thích ứng, hành động nhiều bước, suy luận phức tạp và xử lý ngoại lệ mạnh mẽ Lấy ví dụ đối soát hóa đơn (Invoice Reconciliation), trong một sơ đồ quy trình được đơn giản hóa nhằm đối chiếu PDF hóa đơn mới với sổ cái tổng hợp của công ty, độ phức tạp của workflow nhanh chóng trở nên khó kiểm soát Ngay trong 3 nhóm quyết định đầu tiên, việc tính đến mọi tình huống ngoại lệ liên quan gần như đã là bất khả thi Một bot RPA thực thi workflow này như robot thường sẽ lỗi và nhiều khi phải escalate các trường hợp khớp một phần hoặc mục bị thiếu cho con người xử lý Nhưng khi áp dụng agent vào cùng workflow đó, hiệu năng sẽ vượt trội hơn nhiều Thích ứng với tình huống mới: dựa trên suy luận cơ bản và ngữ cảnh kinh doanh liên quan, agent có thể nhận biết và thích ứng một cách thông minh với nguồn dữ liệu mới, định dạng hóa đơn, quy ước đặt tên, số tài khoản, thay đổi chính sách, v.v. Có thể thực hiện tác vụ nhiều bước: nếu số tiền trên hóa đơn không khớp, agent có thể tiến hành điều tra nhiều bước, chẳng hạn kiểm tra email gần đây của nhà cung cấp để xác nhận khả năng đã thay đổi giá Thể hiện suy luận phức tạp: khi cần đối soát hóa đơn của nhà cung cấp quốc tế với sổ cái, phải cùng lúc tra cứu và tính toán nhiều yếu tố như loại tiền tệ trên hóa đơn, tiền tệ của sổ cái, ngày giao dịch, biến động tỷ giá, phí xuyên biên giới, phí ngân hàng, v.v. Agent có thể thực hiện kiểu trí tuệ này, trong khi bot RPA có thể sẽ phải escalate cho con người Xử lý được bất định: với các ngoại lệ như sai số làm tròn ở từng mục hoặc chữ số không đọc được, agent có thể xử lý chắc chắn dựa trên ngữ cảnh như tổng giá trị đơn hàng khớp, thời điểm và tần suất hóa đơn trước đây Bản đồ thị trường AI agent AI agent không còn là khoa học viễn tưởng. Từ startup đến các công ty Fortune 500, nhiều tổ chức đã mua và vận hành những hệ thống này ở quy mô lớn Hiện tại, thị trường agent có thể được hình dung theo hai trục chính: tính đặc thù theo miền và mức độ tự chủ của LLM Tính đặc thù theo miền: trải dài từ các agent chuyên biệt cho ngành dọc hoặc bộ phận như y tế hay hỗ trợ khách hàng, đến các nền tảng agent ngang với chức năng rộng và tổng quát hơn Mức độ tự chủ của LLM: thể hiện mức độ mà mô hình ngôn ngữ có thể tự lập kế hoạch và chỉ đạo logic ứng dụng một cách độc lập Góc trên bên phải của bản đồ thị trường bao gồm những agent có tính ngang và khả năng khái quát cao nhất Enterprise agent: nền tảng có thể mở rộng để xây dựng và quản lý agent trên nhiều chức năng và workflow, thông qua SOP ngôn ngữ tự nhiên hoặc các quy tắc tương tự như những gì cung cấp cho nhân viên mới. Phần lớn sử dụng kiến trúc "agent on rails", trong đó agent phải được neo vào một tập hợp tác vụ, ngữ cảnh kinh doanh và guardrail được định nghĩa trước cho từng quy trình mới Browser agent: đi theo thiết kế "general AI agent", tận dụng vision transformer được huấn luyện trên nhiều giao diện phần mềm và codebase nền tảng để tự động hóa duyệt web, thao tác UI trực quan, nhập văn bản, v.v. Chúng có xu hướng đổi lấy khả năng khái quát bằng sự đánh đổi về tính nhất quán Dịch vụ vận hành bằng AI: để thiết kế "agent on rails" thực sự hoạt động cần hạ tầng dữ liệu và guardrail rất lớn, vì vậy các công ty như Distyl hay Agnetic cung cấp dịch vụ kỹ thuật forward-deployed để thu hẹp khoảng cách với khách hàng theo mô hình "Palantir for AI" Tuy nhiên, không phải mọi agent đều nhắm tới mục tiêu ngang và có khả năng khái quát cao. Các agent chuyên biệt theo miền và workflow đang ngày càng nhiều hơn vì có thể tăng độ tin cậy bằng cách giới hạn loại vấn đề Vertical agent: cơ hội hứa hẹn nhất nằm ở các quy trình thủ công, mang tính thủ tục, vốn được con người xử lý theo SOP hay quy tắc. Các nhóm tiêu biểu gồm hỗ trợ khách hàng, tuyển dụng, công việc phát triển phần mềm như rà soát/kiểm thử/bảo trì mã nguồn, bán hàng outbound, vận hành an ninh, v.v. AI assistant: một cách khác để thu hẹp trọng tâm của agent là theo tính đặc thù của tác vụ thay vì đặc thù miền. Không giống các quy trình end-to-end phức tạp mà enterprise agent và vertical agent xử lý, chúng thực hiện các tác vụ đơn giản hơn và thiên về năng suất Dù không phải agent, các giải pháp AI tạo sinh được xây dựng quanh kiến trúc RAG đôi khi cũng cạnh tranh cùng ngân sách và workflow với các giải pháp dựa trên agent Vertical AI: nền tảng tự động hóa y tế Tennr xử lý quy trình tiếp nhận chuyển tuyến bằng cách trích xuất dữ liệu phi cấu trúc từ nhiều nguồn như fax, PDF, điện thoại rồi nhập vào EHR của phòng khám, qua đó loại bỏ nhu cầu nhập liệu thủ công của nhân viên RAG-as-a-Service: các công ty như Danswer hay Gradient cho phép khách hàng truy vấn nguồn dữ liệu phi cấu trúc như PDF, trích xuất dữ liệu và nhập chúng vào cơ sở dữ liệu hoặc hệ thống có cấu trúc hơn Enterprise search: Glean, Perplexity, Sana, v.v. cung cấp truy vấn ngữ nghĩa để lập chỉ mục và truy xuất các tài liệu liên quan về mặt khái niệm, giúp quản lý kiến thức tốt hơn trên toàn tổ chức và phá vỡ các silo dữ liệu Tương lai của tự động hóa doanh nghiệp Làn sóng thứ hai của AI tạo sinh sẽ được định nghĩa bởi các agent có thể không chỉ đọc và viết mà còn suy nghĩ và hành động thay cho người dùng Khi các kiến trúc này trưởng thành hơn, chúng sẽ trở thành chất xúc tác mạnh mẽ cho việc AI chinh phục nền kinh tế dịch vụ

(menlovc.com)

9 điểm bởi xguru 2024-10-07 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mọi công việc đều có thể được xem là một gói các tác vụ được con người và máy móc cùng chia sẻ
Phần mềm đang xử lý ngày càng nhiều tác vụ hơn, nhưng phần lớn quy trình kinh doanh vẫn do con người sở hữu
AI agent được kỳ vọng sẽ thay đổi mang tính quyết định sự cân bằng công việc này
Không giống các thế hệ phần mềm trước, thông qua kiến trúc nhận thức mới, chúng có thể tự động hóa linh hoạt các quy trình end-to-end
Đây không chỉ là AI có thể đọc và viết, mà là AI có thể quyết định luồng logic của ứng dụng và hành động thay cho người dùng, đồng thời đại diện cho cơ hội lớn nhất của LLM trong doanh nghiệp

Chẳng phải đây chỉ là RPA sao?: Giới hạn và vấn đề của RPA

Điều này có thể nghe quen thuộc, vì UiPath và Zapier đã bán một tầm nhìn tương tự dưới tên gọi "bot automation" trong 10 năm qua
UiPath là gã khổng lồ RPA, tự động hóa các quy trình như trích xuất thông tin từ tài liệu, di chuyển thư mục, điền biểu mẫu, cập nhật cơ sở dữ liệu bằng cách ghi lại hành vi người dùng qua screen scraping và tự động hóa GUI rồi mô phỏng các bước tuần tự
Sau đó, các nhà cung cấp iPaaS như Zapier đã giới thiệu cách tiếp cận "API automation" nhẹ hơn, nhưng khác với UiPath, phạm vi bị giới hạn ở tự động hóa ứng dụng web
UiPath và Zapier đã chứng minh thị trường cho các nền tảng tự động hóa ngang dựa trên luật, có thể kết hợp linh hoạt, nhằm giải quyết phần đuôi dài của các quy trình doanh nghiệp tồn tại trong và giữa các hệ thống phần mềm đặc thù theo phòng ban hoặc ngành
Tuy nhiên, khi doanh nghiệp mở rộng tự động hóa dựa trên bot, khoảng cách giữa năng lực của kiến trúc hiện có và mức độ tự chủ được hứa hẹn bắt đầu bộc lộ
- Vẫn cần rất nhiều nhân lực và thao tác thủ công. Quy trình xây dựng và bảo trì tự động hóa vẫn đau đớn một cách đáng kể vì quá thủ công
- Tự động hóa UI dễ vỡ hoặc tích hợp API bị hạn chế. Tự động hóa UI thường hỏng khi giao diện phần mềm thay đổi, còn API thì ổn định hơn nhưng tích hợp với phần mềm legacy hoặc on-premise lại ít hơn nhiều
- Không thể xử lý dữ liệu phi cấu trúc. 80% dữ liệu doanh nghiệp là phi cấu trúc hoặc bán cấu trúc, nhưng tự động hóa dựa trên chuỗi bước không thể làm việc thông minh với loại dữ liệu này
Ngay cả khi cố tích hợp LLM, các giải pháp RPA và iPaaS hiện tại vẫn bị trói buộc trong kiến trúc mang tính quyết định luận
- Autopilot của UiPath và AI Actions của Zapier chỉ cung cấp LLM cho các mẫu thiết kế agent cấp thấp hơn như text-to-action hoặc các node cho tìm kiếm ngữ nghĩa, tổng hợp và tạo one-shot
Những năng lực AI này có thể rất mạnh, nhưng vẫn đang bỏ lỡ các use case đột phá hơn của LLM trong tự động hóa quy trình

AI agent khác biệt về căn bản với vai trò là công cụ ra quyết định

Không giống bot RPA hay ứng dụng RAG ngày nay, agent nằm ở trung tâm luồng điều khiển của ứng dụng như một công cụ ra quyết định
Lần đầu tiên, điều này cho phép khả năng thích ứng, hành động nhiều bước, suy luận phức tạp và xử lý ngoại lệ mạnh mẽ
Lấy ví dụ đối soát hóa đơn (Invoice Reconciliation), trong một sơ đồ quy trình được đơn giản hóa nhằm đối chiếu PDF hóa đơn mới với sổ cái tổng hợp của công ty, độ phức tạp của workflow nhanh chóng trở nên khó kiểm soát
- Ngay trong 3 nhóm quyết định đầu tiên, việc tính đến mọi tình huống ngoại lệ liên quan gần như đã là bất khả thi
- Một bot RPA thực thi workflow này như robot thường sẽ lỗi và nhiều khi phải escalate các trường hợp khớp một phần hoặc mục bị thiếu cho con người xử lý
Nhưng khi áp dụng agent vào cùng workflow đó, hiệu năng sẽ vượt trội hơn nhiều
- Thích ứng với tình huống mới: dựa trên suy luận cơ bản và ngữ cảnh kinh doanh liên quan, agent có thể nhận biết và thích ứng một cách thông minh với nguồn dữ liệu mới, định dạng hóa đơn, quy ước đặt tên, số tài khoản, thay đổi chính sách, v.v.
- Có thể thực hiện tác vụ nhiều bước: nếu số tiền trên hóa đơn không khớp, agent có thể tiến hành điều tra nhiều bước, chẳng hạn kiểm tra email gần đây của nhà cung cấp để xác nhận khả năng đã thay đổi giá
- Thể hiện suy luận phức tạp: khi cần đối soát hóa đơn của nhà cung cấp quốc tế với sổ cái, phải cùng lúc tra cứu và tính toán nhiều yếu tố như loại tiền tệ trên hóa đơn, tiền tệ của sổ cái, ngày giao dịch, biến động tỷ giá, phí xuyên biên giới, phí ngân hàng, v.v. Agent có thể thực hiện kiểu trí tuệ này, trong khi bot RPA có thể sẽ phải escalate cho con người
- Xử lý được bất định: với các ngoại lệ như sai số làm tròn ở từng mục hoặc chữ số không đọc được, agent có thể xử lý chắc chắn dựa trên ngữ cảnh như tổng giá trị đơn hàng khớp, thời điểm và tần suất hóa đơn trước đây

Bản đồ thị trường AI agent

AI agent không còn là khoa học viễn tưởng. Từ startup đến các công ty Fortune 500, nhiều tổ chức đã mua và vận hành những hệ thống này ở quy mô lớn
Hiện tại, thị trường agent có thể được hình dung theo hai trục chính: tính đặc thù theo miền và mức độ tự chủ của LLM
- Tính đặc thù theo miền: trải dài từ các agent chuyên biệt cho ngành dọc hoặc bộ phận như y tế hay hỗ trợ khách hàng, đến các nền tảng agent ngang với chức năng rộng và tổng quát hơn
- Mức độ tự chủ của LLM: thể hiện mức độ mà mô hình ngôn ngữ có thể tự lập kế hoạch và chỉ đạo logic ứng dụng một cách độc lập
Góc trên bên phải của bản đồ thị trường bao gồm những agent có tính ngang và khả năng khái quát cao nhất
- Enterprise agent: nền tảng có thể mở rộng để xây dựng và quản lý agent trên nhiều chức năng và workflow, thông qua SOP ngôn ngữ tự nhiên hoặc các quy tắc tương tự như những gì cung cấp cho nhân viên mới. Phần lớn sử dụng kiến trúc "agent on rails", trong đó agent phải được neo vào một tập hợp tác vụ, ngữ cảnh kinh doanh và guardrail được định nghĩa trước cho từng quy trình mới
- Browser agent: đi theo thiết kế "general AI agent", tận dụng vision transformer được huấn luyện trên nhiều giao diện phần mềm và codebase nền tảng để tự động hóa duyệt web, thao tác UI trực quan, nhập văn bản, v.v. Chúng có xu hướng đổi lấy khả năng khái quát bằng sự đánh đổi về tính nhất quán
- Dịch vụ vận hành bằng AI: để thiết kế "agent on rails" thực sự hoạt động cần hạ tầng dữ liệu và guardrail rất lớn, vì vậy các công ty như Distyl hay Agnetic cung cấp dịch vụ kỹ thuật forward-deployed để thu hẹp khoảng cách với khách hàng theo mô hình "Palantir for AI"
Quảng cáo
Tuy nhiên, không phải mọi agent đều nhắm tới mục tiêu ngang và có khả năng khái quát cao. Các agent chuyên biệt theo miền và workflow đang ngày càng nhiều hơn vì có thể tăng độ tin cậy bằng cách giới hạn loại vấn đề
- Vertical agent: cơ hội hứa hẹn nhất nằm ở các quy trình thủ công, mang tính thủ tục, vốn được con người xử lý theo SOP hay quy tắc. Các nhóm tiêu biểu gồm hỗ trợ khách hàng, tuyển dụng, công việc phát triển phần mềm như rà soát/kiểm thử/bảo trì mã nguồn, bán hàng outbound, vận hành an ninh, v.v.
- AI assistant: một cách khác để thu hẹp trọng tâm của agent là theo tính đặc thù của tác vụ thay vì đặc thù miền. Không giống các quy trình end-to-end phức tạp mà enterprise agent và vertical agent xử lý, chúng thực hiện các tác vụ đơn giản hơn và thiên về năng suất
Dù không phải agent, các giải pháp AI tạo sinh được xây dựng quanh kiến trúc RAG đôi khi cũng cạnh tranh cùng ngân sách và workflow với các giải pháp dựa trên agent
- Vertical AI: nền tảng tự động hóa y tế Tennr xử lý quy trình tiếp nhận chuyển tuyến bằng cách trích xuất dữ liệu phi cấu trúc từ nhiều nguồn như fax, PDF, điện thoại rồi nhập vào EHR của phòng khám, qua đó loại bỏ nhu cầu nhập liệu thủ công của nhân viên
- RAG-as-a-Service: các công ty như Danswer hay Gradient cho phép khách hàng truy vấn nguồn dữ liệu phi cấu trúc như PDF, trích xuất dữ liệu và nhập chúng vào cơ sở dữ liệu hoặc hệ thống có cấu trúc hơn
- Enterprise search: Glean, Perplexity, Sana, v.v. cung cấp truy vấn ngữ nghĩa để lập chỉ mục và truy xuất các tài liệu liên quan về mặt khái niệm, giúp quản lý kiến thức tốt hơn trên toàn tổ chức và phá vỡ các silo dữ liệu

Tương lai của tự động hóa doanh nghiệp

Làn sóng thứ hai của AI tạo sinh sẽ được định nghĩa bởi các agent có thể không chỉ đọc và viết mà còn suy nghĩ và hành động thay cho người dùng
Khi các kiến trúc này trưởng thành hơn, chúng sẽ trở thành chất xúc tác mạnh mẽ cho việc AI chinh phục nền kinh tế dịch vụ