14 điểm bởi kwonhl0211 2024-07-15 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Kinh nghiệm phát triển AI của Linus Lee

    • Linus Lee đang làm việc tại Notion với vai trò kỹ sư AI trưởng.
    • Trước khi đến Notion, anh đã nghiên cứu nhiều về NLP, machine learning, HCI, đồng thời tích cực làm prototype và viết lách.
    • Tại Notion, anh đã phát triển các tính năng Q&A, Autofill, AI Writing, đồng thời cũng nghiên cứu về các mô hình không gian tiềm ẩn.
  • Tổng quan về quá trình phát triển AI tại Notion

    • Từ thời đại học, Linus Lee đã phát triển nhiều công cụ web và công cụ năng suất khác nhau.
    • Trong suốt năm 2022, anh tự đọc các bài báo về AI và bắt đầu nghiên cứu độc lập.
    • Tháng 10/2022, anh tham gia dự án beta AI Writer của Notion.
    • Khi anh gia nhập Notion, đội AI gồm bốn người, nhưng hiện nay đã phát triển lên khoảng 20 người.
    • Các dự án chính mà Linus Lee tham gia là AI Writer, Autofill, Q&A, lần lượt ra mắt vào tháng 2, 5 và 11 năm 2023.
    • Trong tương lai, Notion AI có kế hoạch tiếp tục cải thiện khả năng sử dụng thông qua công nghệ agent.
  • Giới thiệu văn phòng và đội AI của Notion

    • Notion có văn phòng tại San Francisco và New York; văn phòng ở San Francisco được sử dụng làm nơi ăn trưa hoặc tổ chức sự kiện.
    • Văn phòng New York là nơi Linus Lee sinh sống và làm việc, với môi trường làm việc được thiết kế gọn gàng.
    • Việc phát triển các tính năng AI của Notion bắt đầu từ năm 2013, và CEO cùng CTO trực tiếp tham gia phát triển sản phẩm.
    • Trong bức ảnh chụp buổi họp của đội AI vào mùa thu năm 2022, có thể thấy quản lý, CEO Ivan, CTO Simon, các quản lý sản phẩm và nhà thiết kế đang thực hiện một phiên Q&A.
    • Trong phát triển sản phẩm AI, chất lượng và đánh giá là những yếu tố quan trọng, và họ sử dụng các kỹ thuật đánh giá xét đến phổ từ benchmark nghiên cứu đến sử dụng thực tế trong production.
    • Notion kiểm tra hiệu năng giữa benchmark và dữ liệu thực tế, đồng thời đánh giá chính xác hiệu năng của mô hình thông qua các bài test mang tính lập trình.
    • Các hạng mục đánh giá bao gồm việc có chứa từ cụ thể, niềm tin, keyword và hiệu năng ngôn ngữ chính xác hay không.
  • Phát triển sản phẩm AI tại Notion

    • Đánh giá bởi con người là một yếu tố quan trọng trong phát triển sản phẩm AI của Notion.
    • Con người kiểm tra dữ liệu trong tập dữ liệu test, và sản phẩm được kiểm thử thông qua các bài test mang tính lập trình.
    • Sau khi phát triển sản phẩm, cần tiếp tục giám sát dựa trên phản hồi của người dùng.
    • AI cần cung cấp các mức độ chức năng khác nhau để có thể thực hiện hiệu quả việc thu thập các trường hợp thất bại từ người dùng và trả lời câu hỏi.
    • Cốt lõi của việc phát triển sản phẩm AI chất lượng cao là chỉnh sửa và chất lượng dữ liệu. Vì vậy, việc điều chỉnh dữ liệu thực tế cho phù hợp với mô hình là rất quan trọng.
    • Đội ngũ Notion gồm kỹ sư, nhà nghiên cứu, nhà thiết kế và quản lý sản phẩm cùng nhau thảo luận và phát triển các tính năng chỉnh sửa.
    • Họ liên tục cải tiến mô hình chỉnh sửa để nâng cao chất lượng đầu ra bằng cách sử dụng các mô hình như GPT-4.
  • Quy trình phát triển tính năng AI của Notion

    • Các kỹ sư AI của Notion phát triển mô hình thông qua việc thu thập thông tin và cấu trúc dữ liệu. Vì vậy, họ phải phân tích dữ liệu kỹ lưỡng và đáp ứng nhu cầu người dùng.
    • Họ xây dựng dataset bằng cách nghiên cứu cách tổ chức thông tin như ghi chú cuộc họp, trang web của người dùng Notion, vì điều này ảnh hưởng đến hiệu năng của mô hình AI.
    • Thông qua nghiên cứu, họ xác định các use case như Q&A để kiểm thử mô hình, từ đó có thể cung cấp câu trả lời hiệu quả cho câu hỏi của người dùng.
    • Họ phát triển hệ thống prototype bằng GPT-4 và các mô hình cloud, sau đó test nội bộ để xác định các vấn đề ban đầu.
    • Họ phân tích các trường hợp thất bại thu thập được từ quá trình sử dụng nội bộ và dựa trên đó cải thiện dataset cũng như mô hình. Nhờ vậy, độ chính xác của mô hình được nâng lên qua các vòng test và phản hồi lặp lại.
  • Quy trình phát triển và đánh giá mô hình AI của Notion

    • Quá trình lặp mô hình bao gồm chỉnh sửa prompt, tinh chỉnh chi tiết mô hình, và bổ sung giai đoạn thứ hai trong pipeline mô hình ngôn ngữ.
    • Khi xác định đã giải quyết được vấn đề trong giai đoạn phát triển, họ triển khai lại, thu thập thêm các trường hợp thất bại và tiếp tục quá trình lặp.
    • Quá trình này tiếp tục cho đến khi chất lượng input và output trong môi trường nội bộ đạt mức hài lòng.
    • Đến một thời điểm nào đó, sản phẩm được công bố cho một nhóm nhỏ người dùng thông qua chương trình beta, và họ theo dõi phản hồi người dùng cùng dữ liệu log được thu thập tự động.
    • Trong giai đoạn đầu xây dựng dataset, họ sử dụng nhiều phương pháp để xác nhận rằng dữ liệu phản ánh tốt các use case thực tế.
  • Giai đoạn đầu của phát triển tính năng AI

    • Họ tạo prototype và thử nghiệm cùng đội AI nội bộ.
    • Từ đó, họ thu thập nhiều loại input và ví dụ khác nhau thông qua việc sử dụng nội bộ.
    • Tập input ban đầu không nhất thiết phải đại diện hoàn hảo cho các trường hợp thực tế.
    • Sau khi test nội bộ, họ triển khai cho nhóm người dùng rộng hơn để dần thu thập dữ liệu thực tế hơn.
    • Cũng có thể xây dựng dataset ban đầu dựa trên các trường hợp thất bại được dự đoán trước.
    • Khi phát triển tính năng hỗ trợ ngôn ngữ, họ dịch dataset QA hiện có sang ngoại ngữ để sử dụng.
  • Thu thập dữ liệu và đánh giá thông qua test nội bộ và bên ngoài

    • Dataset ban đầu không cần phải hoàn toàn thực tế. Vì vậy, họ thu thập dữ liệu tốt hơn thông qua quá trình test.
    • Họ test prototype với người dùng nội bộ hoặc một nhóm nhỏ người dùng bên ngoài, đồng thời thu thập các ví dụ output sai bằng nhiều cách khác nhau.
    • Họ thực hiện đánh giá mang tính lập trình dựa trên keyword hoặc cấu trúc output và lưu log cho mọi suy luận AI. Nhờ đó có thể kiểm tra và phân tích các output thất bại.
    • Thông qua phỏng vấn người dùng, họ hiểu được các use case thực tế và có thể phát hiện những cách sử dụng ngoài dự kiến.
    • Ví dụ, trong quá trình test nội bộ tính năng Autofill, họ phát hiện nhiều nhân viên dùng nó cho mục đích dịch thuật, nên đã phát triển phiên bản dịch tối ưu hơn cho tính năng này.
  • Phương pháp phản hồi và đánh giá sản phẩm AI

    • Các nút phản hồi thích và không thích không thực sự hữu ích với người dùng nên không được sử dụng thường xuyên.
    • Ngoài ra, với quy mô người dùng của Notion, chỉ dựa vào các nút phản hồi như vậy thì không thể thu thập đủ dữ liệu.
    • Tuy vậy, đôi khi chúng vẫn hữu ích phần nào vì có thể bắt được những trường hợp ngoại lệ mà các use case khác chưa phát hiện ra.
    • Về nội bộ, họ đánh giá hiệu năng của mô hình trước các input ngoài dự kiến thông qua adversarial testing.
    • Adversarial testing hữu ích trong việc xác định giới hạn hiệu năng của mô hình và nhận diện những điểm dễ phát sinh vấn đề.
    • Họ liên tục giám sát điểm mạnh và điểm yếu của mô hình thông qua dữ liệu sử dụng thực tế.
  • Các yếu tố cốt lõi trong phát triển sản phẩm AI

    • Đánh giá và log là quan trọng nhất.
    • Cần xây dựng hệ thống log toàn diện, đầy đủ và có thể tái chạy hoàn toàn.
    • Thông qua các ví dụ output kém phát sinh trong thực tế hoặc kết quả test nội bộ, họ có thể tái dựng pipeline và debug.
    • Mỗi ví dụ đều được chạy lại trong môi trường phát triển để test với prompt hoặc mô hình mới và tìm giải pháp.
    • Sau khi giải quyết vấn đề, ví dụ đó được thêm vào test dataset để ngăn lỗi tương tự tái diễn.
  • Những bài học quan trọng trong phát triển AI

    • Cần sử dụng sản phẩm sớm và test thường xuyên để tinh chỉnh hiểu biết về task.
    • Yếu tố tạo khác biệt trong AI không phải là hiệu năng của mô hình mà là mức độ hiểu task.
    • Khi xây dựng ứng dụng AI cho người dùng cuối, đội AI phải hiểu sâu độ khó của task và giới hạn của mô hình.
    • Điều quan trọng là chia nhỏ task, xác định phần nào mô hình thường thất bại và phần nào nó làm tốt một cách tự nhiên.
    • Cách tốt nhất để hiểu độ khó của task là thường xuyên dùng sản phẩm, phân tích output và hiểu nguyên nhân gây lỗi của mô hình.
  • Những điểm cần lưu ý khi phát triển sản phẩm AI

    • Trong đặc tả sản phẩm, ngoài giao diện và chức năng còn phải nêu rõ tiêu chí đánh giá và tiêu chuẩn của output tốt.
    • Tiêu chí đánh giá được dùng như điểm giao tiếp chính giữa người phụ trách sản phẩm với kỹ sư và nhà nghiên cứu.
    • Kinh nghiệm machine learning truyền thống cũng có thể áp dụng cho LLM và các mô hình AI tạo sinh, và điều này mang lại nhiều insight hơn người ta tưởng.
    • Tuy nhiên, trong machine learning truyền thống người ta xử lý dataset quy mô lớn và phân tích cluster hoặc tập con lớn, trong khi với mô hình ngôn ngữ thì thường xuyên xem xét từng trường hợp thất bại và từng log riêng lẻ hơn.
    • Vì vậy, cần các công cụ và workflow khác cho công việc với mô hình ngôn ngữ.
  • Tầm quan trọng và cách tiếp cận trong đánh giá mô hình AI

    • Đánh giá lấy người dùng và những gì họ thực sự làm làm nguồn chân lý.
    • Vì thế, tài liệu đánh giá phải phản ánh các use case thực tế dựa trên dữ liệu sử dụng nội bộ và bên ngoài.
    • Thách thức quan trọng trong quá trình đánh giá là phải bao quát đầy đủ không gian input mà ta muốn hệ thống hoạt động tốt.
    • Việc xây dựng pipeline đánh giá tự động có thể tiết kiệm thời gian về sau khi xử lý lượng dữ liệu lớn, nhưng ở giai đoạn đầu, điều quan trọng là các thành viên trong nhóm tự trực tiếp xem xét và hiểu đầu ra.
    • Điều này giúp xác định nguyên nhân thất bại của mô hình và xu hướng của mô hình đối với từng tác vụ cụ thể.
  • Cách tổ chức đội AI

    • Có hai cách tiếp cận chính. Cách thứ nhất là chuyển đổi đội machine learning hiện có thành đội AI.
    • Làm như vậy có thể tạo ra một đội tập trung vào dữ liệu, xác thực và benchmark. Vì thế, điều quan trọng là phải đánh giá sao cho phù hợp với nhu cầu người dùng và kỳ vọng trong thế giới thực.
    • Cách thứ hai là để đội kỹ sư hiện có học các API mô hình ngôn ngữ như OpenAI API. Notion cũng đã dùng cách này. Vì vậy, đội AI ban đầu của họ phần lớn là các kỹ sư web.
    • Ưu điểm của kiểu đội này là mạnh về hiểu người dùng và thử nghiệm test. Tuy nhiên, họ cũng phải học tầm quan trọng của đánh giá nghiêm ngặt và dataset chất lượng cao.
    • Ngoài ra, các thực hành vệ sinh dữ liệu tốt và workflow phù hợp rất quan trọng trong việc duy trì dataset. Vì vậy, việc bảo đảm các data point chất lượng cao là điều thiết yếu.

Chưa có bình luận nào.

Chưa có bình luận nào.