Chiến lược thu thập dữ liệu cho startup AI năm 2024

(press.airstreet.com)

31 điểm bởi xguru 2024-04-29 | 1 bình luận | Chia sẻ qua WhatsApp

[ #1 Mô hình tạo sinh quy mô lớn (Large Generative Models) ]

Tạo dữ liệu tổng hợp bằng LLM và LMM

Large Language Model (LLM) tạo ra đầu ra văn bản, trong khi Large Multi-Modal Model (LMM) có thể tạo dữ liệu tổng hợp ở nhiều dạng như văn bản, mã, hình ảnh, v.v.
Được sử dụng đặc biệt rộng rãi trong các lĩnh vực thiếu dữ liệu thực, nhạy cảm về bảo vệ quyền riêng tư, hoặc có chi phí thu thập và gán nhãn cao (ví dụ: NLP, thị giác máy tính, phát triển hệ thống lái tự động, v.v.)
Dữ liệu tổng hợp thường được dùng để bổ sung dữ liệu thực hoặc cho tinh chỉnh (fine-tuning), chứ không được dùng để thay thế toàn bộ
Dù tinh vi đến đâu, nó cũng chỉ có thể tạo ra một phép xấp xỉ của miền vấn đề; nếu phụ thuộc quá mức, có nguy cơ mô hình bị overfit vào các đặc tính tồn tại trong quá trình tạo dữ liệu tổng hợp
Các phương pháp tạo dữ liệu tổng hợp
1. Tự cải thiện (Self-improvement): mô hình tự tạo chỉ dẫn, ngữ cảnh đầu vào và phản hồi; các ví dụ không hợp lệ hoặc quá giống với dữ liệu hiện có sẽ bị lọc bỏ; phần còn lại được dùng để tinh chỉnh chính mô hình gốc
2. Chưng cất (Distillation): quá trình truyền tri thức từ mô hình giáo viên mạnh hơn sang mô hình học sinh kém mạnh hơn nhưng hiệu quả hơn. Ngay cả khi dữ liệu tổng hợp thường không chính xác, nó vẫn có thể đóng góp hiệu quả trong quá trình instruction-tuning
Microsoft đã phát hành dòng mô hình nhỏ mang tên Phi, chủ yếu được huấn luyện bằng dữ liệu tổng hợp tạo từ các LLM khác, và cho thấy hiệu năng vượt trội hơn phần lớn các mô hình frontier
Hugging Face đã tạo ra Cosmopedia với mục tiêu tái hiện điều này, như một phản hồi trước việc thiếu thông tin về cách Microsoft tuyển chọn bộ dữ liệu huấn luyện tổng hợp đã sử dụng

Gán nhãn dữ liệu và tích hợp dataset bằng LLM

Các LLM hiện đại có thể gán nhãn cho dataset văn bản ở mức tương đương hoặc cao hơn con người chú thích
Không như con người chú thích, LLM có thể áp dụng nhất quán cùng một tiêu chuẩn chú thích trên các dataset quy mô lớn mà không bị mệt mỏi hay thiên kiến
Các mô hình tạo sinh lớn được huấn luyện trên dataset quy mô lớn như Segment Anything thường cho thấy hiệu năng zero-shot tốt hơn các mô hình thị giác máy tính không tạo sinh chuyên biệt vốn truyền thống được dùng cho các tác vụ như semantic segmentation
LLM cũng có thể được dùng để mở rộng lượng dữ liệu thực sẵn có thông qua dataset stitching, tức tích hợp nhiều nguồn dữ liệu khác nhau để tạo ra một dataset thống nhất

LLM như một grader

Reinforcement Learning from Human Feedback (RLHF) là kỹ thuật tinh chỉnh cốt lõi đã biến GPT-3 thành một hệ thống đột phá, được tối ưu cho tương tác hội thoại với người dùng qua chat
Giờ đây đã xuất hiện cách tiếp cận Reinforcement Learning from AI Feedback (RLAIF), sử dụng LLM thay cho con người để cung cấp phản hồi
Ưu điểm chính của RLAIF là khả năng mở rộng và giảm chi phí nhờ thay con người bằng máy

[ #2 Nền tảng gán nhãn dữ liệu ]

Giai đoạn đầu, người ta sử dụng các nền tảng crowdsourcing và thuê ngoài công việc như Amazon Mechanical Turk để thực hiện gán nhãn hoặc làm sạch dữ liệu thông qua lực lượng lao động trực tuyến giá rẻ
Gần đây, các nền tảng như V7, Scale AI cung cấp tính năng gán nhãn và quản lý dữ liệu tự động đã phát triển và trở nên phổ biến
Những nền tảng này, cùng với các biện pháp tuân thủ quy định và đảm bảo chất lượng, giúp các công ty có nhu cầu dữ liệu lớn mở rộng hiệu quả hơn và đạt mức độ nhất quán cao hơn

Đặc điểm theo từng nền tảng và các tay chơi mới

V7 có xu hướng tập trung vào các tác vụ đòi hỏi chuyên môn cao như hình ảnh y tế, trong khi Scale phát triển từ lĩnh vực lái tự động rồi mở rộng sang quốc phòng
Các tay chơi mới như Invisible đang đáp ứng nhu cầu về nhân lực chuyên môn cho workflow chuyên biệt cho LLM (ví dụ: tinh chỉnh có giám sát, RLHF, đánh giá bởi con người, red teaming, v.v.)
Các dịch vụ gán nhãn dữ liệu phổ biến gồm CVAT, Dataloop, Invisible, Labelbox, Scale AI, V7, v.v.

Cách cải thiện chất lượng dữ liệu chú thích bởi con người

Nhiều nền tảng vẫn phụ thuộc ở một mức độ nào đó vào người chú thích, nên khi AI được áp dụng rộng hơn vào các lĩnh vực phức tạp, mang tính chủ quan và liên quan xã hội cao, sẽ cần nhiều nỗ lực hơn để đánh giá chất lượng đầu ra
Có thể dùng các cách tiếp cận như đa số phiếu, tỷ lệ đồng thuận, mô hình xác suất để ước lượng nhãn thực từ đầu vào của nhiều người đánh giá và xác định các người đánh giá "spammer" không đáng tin cậy
Có các kỹ thuật nhằm nắm bắt sự bất nhất có hệ thống giữa những người đánh giá và tận dụng điều đó để cải thiện việc học (ví dụ: disagreement deconvolution, multi-annotator modeling, v.v.)
Có thể phát hiện các điểm dữ liệu bị gán nhãn sai thông qua influence functions, theo dõi thay đổi dự đoán trong quá trình huấn luyện, v.v.

[ #3 Dataset mở ]

Từ sau năm 2016, dataset mở đã bùng nổ nhờ phong trào dữ liệu mở và việc ngày càng nhận thức rõ giá trị của chia sẻ dữ liệu giữa ngành công nghiệp, học thuật và chính phủ
Dataset mở tồn tại ở hầu hết các lĩnh vực, nhưng đặc biệt dễ tiếp cận trong thị giác máy tính, NLP, xử lý giọng nói/âm thanh, điều khiển robot và dẫn đường
Sự phát triển này đến từ nỗ lực cộng đồng (ví dụ: Hugging Face, PyTorch, TensorFlow, Kaggle, v.v.) kết hợp với việc các tập đoàn lớn công bố các dataset quy mô lớn

Những điểm cần cân nhắc khi dùng dataset mở

Dù có ưu điểm là miễn phí và hữu ích cho benchmarking, vẫn có những điểm cần lưu ý
Trong các lĩnh vực nhạy cảm hoặc chịu quản lý chặt, dataset mở có xu hướng hiếm hơn, cũ hơn và quy mô nhỏ hơn
Chất lượng và độ mới của dữ liệu mở có thể khác biệt đáng kể, nên trong các lĩnh vực thay đổi nhanh, vấn đề về tính liên quan có thể phát sinh
Việc lạm dụng có thể dẫn tới nguy cơ overfit do phụ thuộc quá nhiều vào các dataset phổ biến, khiến mô hình làm tốt trên benchmark nhưng kém hiệu quả trong ứng dụng thực tế

Các tài nguyên dataset mở hữu ích

Các tập đoàn lớn như Amazon, Google, Microsoft đều có nhiều hub dữ liệu mở và công cụ tìm kiếm đa dạng
Hugging Face đã tạo ra hub dataset sẵn sàng để sử dụng cùng các công cụ liên quan
Tính năng tìm kiếm dataset của Kaggle
VisualData: hub cho dataset thị giác máy tính
V7 đã công bố danh sách hơn 500 dataset mở

[ #4 Môi trường mô phỏng ]

Môi trường mô phỏng cho phép mô hình hoặc tác tử AI học trong môi trường được kiểm soát để tạo dữ liệu tổng hợp và kiểm thử hệ thống trước khi triển khai thực tế
Đặc biệt hữu ích trong việc bổ sung dữ liệu thực và khám phá các edge case khó gặp hoặc tốn kém ngoài đời thực
Điều này đặc biệt phổ biến trong các lĩnh vực như robot hoặc xe tự lái, nơi cần huấn luyện hệ thống an toàn và phải tính đến vô số biến số có thể xuất hiện trong thế giới thực

Những điểm cần cân nhắc khi xây dựng môi trường mô phỏng

Việc xây dựng và kiểm chứng từ đầu một mô phỏng 3D với mô hình vật lý phong phú và chính xác có thể đòi hỏi nguồn lực và hạ tầng đáng kể
NVIDIA đã xây dựng ISAAC, một nền tảng robot tăng tốc bằng GPU mạnh mẽ, bao gồm các môi trường mô phỏng dựa trên Omniverse, nền tảng workflow đồ họa 3D và vật lý tích hợp
Để giảm gánh nặng chi phí, có thể tận dụng các môi trường mô phỏng mã nguồn mở
Unreal Engine của Epic Games đã trở thành công cụ mạnh để xây dựng môi trường mô phỏng nhờ đồ họa độ trung thực cao, mô phỏng vật lý chân thực và giao diện lập trình linh hoạt

Các trường hợp sử dụng và môi trường mã nguồn mở

Applied Intuition: cung cấp giải pháp mô phỏng và kiểm chứng cho các nhà phát triển hệ thống lái tự động
Sereact: phát triển phần mềm dựa trên môi trường mô phỏng để hiểu được các sắc thái không gian và vật lý nhằm tự động hóa pick-and-pack trong kho
Wayve: startup xe tự lái có trụ sở tại Anh đã xây dựng nhiều môi trường mô phỏng 4D
Trong lĩnh vực lái tự động: CARLA, LG SVL Simulator, AirSim, v.v.
Trong lĩnh vực robot: Gazebo, CoppeliaSim, PyBullet, MuJoCo, v.v.

[ #5 Scraping web/sách và các tài liệu khác ]

Việc scraping khối lượng lớn văn bản, âm thanh, video là yếu tố cốt lõi trong phát triển foundation model
Trong khi các tập đoàn lớn sử dụng hệ thống độc quyền riêng, startup có thể tận dụng nhiều công cụ đóng gói sẵn và mã nguồn mở khác nhau
Các framework crawl phân tán như Apache Nutch, trình duyệt headless như Puppeteer hoặc Selenium, thư viện parsing như Beautiful Soup, dịch vụ proxy và quản lý IP như Luminati, cùng công nghệ OCR rẻ và hiệu quả đều đã phát triển

Đánh đổi giữa chất lượng và số lượng dữ liệu

Tùy theo domain và ứng dụng mà mức đánh đổi giữa chất lượng và số lượng dữ liệu sẽ khác nhau
Các mô hình ngôn ngữ có thể học hiệu quả ngay cả từ dữ liệu tương đối nhiễu và chưa được tuyển chọn kỹ, nếu được cung cấp đủ số lượng
Ngược lại, trong thị giác máy tính, có thể đạt kết quả tốt bằng cách mở rộng một dataset nhỏ nhưng chất lượng cao thông qua biến đổi ảnh (ví dụ: crop, xoay, thêm nhiễu, v.v.)

Curriculum learning và tuyển chọn dataset

Curriculum learning là chiến lược huấn luyện trình bày dữ liệu cho mô hình theo thứ tự có ý nghĩa, đi từ ví dụ đơn giản đến ví dụ phức tạp
Bằng cách mô phỏng cách con người học, nó giúp tăng hiệu quả để mô hình học được các tham số khởi đầu tốt trước khi xử lý các ví dụ khó

Ví dụ

DBRX, open LLM SOTA gần đây của Databricks, đã tận dụng cách này để cải thiện đáng kể chất lượng mô hình
Sync Labs đã huấn luyện một mô hình có thể đồng bộ lại chuyển động môi của video với âm thanh mới bằng cách dùng lượng lớn video có chất lượng tương đối thấp
Metalware đã kết hợp một tập ảnh tương đối nhỏ được quét từ giáo trình chuyên ngành với GPT-2 để tạo ra copilot cho kỹ sư firmware

[ #6 Vấn đề bản quyền và khả năng cấp phép ]

Sự trưởng thành của hệ sinh thái AI từ sau năm 2016 đã tạo tác động tích cực cho các nhà sáng lập, nhưng cũng kéo theo nhiều phức tạp hơn
Việc các nhà cung cấp foundation model thực hiện scraping web quy mô lớn đã khiến các công ty truyền thông, nhà văn và nghệ sĩ khởi kiện về bản quyền dưới nhiều hình thức khác nhau
Các vụ kiện này hiện đang diễn ra trong hệ thống tòa án ở châu Âu và Mỹ, nhắm vào các tập đoàn lớn (ví dụ: Meta, OpenAI) hoặc các phòng lab ngày càng vững mạnh (ví dụ: Midjourney, Stability)
Điều này nhấn mạnh rằng startup cần thận trọng với cách thu thập dữ liệu của mình
Nếu các công ty thua kiện, họ có thể sẽ phải xác định tài liệu có bản quyền trong dữ liệu huấn luyện, bồi thường cho người sáng tạo hoặc hủy bỏ các đầu ra đó và bắt đầu lại từ đầu
Vì vậy, một số công ty đang chủ động theo đuổi chiến lược thu thập dữ liệu thân thiện hơn với người sáng tạo, như hợp tác với các tổ chức truyền thông hoặc trả thù lao trực tiếp cho nghệ sĩ khi sử dụng nội dung hay giọng nói

Sự xuất hiện của hệ thống chứng nhận nguồn dữ liệu đạo đức

Các hệ thống chứng nhận cho dữ liệu huấn luyện có nguồn gốc đạo đức, do cựu lãnh đạo Stability và những người khác dẫn dắt, đang bắt đầu xuất hiện
Những hệ thống chứng nhận này vẫn đang ở giai đoạn đầu, nhưng là một hướng đi thú vị và đáng theo dõi

Ví dụ

ElevenLabs: chi trả payout cho diễn viên lồng tiếng và hợp tác dữ liệu giọng nói
Google: ký thỏa thuận cho phép sử dụng dữ liệu Reddit để huấn luyện Gemini
OpenAI: hợp tác để huấn luyện DALL-E bằng thư viện hình ảnh, video, âm nhạc và metadata của Shutterstock, cùng thỏa thuận cấp phép kho lưu trữ tin tức của Associate Press

[ #7 Nhu cầu về dataset gán nhãn quy mô lớn đang giảm ]

Từ sau năm 2016, nhờ sự phát triển mạnh của các kỹ thuật học không giám sát và bán giám sát, startup có thể xây dựng các mô hình mạnh mà không cần đến các dataset gán nhãn quy mô lớn vốn từng được xem là thiết yếu
Dù các cách tiếp cận này đã được giới nghiên cứu biết đến từ trước năm 2016, trong vài năm gần đây chúng đã cải thiện đáng kể về khả năng tiếp cận, độ tinh vi và tính thực tiễn
Học không giám sát tập trung vào việc học các mẫu thống kê và cấu trúc nội tại của dữ liệu; trước đây hữu ích cho việc khám phá dataset quy mô lớn (ví dụ: phân cụm không giám sát), và hiện là cốt lõi của pretraining cho LLM
Học bán giám sát sử dụng một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu không gán nhãn, và đặc biệt hiệu quả trong việc cải thiện, nâng cao hiệu năng mô hình
Có thể tăng cường các cách tiếp cận này bằng các kỹ thuật như contrastive learning và few-shot learning
- Contrastive Learning giúp mô hình học được các biểu diễn phong phú bằng cách phân biệt các điểm dữ liệu tương tự và không tương tự, và hữu ích cho các tác vụ thị giác máy tính (ví dụ: CLIP của OpenAI)
- Few-shot learning cho phép mô hình thích nghi với tác vụ mới chỉ với rất ít ví dụ
Bài báo gốc về scaling laws cho thấy các mô hình lớn thành thạo few-shot learning hơn
Dù pretraining không giám sát cần lượng dữ liệu không gán nhãn lớn hơn, giai đoạn này mang lại khả năng giải quyết các tác vụ downstream với ít ví dụ có gán nhãn hơn so với các mô hình nhỏ không tạo sinh

Hạn chế và những điểm cần cân nhắc

Các mô hình tận dụng dữ liệu không gán nhãn thường đòi hỏi kiến trúc phức tạp hơn
Điều này đồng nghĩa với việc đổi chi phí dành cho gán nhãn sang chi phí tính toán
Không chỉ khó triển khai và mở rộng hơn, chúng còn kém khả năng diễn giải hơn, nên có thể là bất lợi trong các lĩnh vực nhạy cảm nơi việc hiểu quá trình ra quyết định là quan trọng
Sự phức tạp này đòi hỏi nhiều tài nguyên tính toán hơn và trong nhiều trường hợp có trần hiệu năng thấp hơn các phương pháp học có giám sát

[ #8 Những thứ còn quá sớm ]

Data marketplace

Từ sau năm 2016, khi việc thu thập, lưu trữ, xử lý và chia sẻ dữ liệu trở nên dễ và rẻ hơn, đã xuất hiện một số data marketplace, nhưng lĩnh vực này chưa thực sự sôi động
Các marketplace và nền tảng như Datarade, Dawex, AWS Data Exchange, Snowflake giúp dễ dàng tìm thấy dữ liệu hình ảnh, văn bản, âm thanh, video cho nhiều use case phổ biến khác nhau, nhưng chủ yếu là để tạo thêm giá trị cho việc khách hàng chọn lưu trữ dữ liệu trên đó
Bên cạnh các marketplace này còn có các công ty như Appen, Scale AI, Invisible, Surge cung cấp tạo dataset tùy chỉnh và gán nhãn thông qua lực lượng thuê ngoài có tay nghề
Tuy nhiên, các lưu ý về chuyên môn hóa và lợi thế cạnh tranh từ dữ liệu độc quyền vẫn còn nguyên giá trị, và hầu như không có bằng chứng cho thấy startup AI phụ thuộc nhiều vào các marketplace này
Ban đầu chúng có thể tiện lợi, nhưng vẫn cần đầu tư đáng kể cho làm sạch, tùy biến, lọc và lấy mẫu con
Nhiều startup thích tự xây dựng dataset độc quyền của riêng mình từ đầu và dùng nó như lợi thế cạnh tranh

Gamification

Gamification đã được nhiều công ty và tổ chức khám phá như một chiến lược thu thập dữ liệu trong bối cảnh crowdsourcing và các sáng kiến khoa học cộng đồng (ví dụ: Folding@Home)
Tuy nhiên, ngoại trừ một số ít trường hợp, gamification vẫn chủ yếu nằm trong một ngách tương đối hẹp
Nó chỉ hấp dẫn một nhóm nhỏ người dùng cụ thể, những người được thúc đẩy bởi tính cạnh tranh kiểu trò chơi và có thời gian rảnh, nên tiềm năng về số lượng người đóng góp có trần tương đối thấp
Ngay cả trong nhóm người có động lực, chất lượng và độ chính xác của dữ liệu đóng góp vẫn là vấn đề, đặc biệt khi xử lý edge case, nên cần thêm các biện pháp xác minh và kiểm soát

Federated learning

Federated learning (FL), được Google giới thiệu năm 2016, đưa ra lời hứa rằng có thể huấn luyện mô hình trên nhiều máy chủ phân tán hoặc thiết bị di động mà vẫn giữ dữ liệu ở cục bộ
Về lý thuyết, điều này có thể giúp các startup hoạt động trong các lĩnh vực nhạy cảm như y tế hoặc tài chính tiếp cận dữ liệu huấn luyện quan trọng thông qua quan hệ hợp tác mà không gặp các vấn đề riêng tư truyền thống
Tuy nhiên, FL đã bị cản trở trong việc áp dụng ở chính các lĩnh vực nhạy cảm mà nó hướng tới do các vấn đề về trách nhiệm, quyền sở hữu dữ liệu và truyền dữ liệu xuyên biên giới; đồng thời khi mô hình và dataset trở nên phức tạp hơn, overhead về tính toán và truyền thông liên quan đến huấn luyện phân tán và tổng hợp trở thành nút thắt đáng kể, và vẫn tồn tại nhận thức rằng chủ sở hữu dữ liệu phải chấp nhận một công nghệ khá phức tạp mới có thể đảm bảo được value proposition

[ ## Kết luận ]

Dù đã có nhiều tiến bộ đáng kể từ sau năm 2016, thu thập dữ liệu vẫn là một nỗi đau đối với startup
Có vẻ như cộng đồng hay thị trường sẽ không tự giải quyết được vấn đề này
Phần lớn startup AI khi thành lập vẫn sẽ đối mặt với khó khăn trong thu thập dữ liệu, nhưng đây cũng có thể là cơ hội để khác biệt hóa
Xây dựng nền tảng đúng đắn một cách sáng tạo vẫn là nguồn lợi thế cạnh tranh rất thực tế
Bản thân dữ liệu sẽ không bao giờ có thể trở thành moat
Theo thời gian, đối thủ rồi cũng sẽ thành công trong việc có được dữ liệu của riêng họ hoặc tìm ra các kỹ thuật hiệu quả hơn để đạt cùng kết quả
Điều này có thể thấy rất rõ trong các đánh giá LLM suốt năm qua, khi khoảng cách hiệu năng giữa mô hình nhỏ và mô hình lớn dần thu hẹp
Thu thập dữ liệu xuất sắc cuối cùng là cần thiết, nhưng không đủ
Đó là một yếu tố để thành công, cùng với sản phẩm killer và sự thấu hiểu khách hàng thực sự

1 bình luận

thfvkfk 2024-04-29

Cảm ơn, đúng là một lượng thông tin khổng lồ~

Chiến lược thu thập dữ liệu cho startup AI năm 2024

[ #1 Mô hình tạo sinh quy mô lớn (Large Generative Models) ]

Tạo dữ liệu tổng hợp bằng LLM và LMM

Gán nhãn dữ liệu và tích hợp dataset bằng LLM

LLM như một grader

[ #2 Nền tảng gán nhãn dữ liệu ]

Đặc điểm theo từng nền tảng và các tay chơi mới

Cách cải thiện chất lượng dữ liệu chú thích bởi con người

[ #3 Dataset mở ]

Những điểm cần cân nhắc khi dùng dataset mở

Các tài nguyên dataset mở hữu ích

[ #4 Môi trường mô phỏng ]

Những điểm cần cân nhắc khi xây dựng môi trường mô phỏng

Các trường hợp sử dụng và môi trường mã nguồn mở

[ #5 Scraping web/sách và các tài liệu khác ]

Đánh đổi giữa chất lượng và số lượng dữ liệu

Curriculum learning và tuyển chọn dataset

Ví dụ

[ #6 Vấn đề bản quyền và khả năng cấp phép ]

Sự xuất hiện của hệ thống chứng nhận nguồn dữ liệu đạo đức

Ví dụ

[ #7 Nhu cầu về dataset gán nhãn quy mô lớn đang giảm ]

Hạn chế và những điểm cần cân nhắc

[ #8 Những thứ còn quá sớm ]

Data marketplace

Gamification

Federated learning

[ ## Kết luận ]

Bài viết liên quan

1 bình luận