Vấn đề của OpenAI Deep Research
(ben-evans.com)> "Deep Research của OpenAI được tạo ra cho những người như tôi, nhưng tôi lại không thể dùng nó. Trông như một bản demo rất ấn tượng, nhưng rốt cuộc vẫn lại phát sinh vấn đề. Và cách mà vấn đề đó xuất hiện khá thú vị." - Benedict Evans
- Công việc tôi chủ yếu làm là nghiên cứu và phân tích
- Tìm dữ liệu mình cần, sắp xếp lại, tạo biểu đồ, rồi từ đó rút ra insight và thể hiện chúng bằng văn bản cùng biểu đồ
- Sau đó dùng những kết quả này làm nền tảng để trao đổi với mọi người
- Deep Research của OpenAI trông như một giải pháp tự động hóa kiểu "công việc nghiên cứu" này
- Tôi tò mò liệu công cụ này có thực sự phù hợp hay không nên đã thử kiểm nghiệm
- Đúng lúc đó, chủ đề của báo cáo mẫu do Deep Research cung cấp là "thị trường smartphone", một lĩnh vực mà tôi rất am hiểu
- Bảng trong báo cáo mẫu thoạt nhìn có vẻ rất tốt
- Nhưng trước hết cần đặt ra câu hỏi nền tảng là "dữ liệu này đến từ đâu"
- Deep Research nêu 'Statista' và 'Statcounter' làm nguồn, nhưng cả hai nguồn đều có vấn đề
- Statcounter là thống kê dựa trên traffic, nên do chênh lệch về mức độ sử dụng thiết bị, một số nền tảng có xu hướng bị phản ánh quá mức hoặc quá ít
- Statista tận dụng tối ưu SEO để tái tổng hợp các nguồn khác, còn nguồn thực tế thì tồn tại ở nơi khác
- Điều này gần như không khác mấy so với việc nói rằng "nguồn là kết quả tìm kiếm Google"
- Lấy ví dụ số liệu thị phần iOS/Android ở thị trường Nhật Bản, Deep Research đưa ra con số "iOS 69%, Android 31%"
- Ngay cả Statcounter cũng chưa từng đưa ra con số 69% trong vòng 1 năm gần đây
- Nguồn thực sự đứng sau Statista là Kantar Worldpanel, nhưng số liệu Kantar cung cấp lại gần như ngược hẳn (khoảng Android 63%, iOS 36%)
- Trong khi đó, tài liệu của cơ quan chính phủ Nhật Bản (liên kết, trang 25) cho biết "khoảng 53% Android, 47% iOS"
- Hơn nữa, số liệu Kantar đôi khi còn dao động tới 20 điểm phần trăm theo từng tháng, nên khó xem đó là dữ liệu thể hiện "tỷ lệ cài đặt phần cứng thực tế"
- Để kiểm tra hết những khác biệt này, cuối cùng vẫn phải xác minh lại mọi con số trong bảng đó
- Trong trường hợp này, lợi ích cốt lõi là "tiết kiệm thời gian" khi dùng công cụ gần như biến mất đáng kể
- Kết quả là rất khó để tin tuyệt đối vào dữ liệu mà Deep Research đưa vào bảng
- Vấn đề ở đây là "LLM không phải là cơ sở dữ liệu"
- LLM mạnh ở việc hiểu ý định câu hỏi theo cách xác suất, nhưng lại yếu trong công việc mang tính "quyết định" là trích xuất chính xác số liệu từ một nguồn cụ thể
- Deep Research lẽ ra phải hiểu đúng muốn loại thị phần theo nghĩa nào, rồi lấy số liệu chính xác từ nguồn đáng tin cậy, nhưng nó đã không làm được
- Điều này cho thấy hiện tượng "LLM làm tốt phần mà máy tính vốn không giỏi (hiểu ngữ cảnh), nhưng lại làm chưa tốt phần mà máy tính vốn giỏi (trích xuất thông tin chính xác)"
- OpenAI đang cố giao cho nó cả vai trò suy luận ý định người dùng lẫn vai trò thu thập thông tin chính xác, nhưng ở trạng thái hiện tại vẫn xảy ra lệch pha
- Hơn nữa, lỗi còn xuất hiện ngay cả khi đây là tài liệu mẫu do phía OpenAI đưa ra để quảng bá
- Một số người có thể nói rằng "mô hình sẽ dần được cải thiện nên mọi thứ sẽ tốt hơn"
- Tuy nhiên, dù bảng đúng 85%, chỉ cần 15% còn lại sai thì độ tin cậy tổng thể vẫn thấp
- Chỉ khi tiến rất gần 100% thì mới có thể nói đến "nghiên cứu được tự động hóa hoàn toàn", và tôi hoài nghi liệu điểm đó có thật sự đạt tới được hay không
- Dù vậy, điều này không có nghĩa là công nghệ này hoàn toàn vô dụng
- Nếu đó là chủ đề mà bản thân rất hiểu, ta có thể nhanh chóng tạo ra một báo cáo dài 20 trang rồi tự sửa các lỗi để tiết kiệm thời gian
- Tôi gọi LLM là "thực tập sinh vô hạn", và điều đó giống với việc bản nháp do thực tập sinh mang tới vẫn cần được hiệu đính
- Trích lời Steve Jobs rằng máy tính là chiếc xe đạp cho tâm trí, có lẽ tốt nhất nên dùng nó như một công cụ hỗ trợ năng lực con người
- Tuy nhiên, về căn bản vẫn có hai vấn đề
- Không rõ nên xây dựng sản phẩm với tiền đề rằng mô hình có thể sai, hay nên giả định rằng bản thân mô hình rồi sẽ trở nên đủ đáng tin
- Các công ty như OpenAI, ngoài nguồn vốn khổng lồ ra, hiện chưa thực sự có rào cản gia nhập đặc biệt hay năng lực sản phẩm nổi trội (ngoài lĩnh vực coding và marketing)
- Để một thử nghiệm như Deep Research trở thành một "sản phẩm" vượt quá mức textbox + API, họ phải giải quyết được quản lý lỗi và ngữ cảnh sử dụng
- Các đối thủ như Perplexity cũng đang xuất hiện, và rốt cuộc kịch bản có khả năng cao là phần mềm khác sẽ dựa trên API trừu tượng hóa LLM để quản lý tỷ lệ lỗi
- Kết luận lại, Deep Research là một thử nghiệm thú vị nhưng hiện vẫn khó bảo đảm độ tin cậy, và cũng chưa rõ ngành sẽ phát triển theo hướng nào
Chưa có bình luận nào.