Tôi không hiểu vì sao mọi người vẫn còn lạc quan về LLM
(twitter.com/skdh)> "I genuinely don't understand why some people are still bullish about LLMs."
- Tôi sử dụng nhiều LLM khác nhau như GPT, Grok, Gemini, Mistral mỗi ngày
- Tôi dùng chúng với kỳ vọng tiết kiệm thời gian tra cứu và tóm tắt thông tin, nhưng chúng vẫn thường xuyên bịa ra nguồn, trích dẫn, liên kết, v.v.
- Khi nhấp vào liên kết thì gặp lỗi 404, hoặc tìm câu trích dẫn được nêu ra thì thực tế không hề tồn tại
- Ngay cả khi trích dẫn bài báo khoa học, nhiều trường hợp tìm lại cũng không tồn tại
Đã có một số cải thiện, nhưng độ tin cậy vẫn thấp
- Nhờ dùng các kỹ thuật như DeepSearch hay Chain of Thought, độ chính xác có cải thiện đôi chút so với trước đây
- Theo ước đoán cá nhân, DeepResearch của GPT-4o hiện là thứ đáng tin cậy nhất
- Grok dù được yêu cầu cũng không cung cấp liên kết tham khảo tốt, thậm chí còn không nối đúng cả liên kết tweet
- Gemini còn tệ hơn, thay vì tìm nguồn thì chỉ đưa ra chỉ dẫn bảo người dùng tự tìm kiếm
Hữu ích cho các phép tính đơn giản hoặc tra cứu hằng số, nhưng độ chính xác vẫn là vấn đề
- Những thứ như đổi đơn vị hay hằng số vật lý được cung cấp nhanh nên có tác dụng tiết kiệm thời gian
- Nhưng chúng vẫn thường mắc lỗi ở các phép tính đơn giản như ước lượng quy mô
- Tôi nghi ngờ liệu có cần đến một LLM với hơn 100 triệu tham số cho những việc như thế hay không
Kết quả đáng thất vọng cả trong việc tóm tắt tài liệu
- Tôi đã tải lên một tài liệu PDF và yêu cầu tóm tắt, nhưng nó lại nhầm một tài liệu ghi rõ năm 2025 ở phần đầu thành tài liệu của năm 2023
- Những lỗi như vậy khiến tôi cảm thấy nó rất xa với thứ có thể gọi là "trí tuệ"
Đồ thị tri thức cũng không phải là lời giải
- Nhiều người kỳ vọng đồ thị tri thức sẽ giải quyết vấn đề của LLM, nhưng trên thực tế điều đó là không thể
- Vẫn có rất nhiều câu văn nhất quán về mặt logic nhưng hoàn toàn không liên quan gì đến thực tế
- Ngay cả khi đồ thị tri thức ngăn được lỗi logic, các câu không liên quan đến tính xác thực vẫn có thể tiếp tục được tạo ra
Lo ngại về việc thị trường định giá quá mức
- Các công ty đang liên tục thổi phồng LLM, và đây là một yếu tố rủi ro
- Nếu xuất hiện một dạng mô hình AI hoàn toàn mới vượt qua LLM, giá trị của các công ty hiện tập trung vào LLM có thể sụt giảm mạnh
- Khi ngày đó đến, thị trường chứng khoán được dự đoán sẽ chịu một cú sốc lớn
2 bình luận
Tôi cũng từng nghĩ tương tự vào khoảng năm ngoái, nhưng khi nhìn vào tốc độ phát triển thì ngược lại, tôi đã trở nên lạc quan hơn.
Ý kiến trên Hacker News
LLM là một công nghệ đáng kinh ngạc, giúp hiện thực hóa những điều đã được mơ ước từ lâu. Chúng có thể hiểu và trò chuyện bất chấp lỗi chính tả hay câu hỏi chưa chuẩn, tạo ra hình ảnh ấn tượng và còn hỗ trợ viết mã. Tuy vậy, một số người lại phàn nàn vì chúng không phải siêu trí tuệ hoàn hảo. Tốc độ tiến bộ của công nghệ này nhanh đến mức đáng kinh ngạc. Có người còn chê rằng nó "không thể viết code như một kỹ sư senior có 20 năm kinh nghiệm"
Trải nghiệm khi chủ yếu dùng Claude lại rất khác. Tôi không cố giao cho LLM những việc mà chúng có vẻ sẽ không làm tốt. Người dùng AI thường chia thành hai nhóm: người đi tìm thất bại và người đi tìm thành công. Với các tác vụ scripting đơn giản, LLM gần như hoàn hảo. Nếu tìm ra cách để AI hoạt động hiệu quả, nó có thể trở thành một công cụ cực kỳ mạnh
Tính khả dụng của LLM vẫn còn thiếu sót. Việc trích dẫn hay cung cấp nguồn vẫn làm chưa tốt. Việc máy tính không thể tìm đúng sự thật lại đi ngược với điểm mạnh truyền thống của máy tính
Nhiều người đang dùng LLM sai cách. Gần đây có rất nhiều tranh luận về việc liệu mô hình ngôn ngữ có phải lựa chọn phù hợp nhất cho chuyển giọng nói thành văn bản hay không. Cách đây 10 năm chưa có chuyển ngữ máy theo thời gian thực, nhưng giờ điều đó đã khả thi và vẫn đang tiếp tục tiến bộ. Dù mô hình AI có lỗi, chuyển giọng nói thành văn bản bằng máy vẫn hữu ích trong nhiều tình huống
Tôi phân vân liệu có nên nghe theo ý kiến của Sabine hay không. LLM có thể thực hiện các tác vụ mô hình hóa chuỗi và dự đoán. Nếu có thể quy bài toán về mô hình hóa chuỗi, thì LLM có thể xử lý được tác vụ đó
Điểm chung trong các chỉ trích nhắm vào LLM là chúng không hoàn hảo. Tôi thường dùng ChatGPT cho nghiên cứu học thuật. Đôi khi nó bịa cả tài liệu tham khảo, nhưng vẫn giúp tôi tìm ra những bài nghiên cứu quan trọng. Kiểm tra độ chính xác thì dễ, còn tìm ra tri thức mới là điều khó. Vì vậy xét tổng thể, nó mang lại tác động tích cực lớn
Có nhiều người đang nhầm lẫn giữa sức mạnh của công nghệ với bong bóng mà chúng ta đang sống trong đó. Tôi gửi hàng triệu yêu cầu tới AI và nhận được thứ mình cần. Công nghệ vẫn đang phát triển, còn chi phí cũng đang thay đổi. Mọi người có xu hướng nghĩ rằng AI làm được cả những điều mà thực tế nó không thể làm
Tôi dùng Claude rất nhiều và tạo các chương trình cho câu hỏi liên quan đến sức khỏe. Khả năng giải thích logic cho các câu hỏi phức tạp và điều chỉnh lại phân tích là vô cùng có giá trị. So với bác sĩ, trách nhiệm vẫn thuộc về người dùng
Nhiều người không giỏi xử lý các công cụ "không hoàn hảo". LLM là công cụ không có xác suất thành công 100%, nên cần một cách tiếp cận khác. Nếu hình dung nó như một oracle xác suất, thì mức độ hữu ích sẽ thay đổi theo xác suất thành công
Tôi có nhiều người bạn không giỏi hòa hợp với người khác, nhưng tôi thì hòa hợp tốt với mọi người. AI cũng vậy: không hoàn hảo, nhưng là một công cụ đáng kinh ngạc. Ưu điểm của AI vượt xa những sai sót của nó. Học cách làm việc với AI cũng như với con người là kỹ năng quan trọng nhất cần có trong thế kỷ 21