Suy luận của GPT-5 trong ChatGPT (Research Goblin) cực mạnh về tìm kiếm
(simonwillison.net)- ChatGPT dựa trên GPT-5 (còn gọi là Research Goblin) cho thấy mức độ chính xác và hữu ích rất cao trong tìm kiếm web
- Từ các câu hỏi trivial thông thường đến điều tra thông tin phức tạp, nó thể hiện năng lực khám phá và suy luận mạnh mẽ trên nhiều chủ đề rộng lớn
- Trong các ví dụ thực tế, nó cung cấp câu trả lời và tài liệu đáng tin cậy thông qua quy trình tìm kiếm đồ sộ và suy luận theo chuỗi
- Ngay cả trong môi trường di động, người dùng vẫn có thể trải nghiệm tính tiện dụng vượt trội và luồng công việc liên tục
- Nhờ tích hợp tool calling và chain-of-thought, từ góc nhìn nhà phát triển, nó đặt ra một tiêu chuẩn mới cho tìm kiếm dựa trên LLM
Suy luận GPT-5 (Research Goblin) và cuộc cách mạng tìm kiếm
Mô hình tìm kiếm đang thay đổi
- Trước đây, lời khuyên chủ đạo là “đừng dùng chatbot như công cụ tìm kiếm”, nhưng với ChatGPT dựa trên GPT-5 mới nhất, quy tắc đó đang bị phá vỡ
- Mô hình dựa trên GPT-5 không chỉ dừng ở việc tích hợp với các công cụ tìm kiếm như Bing mà thực tế đã đạt tới mức có thể thay thế hoặc vượt qua việc nghiên cứu trên Internet
- Biệt danh “Research Goblin” xuất hiện vì khi được giao bất kỳ thắc mắc hay nhiệm vụ phức tạp nào, nó sẽ điều tra một cách dai dẳng gần như bất thường để rút ra câu trả lời tối ưu
Các ví dụ tìm kiếm thực tế và kết quả
Travelators thú vị
- Khi được hỏi thời điểm băng chuyền di chuyển bằng cao su ở sân bay Heathrow được thay bằng kim loại, nó ước tính là trong giai đoạn 2014–2018 và còn tìm ra một bài viết thú vị liên quan từ năm 2024
Nhận diện tòa nhà
- Khi được hỏi về một tòa nhà lạ mắt nhìn thấy ngoài cửa sổ tàu, chỉ trong 1 phút 4 giây nó đã xác định chính xác đó là 'The Blade (Reading)', đồng thời cung cấp cả liên kết nguồn
Điều tra cake pop của Starbucks UK
- Nó điều tra chuyên sâu lý do các cửa hàng Starbucks tại Anh không có cake pop, và phát hiện rằng sản phẩm này được đưa vào từ năm 2023 nhưng một số cửa hàng nhất định (đặc biệt là cửa hàng tại điểm du lịch) không kinh doanh
- Nó cũng tổng hợp các tài liệu chứng minh như PDF hướng dẫn dinh dưỡng và dị ứng, thảo luận trên Reddit, v.v.
Mối quan hệ giữa Wikipedia và Britannica
- Nó phân tích sâu tính xác thực và ngữ cảnh của phát biểu trên mạng rằng Wikipedia thời kỳ đầu đã sử dụng một phần dữ liệu nguồn từ Britannica bản năm 1911, rồi lần theo và cung cấp cả tài liệu dự án lẫn phần giải thích liên quan
Tên chính thức của University of Cambridge
- Nó đưa ra tên pháp lý chính thức của Đại học Cambridge là
The Chancellor, Masters, and Scholars of the University of Cambridge, kèm theo tài liệu căn cứ - Nó cũng trình bày minh bạch quá trình suy luận để có thể kiểm chứng độ tin cậy của đáp án
Lịch sử hang động và nhà hàng ở Exeter quay
- Về cấu trúc bên trong nhà hàng được khoét vào vách đá ở khu Quay của Exeter và lịch sử của nó, sau nhiều bước tìm kiếm và phân tích PDF, nó xác định được bối cảnh hình thành trong các vách sa thạch đỏ vào thập niên 1820–1830
- Nó cho thấy một kiểu tìm kiếm rất chủ động, như tìm báo cáo/bản vẽ tiếng Anh và thậm chí soạn sẵn bản nháp email yêu cầu thông tin khi không thể tiếp cận trực tiếp
So sánh Aldi và Lidl
- Nó phân tích dài về vị trí tại Anh, hình ảnh thương hiệu, thứ hạng thị trường của Aldi và Lidl, bao gồm cả số liệu về thị phần và đánh giá người tiêu dùng
- Theo yêu cầu của người dùng, nó còn sắp xếp lại bảng xếp hạng dựa trên tiêu chí “fanciness” (mức độ cao cấp)
Việc quét sách của các phòng thí nghiệm AI
- Ngoài trường hợp Anthropic quét số lượng lớn sách để tạo dữ liệu huấn luyện, nó cho biết không thể xác nhận liệu các viện nghiên cứu AI khác có hành vi tương tự hay không, nhưng vẫn ghi lại chi tiết quá trình dò tìm khả năng này
Ưu thế thực chất của tìm kiếm GPT-5
- Trong tìm kiếm bằng ChatGPT dựa trên GPT-5, có thể thu thập và đánh giá thông tin nhanh hơn, có hệ thống hơn và rộng hơn so với làm thủ công
- Đặc biệt, khả năng sử dụng trong môi trường di động đã được cải thiện mạnh, giúp thỏa mãn tò mò thường ngày hoặc xử lý các tác vụ điều tra hàng ngày ở bất cứ đâu
- Nó sở hữu khả năng cung cấp kết quả nhanh nhưng vẫn phong phú đến mức có thể thay thế tính năng Deep Research của OpenAI
Ý nghĩa từ góc nhìn phát triển LLM
- Nhờ sự kết hợp giữa tool calling và chain-of-thought, việc tìm kiếm, suy luận theo chuỗi và khám phá bổ sung có thể được nối liền một cách tự nhiên chỉ trong một bước “suy nghĩ”
- Công nghệ RAG (kết hợp tìm kiếm và sinh nội dung) cũng có thể được vận hành mạnh mẽ hơn nhiều nhờ gọi tool linh hoạt qua nhiều bước và liên kết tìm kiếm nâng cao
- Theo cách gọi của Anthropic, đây là interleaved thinking, và OpenAI Responses API cũng hỗ trợ luồng tương tự
Mẹo để tận dụng tìm kiếm hiệu quả
- Có thể nâng cao chất lượng tìm kiếm thông qua trực giác kinh nghiệm (ví dụ dùng các gợi ý như “go deep” để thúc đẩy điều tra kỹ hơn)
- Ngay cả với những câu hỏi mang tính diễn giải không có đáp án rõ ràng, nó vẫn có thể tạo ra kết quả hữu ích và thú vị
- Giống như phép ẩn dụ “goblin”, Research Goblin là một AI tìm kiếm chăm chỉ nhưng không thể tin cậy hoàn toàn, khác với con người, và vì thế có giá trị ứng dụng cao
1 bình luận
Ý kiến trên Hacker News
Tôi đồng ý với bài viết của Simon, nhưng tôi cho rằng “nghiên cứu” có nghĩa là so sánh nhiều dạng bằng chứng khác nhau. Ví dụ, nó có thể áp dụng cho nhiều lĩnh vực như hiệu quả của Obamacare, dự đoán phán quyết pháp lý, phân tích tầm ảnh hưởng của hoạt hình, hay cách tận dụng thư viện mã nguồn mở. ChatGPT và các LLM khác gặp khó khăn trong việc đánh giá bằng chứng hoặc hiểu độ thiên lệch của nguồn, đặc biệt khi phải xử lý nhiều thống kê thì càng suy luận có vẻ hợp lý lại càng dễ tăng ảo giác. Mô hình có xu hướng muốn ủng hộ góc nhìn của người dùng nên thường cố trả lời theo hướng tích cực ngay cả khi không được yêu cầu. Tôi luôn yêu cầu ChatGPT tự đánh giá trực tiếp các nguồn, so sánh lập luận ủng hộ và phản đối, và đôi khi còn phản biện lại mô hình để xem nó phản ứng thế nào. Có thể xem trải nghiệm chi tiết hơn trong blog
Tôi từng dùng Perplexity để tìm thiết lập tối ưu cho màn hình của mình, và nó đưa ra một danh sách thiết lập ngắn gọn cùng lý do. Nhưng khi kiểm tra nguồn thì không có thông tin chính thức hay cơ sở nào cả, chỉ là các bài đăng trên diễn đàn Samsung nơi người dùng suy đoán hoặc tranh luận với nhau. Sẽ rất hay nếu có confidence rating dựa trên độ tin cậy của nguồn, nhưng có vẻ đó là thứ cực kỳ khó triển khai
ChatGPT và các LLM thường chỉ lặp lại những kiểu “lẽ thường” bề mặt. Tôi phải hỏi tiếp nhiều lần để kiểm tra xem điều đó thực sự có căn cứ không, nguồn là gì, yêu cầu trích đoạn thông tin, rồi xác nhận lại xem có phải ảo giác không. Khá thường xuyên là câu trả lời đầu tiên hóa ra hoàn toàn sai. Có lẽ đa số mọi người sẽ cứ chấp nhận luôn câu trả lời đầu tiên đó
Ví dụ, khi cố đưa ra quyết định mua hàng có tìm hiểu kỹ, tôi thấy rất khó vì phần lớn là ý kiến mang tính marketing, còn các tín hiệu ngược lại như bình luận tiêu cực trên Reddit hay YouTube thì không được bù đắp đầy đủ
GPT-5 (như model o3) là một trong những LLM có góc nhìn phản biện mạnh nhất. Với các yêu cầu học thuật và kỹ thuật, nó có thể trích nguồn thông tin và so sánh các kết quả khác nhau mà gần như không cần prompt gì đặc biệt. Phiên bản đầu của Grok 4 chỉ đơn giản tóm tắt bài báo mà không phân tích, còn Claude Opus 4 cũng đi chệch trọng tâm, như khi được yêu cầu liệt kê thư viện JS thì lại trả về tài liệu thiên về mức độ sử dụng. GPT-5 tất nhiên không hoàn hảo, nhưng vẫn tốt hơn con người trung bình
Tôi muốn hỏi mọi người nghĩ gì về việc từ “nghiên cứu” được dùng để chỉ một bộ tính năng trong LLM. Liệu đây có thực sự là thuật ngữ đại diện đầy đủ cho nghiên cứu hay chỉ ở mức gần giống thành ngữ “do your research” thường thấy vào mùa bầu cử ở Mỹ
Tôi vẫn thấy tìm kiếm Google (đặc biệt khi dùng
udm=14để tắt AI summary) là một trải nghiệm khá tốt. Ví dụ với các câu hỏi liên quan đến Britannica và Wikipedia, tôi có thể lấy kết quả từ Google và Wikipedia trong vòng 1–2 giây mỗi nơi, và chỉ mất khoảng 60 giây là tự tìm được đúng thứ mình cần. Trong khi đó ChatGPT mất khoảng 3 phút xử lý, rồi tôi lại còn phải tự kiểm tra kết quả và xem có ảo giác không. Rốt cuộc, việc LLM có thể làm được tác vụ X thì rất ấn tượng, nhưng tôi vẫn thấy tự tìm kiếm rồi tự tổng hợp hiệu quả hơn nhiềuDựa trên trải nghiệm gần đây của tôi thì tôi hơi khác ý. Nếu không tắt Google AI summary thì trải nghiệm chắc chắn tệ hơn. Ví dụ khi tìm repo Github, Google không tìm ra đúng trang thực tế mà chỉ đưa các liên kết lạc đề. GPT tuy mất thời gian hơn nhưng tùy phạm vi nghiên cứu lại có lợi thế riêng. Với các chủ đề sâu như di chuyển đơn vị trong StarCraft2, việc có thể liên tục yêu cầu GPT tóm tắt/giải thích/đưa cả nguồn code trong một mạch là rất tiện, và tôi cũng đủ khả năng tự lọc lỗi. Tôi nghĩ tương lai mọi hoạt động duyệt internet sẽ được hỗ trợ theo kiểu dựa trên LLM
Tôi tìm "Rubber bouncy at Heathrow removal" bằng Google thì ra 3 liên kết, còn ChatGPT dường như có chút ảo giác trong phần đưa bằng chứng. Cả tìm kiếm hình ảnh ngược hay tra giá pop của Starbucks cũng cho cảm giác là tự tìm trực tiếp hiệu quả hơn. Dù vậy, mọi người vẫn thích ChatGPT vì sự tiện lợi khi nó trả lời thông tin trên web trong một lượt. Dù thỉnh thoảng có ảo giác, xu hướng hiện tại là chấp nhận cái giá đó. Giống như trước đây người ta tin thư viện hơn Wikipedia, có lẽ sự tiến hóa của LLM cũng có thể trở thành một bước chuyển mô hình mới
Đề xuất của tôi là khi làm thử nghiệm với Google, hãy chọn những ví dụ khó trả lời nhất mà thử
Tôi đã hỏi một câu đơn giản ở chế độ GPT-5 Auto và nó bắt đầu trả lời chỉ sau 2 giây, đồng thời đưa ra 2 liên kết chính xác với tốc độ dễ đọc. Ở chế độ Think thì mất khoảng 2 phút, nhưng nó so sánh nhiều nguồn và bổ sung căn cứ cho mọi phần tóm tắt. Tôi đang tận dụng GPT rất tốt cho những thông tin chính quyền địa phương khó tìm, hoặc phân tích PR mã nguồn mở phức tạp. Cảm giác nó thực sự hữu ích vì thay tôi đọc rất nhiều đề xuất
Nếu mọi người không còn trực tiếp vào web mà chỉ tương tác với agent, tôi tò mò web sẽ thay đổi ra sao. Phía trước sẽ là một giai đoạn biến chuyển rất thú vị
Trước đây tôi hay dùng subreddit "Tip of My Tongue" của Reddit để tìm lại thông tin cũ còn nhớ mang máng, nhưng không phải lúc nào cũng giải được. Với tính năng Deep Research, tôi giải quyết được 4 vấn đề từng bó tay chỉ trong 1 giờ, và vấn đề thứ năm thì cũng tự tìm ra được đầu mối. Dù nó còn thiếu ở suy luận logic, khả năng tiêu hóa nhanh hàng chục kết quả tìm kiếm và rút ra thông tin liên quan chỉ từ những mô tả lỏng lẻo là cực kỳ mạnh. Giờ đây tôi có thể tiếp cận sức mạnh tìm kiếm kiểu này chỉ trong vài phút mà không cần bận tâm đến bot spam hay người dùng không tuân thủ quy định trên Reddit
Tôi cũng nghĩ ChatGPT rất giỏi cho nghiên cứu, nhưng thỉnh thoảng có những ca bệnh lý khi nó trả lời hời hợt và có thể sai. Ngay cả khi nguồn sơ cấp khách quan có sẵn trên mạng thì nó vẫn có thể sai, nên tôi chia sẻ blog liên quan
Tôi nghĩ trường hợp bạn mô tả thực ra khác với điều đó. Ý kiến của bạn khác với các bài báo học thuật, rồi bạn gom nó vào blog, khiến tôi cảm thấy như bạn đang muốn ChatGPT chấp nhận góc nhìn của mình. Có vẻ nó có giới hạn trong đánh giá khách quan
Gần đây tôi thấy ChatGPT trở nên bất ổn hơn. Trong hơn một nửa số câu trả lời, nó bịa căn cứ, quên ngữ cảnh hoặc đơn giản là sai. Trong Aistudio, ngay cả khi vượt 300 nghìn token thì Gemini/Aistudio vẫn giữ ngữ cảnh tốt, còn ChatGPT có vẻ yếu khi phải xử lý nhiều thông tin
Tôi cũng có khá nhiều trải nghiệm tương tự. Nếu chuyển sang GPT5 Thinking thì có khá hơn chút, nhưng nó vẫn có xu hướng bỏ sót điều gì đó so với o3 hay o1. Ví dụ tôi hỏi GPT5 về tập suối nước nóng trong tiểu thuyết Botchan, và nó đưa ra một mô tả hơi sai. Trong truyện thật, nhân vật chính bơi trong suối nước nóng rồi sau đó bị bẽ mặt vì biển cấm, nhưng GPT5 chỉ tập trung vào phần giải thích quy tắc
Tôi thấy bài viết của bạn thú vị và phù hợp để thảo luận. Thành thật mà nói tôi nghĩ GPT có thể đã cho câu trả lời tốt hơn, nhưng thảo luận về việc nên dừng nghiên cứu ở mức nào cũng rất có ý nghĩa. Nếu cứ chấp nhận cả những nguồn kém tin cậy hơn thì cuộc tranh luận có lẽ sẽ không bao giờ kết thúc. Cuối cùng, dừng lại ở kết luận được đồng thuận phổ biến có vẻ là một đánh đổi hợp lý
Trong khi các model "heavy" trước đây dường như được nhúng kiến thức ở mức bách khoa toàn thư, thì các model "lighter" gần đây lại phụ thuộc vào web search và chỉ truyền đạt thông tin nông hơn. Tôi nhớ điểm mạnh của những model ghi nhớ được vô số tài liệu offline
Tôi thì hoàn toàn ngược lại. Kiến thức nội tại của model có thể chỉ là ảo giác nên lúc nào cũng cần nghiên cứu xác minh riêng. Ngược lại, nếu LLM đã làm sẵn phần tìm kiếm-tóm tắt, tôi chỉ cần kiểm tra nguồn là thuận tiện hơn rất nhiều. Kagi Assistant làm vai trò này khá tốt
Trong thời gian dài tôi đã tắt tính năng tìm kiếm, nhưng gần đây tôi thêm chế độ dùng web search/kiến thức nội bộ vào custom command. Nhập xz thì web search, còn xx thì chỉ dùng kiến thức nội bộ. Đó là thiết lập có thể chuyển tự do trong cùng một session
Model không có tìm kiếm thì nặng, còn model dựa trên tìm kiếm thì nhẹ hơn nhưng phụ thuộc dữ liệu thực tế mới nhất. Tôi đã qua lại giữa cả hai kiểu, nhưng gần đây thích model nhẹ dựa trên nguồn hơn
Kiến thức thực sự được lưu ở bên ngoài. Đó là lý do thư viện trong trường đại học lại quan trọng. Agent cũng không thể chỉ dựa vào trí nhớ là đủ
Tôi cũng có cảm giác như vậy ở mức nào đó. Sẽ rất thú vị nếu model web search nhẹ có thể cung cấp một giao diện phân biệt, theo từng trang, giữa thông tin đã được nhắc trước đó và thông tin mới, cũng như giữa các căn cứ được nêu ra và những điểm không nhất quán trên mỗi trang
Tác giả xử lý “một lượng công việc nhiều đến mức phi lý” để tìm câu trả lời trên internet, và có vẻ còn rất hào hứng chấp nhận sự lãng phí tài nguyên tính toán đó, điều này làm tôi thấy khó hiểu. Liệu đó có thực sự là mục tiêu không, và việc tiêu tốn tài nguyên khổng lồ vào một “wild goose chase” chỉ để tìm ra đáp án đúng bằng mọi giá có thật sự chính đáng không
ChatGPT thực sự đáng kinh ngạc, nhưng tôi nghĩ các giáo viên trung học hay giảng viên đại học sẽ vất vả vì loại công cụ này. Ví dụ, nếu giao một bài như “hãy điều tra thật sâu và tìm tối đa bằng chứng cho thấy Chúa tể của những chiếc nhẫn chịu ảnh hưởng từ Gormenghast” thì sinh viên chắc chắn sẽ tự động dùng deep research ví dụ chia sẻ
Tôi tò mò không biết bạn có tự fact-check hay không, có bấm vào tất cả liên kết để kiểm tra nguồn không. Tôi cũng từng khoe là ChatGPT đã “giải quyết” được gì đó, nhưng hóa ra chỉ là thông tin trên Wikipedia và còn sai nữa
Hầu hết sinh viên gian lận ở trường đều lười biếng và không quan tâm đến địa vị, nên họ chẳng hứng thú gì với bài tập chất lượng cao. Không có lý do gì để họ dùng chế độ Thinking vốn mất nhiều thời gian
Tôi thấy buồn cười vì trong câu trả lời của ChatGPT có dùng từ mới như ‘steel-man’
Trong workshop cho giáo viên, tôi nảy ra ý tưởng dạy phương pháp đặt câu hỏi kiểu Socrates, rồi giúp học sinh tự lập luận về thông tin lấy từ Google/ChatGPT. Đây là cách tiếp cận để các em trực tiếp phát biểu lại kiến thức được khuếch đại nhờ nghiên cứu bằng LLM, đồng thời sắp xếp mức hiểu biết hiện tại của chính mình
Dù đây là những câu hỏi chỉ cần nhập vào Brave search là xong trong vài giây, LLM đôi khi lại mất thời gian đáng ngạc nhiên
Tôi thích Brave nhưng không thích kết quả tìm kiếm của nó. Tính năng AI cũng tạm ổn nhưng gần như không cho ra kết quả thực tế mà tôi muốn
Dạo này có quá nhiều website chất lượng thấp tối ưu SEO mọc lên như một bức tường, nên tôi không dễ dàng bị thuyết phục như vậy
Dùng Chat+Search thì có lợi thế là nhận được câu trả lời ngay mà không phải lo quảng cáo, click, content farm hay mã độc
Tôi bị lẫn không biết đây là tính năng nào của ChatGPT trong số “Web Search”, “Deep Research”, hay “Agent Mode”. Cấu hình tính năng đúng là khá thú vị
Không phải Deep Search hay Agent Mode. Tôi chọn “GPT-5 Thinking” và chỉ bật công cụ tìm kiếm thông thường
Theo trải nghiệm của tôi thì kết quả này gần như chỉ là “tìm trên Reddit rồi phủ thêm bình luận”
Cũng đừng quên “ChatGPT 5 Pro”. Nó hơi khác so với Deep Research
Tôi nghĩ chỉ là chế độ mặc định thôi. Dù không bật riêng tùy chọn web search thì nó vẫn tự tìm. Tôi cũng thắc mắc tại sao còn có tùy chọn riêng
Theo cảm giác của tôi, ít nhất đây là chế độ ChatGPT 5 Thinking có bật web search ở cấp hồ sơ. Nếu có yêu cầu về thông tin mới hoặc nghiên cứu, ChatGPT có xu hướng vừa suy nghĩ sâu vừa đi tìm thông tin
Tôi từng tò mò podcast mình nghe kiếm được bao nhiêu tiền. Hai danh hài xuất thân từ Phoenix bắt đầu mà không có fan theo dõi, giờ đã lên top bảng xếp hạng Apple. Trước đây tôi cố tìm nhưng không có câu trả lời rõ ràng, còn GPT-5 thì đã nghiên cứu “quá mức cần thiết”, đối chiếu chéo nhiều nguồn và đưa ra cả một khoảng ước lượng đáng tin cậy
Vậy tôi tò mò khoảng đó là bao nhiêu
Gần đây GPT cũng có vẻ đưa ra câu trả lời dài dòng hơn. Google Gemini đôi khi còn tung ra cả những bài báo học thuật vô ích, và ChatGPT cũng có xu hướng cho những bản báo cáo lê thê hơn là thông tin súc tích. Có lẽ vì mọi người tin hơn vào kiểu phản hồi dài như báo cáo. Thêm nữa, dù có đưa ra căn cứ hay số liệu chi tiết thì vẫn có những câu trả lời dễ kiểm chứng và những câu rất khó kiểm chứng. Tôi cũng lo là nếu dùng LLM quá nhiều thì kỹ năng nghiên cứu của mình sẽ bị mai một. Một điều nữa tôi cảm nhận khi thử MCP là nó tiêu tốn lượng tài nguyên vô lý. Những kiểu deep research này có vẻ đang được OpenAI cung cấp rất rẻ dù phải chịu lỗ, nên nếu sau này tăng giá mạnh thì bản thân sự phụ thuộc vào nó cũng có thể trở thành rủi ro