Trong thử nghiệm của tôi, Phind 70B cũng đưa ra câu trả lời ảo giác
Ví dụ, khi tôi hỏi về nút bịt tai Bluetooth có thể dễ dàng thay pin, nó liên tục đề xuất những sản phẩm mà tôi biết là pin được hàn vào hộp. Công bằng mà nói, Perplexity cũng thất bại với câu hỏi này
Tôi nghĩ vẫn còn khá nhiều chỗ để cải thiện, và họ đang làm cho cấu trúc câu trả lời cùng khả năng kiểm chứng tốt hơn
Phind từng là công cụ tôi chủ yếu dùng để lấy thông tin liên quan hơn và mới hơn có thể tìm thấy trên Internet, nhưng khoảng 3 tháng trước thì không còn như vậy nữa
Theo thời gian, với nhiều câu hỏi, câu trả lời ngày càng thường xuyên không đầy đủ hoặc sai; tệ hơn nữa là nó nói không tìm được câu trả lời, trong khi đáp án lại có ngay trong các trang tham khảo
Cuối cùng tôi chủ yếu quay lại dùng Bing và gpt 4o, và nói thật là tôi do dự không muốn bỏ thời gian thử lại phiên bản mới
Ở đây tôi thấy tài liệu tham khảo, nhưng khi tôi đặt câu hỏi thì dù đã đăng nhập, nó chỉ hiện câu trả lời mà không có trích dẫn
Tôi nhớ đây từng là vấn đề trước đây rồi đã được sửa, nhưng tôi vẫn gặp. Nếu đăng xuất rồi hỏi thì có tài liệu tham khảo, nhưng khi đó câu trả lời dùng mô hình instant
Vì lý do tương tự, tôi thích dùng Brave Search
Có thể dễ dàng chuyển giữa tìm kiếm thông thường và tìm kiếm dựa trên LLM, tùy bên nào phù hợp hơn
Tôi vừa dùng thử, hỏi về một chủ đề nghiên cứu đang tìm hiểu; nó có trả lời nhưng không có tài liệu tham khảo
Vì vậy tôi sao chép câu trả lời và yêu cầu cụ thể thêm tài liệu tham khảo, thì nó xin lỗi kiểu như việc tham chiếu một nghiên cứu cụ thể trong câu trả lời trước là lỗi, và trong kết quả tìm kiếm không có thông tin liên quan nào ủng hộ lập luận đó
Tôi cũng không chắc chuyện này là sao
Tôi thử tiếp thì khi yêu cầu giải thích ngắn gọn cách dùng Laravel 11 Blade fragments, nó trả lời khá ổn
Sau đó tôi đưa 3 dòng mã route dùng trong Laravel và hỏi cách triển khai để quyết định fragment sẽ trả về dựa trên tham số URL
Route::get('/vge-frags/{fragment}', function ($fragment) {
return view('vge-fragments');
});
Việc nó nói cần phải có view đúng được tạo sẵn là một khởi đầu tốt, nhưng sau đó nó lại khuyến nghị như dưới đây
Route::get('/vge-frags/{fragment}', function ($fragment) {
return fragment($fragment);
});
Tôi có thể biết ngay là sai, nhưng người đang học có thể không biết. Vì vậy tôi phải hỏi lại: “Khoan đã, đoạn mã này làm sao biết phải dùng view nào?”, lúc đó nó mới đưa ra câu trả lời đúng
Route::get('/vge-frags/{fragment}', function ($fragment) {
return view('vge-fragments')->fragment($fragment);
});
Các mô hình kiểu này quá dễ bị tìm ra edge case, và về cơ bản phải nghi ngờ mọi câu trả lời nhận được. Dù vậy, có lúc chúng vẫn rất mạnh và hữu ích
Trước tiên nên kiểm tra xem Always search có bật không rồi thử lại câu hỏi đầu tiên
Khi đó đáng lẽ bạn có thể nhận được câu trả lời đúng kèm tài liệu tham khảo
Tôi thật sự ghét những câu kiểu “Là một trợ lý AI, lẽ ra tôi phải cẩn thận hơn”
Đoạn xin lỗi dài đó, nói thật, chỉ là cách nói dài dòng và lặp đi lặp lại rằng “tôi đã nói bừa”
Tất nhiên cũng có người nói như vậy. Nếu cơn sốt LLM có mặt tích cực nào đó, có lẽ nó sẽ giúp chúng ta miễn nhiễm với kiểu nói chuyện như kẻ thái nhân cách
“Có đúng là ‘vấn đề cốt lõi của tìm kiếm dựa trên AI là nó quá chậm so với Google hiện tại. Dù tạo ra câu trả lời tốt hơn, độ trễ bổ sung vẫn khiến người ta ngại dùng’ không?
Những phàn nàn tôi cảm nhận và nghe được phần lớn là về kết quả AI không chính xác, chẳng hạn khi hỗ trợ lập trình thì nó tự tin mắc lỗi sai
Từ lúc nhấn Enter đến khi thấy gì đó hiện ra thì hiển nhiên là chậm hơn
Nhưng chẳng phải mục tiêu cần đo là thời gian từ sau khi nhấn Enter đến khi một cụm câu trả lời đúng có liên quan đi vào đầu sao? Nhìn theo tiêu chí đó, cách làm 20 năm tuổi có vẻ đã đạt đỉnh từ hơn 10 năm trước; nếu không thì Phind đã không thu hút được sự chú ý
Với kiểu tìm kiếm PageRank 20 năm tuổi, thời gian từ lúc tìm kiếm đến lúc câu trả lời đúng đi vào đầu giờ đang tiến gần tới “DNF”, tức gần như không hoàn tất
Dù là ảo giác hay kết quả không liên quan thì đều phải dùng đầu óc để lọc. Xét theo tỷ lệ, kết quả không liên quan nhiều hơn ảo giác, chỉ là chúng ta đã từ bỏ niềm tin vào trang kết quả tìm kiếm từ lâu rồi
Đây là bài toán tam giác tốc độ / độ chính xác / chi phí
Mô hình nhỏ có chi phí phục vụ hiệu quả và nhanh, nhưng có thể sai khoảng một nửa
Mô hình lớn chạy chậm trên phần cứng rẻ, nhưng có thể cho câu trả lời chính xác hơn, và thường đủ nhanh cho mức sử dụng cá nhân
Lựa chọn thứ ba là mô hình lớn, nhanh và chính xác; muốn đạt tốc độ thì phải trả khá nhiều tiền cho Nvidia/Groq, v.v., và để cân đối chi phí điện có khi còn phải xây cả nhà máy điện mặt trời
Theo trải nghiệm của tôi thì đúng
Trước khi tìm gì đó, tôi thường đoán trước xem lướt nhanh kết quả Google sẽ nhanh hơn, hay chờ Perplexity Pro nhả câu trả lời từng dòng một sẽ nhanh hơn
Tôi nghĩ cả hai đều là vấn đề cốt lõi
Khi kết quả chính xác thì lại quá chậm, còn kết quả nhận được cũng thường không chính xác nên khó tin
Không phải dành cho mọi người như tiêu đề nói, mà là dành cho người dùng Pro
Tiêu đề dễ gây nhầm lẫn, mong đổi lại
Tôi tò mò không biết cái này so với Kagi Assistant thì thế nào
Trang gói cước ghi rằng với $20/tháng có tìm kiếm Phind-405B và Phind-70B không giới hạn, hơn 500 lượt GPT-4o mỗi ngày, hơn 500 lượt Claude 3.5 Sonnet mỗi ngày, và 10 lượt Claude Opus
Họ nói “Phind-405B đạt 92% trên HumanEval 0-shot, ngang với Claude 3.5 Sonnet”, vậy có benchmark nào khác không?
Tôi đã trả tiền dùng Phind trong 6 tháng, và hiện giờ thấy Kagi Assistant hài lòng hơn
Nó không đưa nhiều liên kết đến vậy, nhưng kết quả tổng thể tương đương hoặc tốt hơn, và cũng dùng được lenses. Nó còn cung cấp kèm công cụ tìm kiếm thông thường
Phind có một điểm khó chịu về UI: trên Firefox, thanh cuộn thỉnh thoảng nhảy lung tung ngẫu nhiên, hình như xảy ra mỗi lần nhập hoặc cả trong lúc sinh token. Nếu lần nào cũng phải tìm lại vị trí đang đọc thì khá tốn thời gian, và chỉ riêng việc phải quay lại cuối trang cũng đã phiền
Vấn đề cốt lõi vẫn là cả hai đều có quá nhiều ảo giác ở các câu hỏi khó, và đây là vấn đề chung ở mọi nơi
Vì có extension cho VSCode nên nếu bạn dùng nó thì cũng có phần hợp lý
Còn nếu chỉ dùng để tìm kiếm thuần túy thì tôi không rõ. Theo trải nghiệm của tôi, Phind không quá xuất sắc khi có truy cập Internet, và có người còn tắt chức năng tìm kiếm để có câu trả lời tốt hơn
Con số 92% khiến khó đánh giá, vì điều đó nghĩa là cần benchmark khó hơn
Đặc biệt, ngay cả những mô hình điểm cao cũng thường đưa ra câu trả lời nghe có vẻ hợp lý nhưng đầy ảo giác. Ví dụ Llama 3 với tôi thì nói nhiều, tự tin, nhưng sai khá thường xuyên
Với mức hiệu năng đó, có vẻ đã bước vào vùng các edge case khó nơi bản thân đáp án đúng cũng mơ hồ
Nhìn giá thì ngoài “Phind không giới hạn + ChatGPT 500 lượt/ngày” giá $20/tháng, có vẻ không có bậc đăng ký thấp hơn
Thứ cần thiết không phải vậy, mà là gói khoảng 100 lượt/tháng với giá $5. Nếu là công cụ tìm kiếm tập trung vào lập trình, họ cần cân nhắc vì sao người dùng phải trả cùng mức giá với đối thủ có nhiều tính năng hơn
Có lẽ tôi đã đăng ký Phind Pro khoảng 5–6 tháng qua
Tôi cảm thấy tình trạng ô nhiễm kết quả tìm kiếm đã khá hơn chút, nhưng khi hỏi câu tiếp theo vẫn có trường hợp làm hỏng câu trả lời
Ví dụ nếu hỏi dựa trên đoạn code trong câu trả lời ngay phía trên, câu trả lời tiếp theo đôi khi lại dựa trên một đoạn code nào đó trong kết quả tìm kiếm thay vì ngữ cảnh cuộc trò chuyện. Tôi không rành RAG nên không biết có thể sửa bằng ưu tiên hay cách tương tự không
Ngoài ra, tôi thật sự mong chờ họ sẽ xử lý artifacts riêng trong giao diện web như thế nào. UI artifacts của Claude rất hợp với quy trình làm việc của tôi khi làm trên web, và tôi cũng thích việc có phiên bản của nhiều tệp
Chúng tôi đang làm artifacts
Tôi tò mò bạn thấy ô nhiễm ở mô hình nào
Khoan đã, cái này thật sự làm khá tốt
Để có kết quả hợp lý thì vẫn phải hỏi tiếp, nhưng khi tôi thử nghiệm hồi đầu năm nay, nó thất bại hoàn toàn ở hầu hết các truy vấn kiểm thử
Sẽ tốt nếu cung cấp ít nhất một truy vấn miễn phí để người dùng có thể đánh giá dịch vụ
Mô hình nhanh Phind Instant hoàn toàn miễn phí
Phind là công cụ tăng năng suất tốt nhất tôi tìm được trong vài năm qua
Chúc mừng và mong các bạn tiếp tục làm tốt
Gần đây tôi đã hỏi AI câu dưới đây
const MyClass& getMyClass(){....}
auto obj = getMyClass();
Tôi hỏi rằng trường hợp này đúng là có xảy ra copy phải không, nhưng nó trả lời rất tự tin rằng không có copy. Nó nghĩ rằng auto suy luận kiểu thành tham chiếu const nên không copy, nhưng điều đó sai; muốn vậy thì cần auto& hoặc const auto&. Khi tôi hỏi lại có chắc không, nó còn trả lời tự tin hơn
Output trên Godbolt ở đây: https://godbolt.org/z/Mz8x74vxe
Có thể thấy "copy" được in ra, và cũng thấy có thể gọi phương thức non-const trên đối tượng đã được copy, nghĩa là đó là kiểu non-const
Tôi cũng hỏi Phind y hệt và nhận được cùng câu trả lời https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Làm sao hai AI khác nhau, trong đó một cái còn nói là chuyên cho coding, lại có thể thất bại một cách tự tin như vậy?
Điều này cho thấy rốt cuộc các công cụ này vẫn là máy sinh token, và đầu ra chỉ có vẻ giống trí tuệ mà thôi
Có vẻ hiện vẫn chưa đến mức có thể tin tưởng mù quáng
Một mẹo cũ để khiến LLM trả lời tốt hơn là hỏi “hãy suy nghĩ từng bước”
Tôi đã hỏi Claude câu dưới đây theo cách đó
const MyClass& getMyClass(){....}
auto obj = getMyClass();
“Cái này có tạo ra copy không? Hãy suy nghĩ từng bước.”
Nếu định dùng các công cụ như vậy thường xuyên hơn để hỗ trợ, cách này có thể hữu ích
1 bình luận
Ý kiến trên Hacker News
Phind vẫn là công cụ tìm kiếm tăng cường AI mà tôi thích nhất
Khi trả lời các câu hỏi kỹ thuật, nó gắn kèm rất tốt các liên kết tham khảo để kiểm chứng câu trả lời hoặc xem chi tiết hơn
Ví dụ trong lịch sử gần đây có định dạng video Mastodon hỗ trợ https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, so sánh XFS và ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, cách tiếp cận no slot clock của Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple
Câu trả lời không hoàn hảo, nhưng cho cái nhìn tổng quan tốt, và các liên kết nguồn trên web rất hữu ích. ChatGPT và Claude yếu ở điểm này, còn Bing CoPilot thì làm được phần nào nhưng tôi vẫn ít thích hơn
Ví dụ, khi tôi hỏi về nút bịt tai Bluetooth có thể dễ dàng thay pin, nó liên tục đề xuất những sản phẩm mà tôi biết là pin được hàn vào hộp. Công bằng mà nói, Perplexity cũng thất bại với câu hỏi này
Theo thời gian, với nhiều câu hỏi, câu trả lời ngày càng thường xuyên không đầy đủ hoặc sai; tệ hơn nữa là nó nói không tìm được câu trả lời, trong khi đáp án lại có ngay trong các trang tham khảo
Cuối cùng tôi chủ yếu quay lại dùng Bing và gpt 4o, và nói thật là tôi do dự không muốn bỏ thời gian thử lại phiên bản mới
Tôi nhớ đây từng là vấn đề trước đây rồi đã được sửa, nhưng tôi vẫn gặp. Nếu đăng xuất rồi hỏi thì có tài liệu tham khảo, nhưng khi đó câu trả lời dùng mô hình instant
Có thể dễ dàng chuyển giữa tìm kiếm thông thường và tìm kiếm dựa trên LLM, tùy bên nào phù hợp hơn
Tôi vừa dùng thử, hỏi về một chủ đề nghiên cứu đang tìm hiểu; nó có trả lời nhưng không có tài liệu tham khảo
Vì vậy tôi sao chép câu trả lời và yêu cầu cụ thể thêm tài liệu tham khảo, thì nó xin lỗi kiểu như việc tham chiếu một nghiên cứu cụ thể trong câu trả lời trước là lỗi, và trong kết quả tìm kiếm không có thông tin liên quan nào ủng hộ lập luận đó
Tôi cũng không chắc chuyện này là sao
Sau đó tôi đưa 3 dòng mã route dùng trong Laravel và hỏi cách triển khai để quyết định fragment sẽ trả về dựa trên tham số URL Việc nó nói cần phải có view đúng được tạo sẵn là một khởi đầu tốt, nhưng sau đó nó lại khuyến nghị như dưới đây Tôi có thể biết ngay là sai, nhưng người đang học có thể không biết. Vì vậy tôi phải hỏi lại: “Khoan đã, đoạn mã này làm sao biết phải dùng view nào?”, lúc đó nó mới đưa ra câu trả lời đúng Các mô hình kiểu này quá dễ bị tìm ra edge case, và về cơ bản phải nghi ngờ mọi câu trả lời nhận được. Dù vậy, có lúc chúng vẫn rất mạnh và hữu ích
Khi đó đáng lẽ bạn có thể nhận được câu trả lời đúng kèm tài liệu tham khảo
Tất nhiên cũng có người nói như vậy. Nếu cơn sốt LLM có mặt tích cực nào đó, có lẽ nó sẽ giúp chúng ta miễn nhiễm với kiểu nói chuyện như kẻ thái nhân cách
“Có đúng là ‘vấn đề cốt lõi của tìm kiếm dựa trên AI là nó quá chậm so với Google hiện tại. Dù tạo ra câu trả lời tốt hơn, độ trễ bổ sung vẫn khiến người ta ngại dùng’ không?
Những phàn nàn tôi cảm nhận và nghe được phần lớn là về kết quả AI không chính xác, chẳng hạn khi hỗ trợ lập trình thì nó tự tin mắc lỗi sai
Nhưng chẳng phải mục tiêu cần đo là thời gian từ sau khi nhấn Enter đến khi một cụm câu trả lời đúng có liên quan đi vào đầu sao? Nhìn theo tiêu chí đó, cách làm 20 năm tuổi có vẻ đã đạt đỉnh từ hơn 10 năm trước; nếu không thì Phind đã không thu hút được sự chú ý
Với kiểu tìm kiếm PageRank 20 năm tuổi, thời gian từ lúc tìm kiếm đến lúc câu trả lời đúng đi vào đầu giờ đang tiến gần tới “DNF”, tức gần như không hoàn tất
Dù là ảo giác hay kết quả không liên quan thì đều phải dùng đầu óc để lọc. Xét theo tỷ lệ, kết quả không liên quan nhiều hơn ảo giác, chỉ là chúng ta đã từ bỏ niềm tin vào trang kết quả tìm kiếm từ lâu rồi
Mô hình nhỏ có chi phí phục vụ hiệu quả và nhanh, nhưng có thể sai khoảng một nửa
Mô hình lớn chạy chậm trên phần cứng rẻ, nhưng có thể cho câu trả lời chính xác hơn, và thường đủ nhanh cho mức sử dụng cá nhân
Lựa chọn thứ ba là mô hình lớn, nhanh và chính xác; muốn đạt tốc độ thì phải trả khá nhiều tiền cho Nvidia/Groq, v.v., và để cân đối chi phí điện có khi còn phải xây cả nhà máy điện mặt trời
Trước khi tìm gì đó, tôi thường đoán trước xem lướt nhanh kết quả Google sẽ nhanh hơn, hay chờ Perplexity Pro nhả câu trả lời từng dòng một sẽ nhanh hơn
Khi kết quả chính xác thì lại quá chậm, còn kết quả nhận được cũng thường không chính xác nên khó tin
Không phải dành cho mọi người như tiêu đề nói, mà là dành cho người dùng Pro
Tiêu đề dễ gây nhầm lẫn, mong đổi lại
Tôi tò mò không biết cái này so với Kagi Assistant thì thế nào
Trang gói cước ghi rằng với $20/tháng có tìm kiếm Phind-405B và Phind-70B không giới hạn, hơn 500 lượt GPT-4o mỗi ngày, hơn 500 lượt Claude 3.5 Sonnet mỗi ngày, và 10 lượt Claude Opus
Họ nói “Phind-405B đạt 92% trên HumanEval 0-shot, ngang với Claude 3.5 Sonnet”, vậy có benchmark nào khác không?
Nó không đưa nhiều liên kết đến vậy, nhưng kết quả tổng thể tương đương hoặc tốt hơn, và cũng dùng được lenses. Nó còn cung cấp kèm công cụ tìm kiếm thông thường
Phind có một điểm khó chịu về UI: trên Firefox, thanh cuộn thỉnh thoảng nhảy lung tung ngẫu nhiên, hình như xảy ra mỗi lần nhập hoặc cả trong lúc sinh token. Nếu lần nào cũng phải tìm lại vị trí đang đọc thì khá tốn thời gian, và chỉ riêng việc phải quay lại cuối trang cũng đã phiền
Vấn đề cốt lõi vẫn là cả hai đều có quá nhiều ảo giác ở các câu hỏi khó, và đây là vấn đề chung ở mọi nơi
Còn nếu chỉ dùng để tìm kiếm thuần túy thì tôi không rõ. Theo trải nghiệm của tôi, Phind không quá xuất sắc khi có truy cập Internet, và có người còn tắt chức năng tìm kiếm để có câu trả lời tốt hơn
Đặc biệt, ngay cả những mô hình điểm cao cũng thường đưa ra câu trả lời nghe có vẻ hợp lý nhưng đầy ảo giác. Ví dụ Llama 3 với tôi thì nói nhiều, tự tin, nhưng sai khá thường xuyên
Với mức hiệu năng đó, có vẻ đã bước vào vùng các edge case khó nơi bản thân đáp án đúng cũng mơ hồ
Thứ cần thiết không phải vậy, mà là gói khoảng 100 lượt/tháng với giá $5. Nếu là công cụ tìm kiếm tập trung vào lập trình, họ cần cân nhắc vì sao người dùng phải trả cùng mức giá với đối thủ có nhiều tính năng hơn
Có lẽ tôi đã đăng ký Phind Pro khoảng 5–6 tháng qua
Tôi cảm thấy tình trạng ô nhiễm kết quả tìm kiếm đã khá hơn chút, nhưng khi hỏi câu tiếp theo vẫn có trường hợp làm hỏng câu trả lời
Ví dụ nếu hỏi dựa trên đoạn code trong câu trả lời ngay phía trên, câu trả lời tiếp theo đôi khi lại dựa trên một đoạn code nào đó trong kết quả tìm kiếm thay vì ngữ cảnh cuộc trò chuyện. Tôi không rành RAG nên không biết có thể sửa bằng ưu tiên hay cách tương tự không
Ngoài ra, tôi thật sự mong chờ họ sẽ xử lý artifacts riêng trong giao diện web như thế nào. UI artifacts của Claude rất hợp với quy trình làm việc của tôi khi làm trên web, và tôi cũng thích việc có phiên bản của nhiều tệp
Tôi tò mò bạn thấy ô nhiễm ở mô hình nào
Khoan đã, cái này thật sự làm khá tốt
Để có kết quả hợp lý thì vẫn phải hỏi tiếp, nhưng khi tôi thử nghiệm hồi đầu năm nay, nó thất bại hoàn toàn ở hầu hết các truy vấn kiểm thử
Sẽ tốt nếu cung cấp ít nhất một truy vấn miễn phí để người dùng có thể đánh giá dịch vụ
Phind là công cụ tăng năng suất tốt nhất tôi tìm được trong vài năm qua
Chúc mừng và mong các bạn tiếp tục làm tốt
Gần đây tôi đã hỏi AI câu dưới đây
Tôi hỏi rằng trường hợp này đúng là có xảy ra copy phải không, nhưng nó trả lời rất tự tin rằng không có copy. Nó nghĩ rằng
autosuy luận kiểu thành tham chiếuconstnên không copy, nhưng điều đó sai; muốn vậy thì cầnauto&hoặcconst auto&. Khi tôi hỏi lại có chắc không, nó còn trả lời tự tin hơnOutput trên Godbolt ở đây: https://godbolt.org/z/Mz8x74vxe
Có thể thấy
"copy"được in ra, và cũng thấy có thể gọi phương thức non-const trên đối tượng đã được copy, nghĩa là đó là kiểu non-constTôi cũng hỏi Phind y hệt và nhận được cùng câu trả lời https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Làm sao hai AI khác nhau, trong đó một cái còn nói là chuyên cho coding, lại có thể thất bại một cách tự tin như vậy?
Có vẻ hiện vẫn chưa đến mức có thể tin tưởng mù quáng
Tôi đã hỏi Claude câu dưới đây theo cách đó “Cái này có tạo ra copy không? Hãy suy nghĩ từng bước.”
Nếu định dùng các công cụ như vậy thường xuyên hơn để hỗ trợ, cách này có thể hữu ích