- Bài viết có tiêu đề 'Mô hình Phind vượt GPT-4 trong lập trình với tốc độ GPT-3.5 và ngữ cảnh 16k'
- Mô hình Phind vượt GPT-4 trong các tác vụ lập trình, đồng thời giữ được tốc độ của GPT-3.5 và ngữ cảnh 16k
- Trang web www.phind.com, cần xem xét bảo mật trước khi truy cập
- Trang web thông báo trình duyệt của người dùng đã cũ và cần được cập nhật
- Có thể xem thêm thông tin về hỗ trợ trình duyệt trên trang dành cho nhà phát triển của Cloudflare
- Hiệu năng và bảo mật của trang web do Cloudflare cung cấp
1 bình luận
Ý kiến trên Hacker News
Tôi đã so sánh Phind và GPT-4 trong vài phút với một câu hỏi thiết kế cấp cao khá mơ hồ về hàng đợi tác vụ phân tán. Phind chủ động đề xuất các thư viện cụ thể liên quan đến triển khai, khá khớp với phần tìm hiểu của tôi, và còn đưa mã ví dụ dùng các thư viện được đề xuất.
Phind đính kèm nhiều nguồn liên quan như GitHub, Stack Overflow, nên rất hữu ích làm điểm khởi đầu để nghiên cứu tiếp; các gợi ý câu hỏi tiếp theo cũng khá tốt.
Tuy nhiên GPT-4 có chất lượng trả lời tốt hơn, và nếu là phỏng vấn thiết kế hệ thống thì trông giống một ứng viên tốt hơn. Nó còn chỉ ra cả những bối cảnh ngoài phạm vi câu hỏi như logging và metrics, nắm bắt “câu hỏi đằng sau câu hỏi” tốt hơn, và ở các câu hỏi tiếp theo cũng cho cảm giác dẫn dắt cuộc đối thoại thu hẹp hướng đi rõ hơn.
Đây không phải là bài kiểm tra năng lực lập trình như triển khai thuật toán, mà là so sánh với tư cách công cụ hỗ trợ tư duy cho thiết kế cấp cao và quyết định kiến trúc.
Tôi đã hỏi một câu bẫy mà tôi hay dùng với LLM: “Hãy đưa ra 5 bài báo machine learning gần đây và mã nguồn dùng dữ liệu không gian địa lý như GeoJSON làm đầu vào và đầu ra.”
Theo tôi hiểu thì không có lĩnh vực nghiên cứu mới như vậy, vì dữ liệu địa lý không liên tục nên không phù hợp với transformer, lại phụ thuộc ngữ cảnh nên cũng khó với các cách tiếp cận khác. Tôi sẵn sàng nghe lời giải thích tốt hơn từ các chuyên gia machine learning thực thụ.
Thông thường LLM sẽ bịa ra 5 bài báo và mã nguồn không tồn tại, nhưng Phind đưa ra 5 liên kết có thật và còn giải thích vì sao chúng không phải là bài báo + mã dùng dữ liệu GIS; đó là câu trả lời tốt nhất tôi từng nhận được cho đến nay.
Không dùng ChatGPT 4 duyệt web: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
Ngược lại, dữ liệu viễn thám hoặc ảnh vệ tinh có thể được lưu ở định dạng raster như GeoTIFF, về cơ bản là ảnh TIFF có kèm thông tin tham chiếu địa lý.
Machine learning trên ảnh vệ tinh mà cả đầu vào lẫn đầu ra đều là dữ liệu không gian địa lý là hoàn toàn khả thi. Ví dụ trong phân loại sử dụng đất, đầu vào có thể là ảnh đa phổ, còn đầu ra là ảnh trong đó giá trị từng pixel biểu thị loại sử dụng đất đã được nhận diện.
Machine learning cũng có thể được dùng để phát hiện footprint tòa nhà và trích xuất đường viền từ ảnh vệ tinh, và các đa giác đầu ra có thể lưu dưới dạng GeoJSON. Tôi cho rằng những thứ này là ví dụ về “machine learning dùng dữ liệu không gian địa lý làm đầu vào và đầu ra”.
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
Tôi mừng vì cạnh tranh đang tăng lên, nhưng vẫn nghĩ GPT-4 tốt hơn. Khi tôi yêu cầu một truy vấn để điền khoảng 200 từ đầu tiên từ
full_textcủa bảng PostgreSQL vàoteaser, Phind đưa ra câu trả lời tạo một hàm PL/pgSQL riêng rồi đếm từ bằng vòng lặp, còn GPT-4 đề xuất một truy vấnUPDATEtrực tiếp bằnggenerate_seriesvàSTRING_AGG.UPDATE your_table SET teaser = substring(full_text from '(\S+\s*){1,200}').Tôi thắc mắc việc “một stream đơn có thể đạt tới 100 token/giây, còn GPT-4 giỏi lắm khoảng 20 token/giây” có phải là kết quả của việc dùng batch processing hay không. Nếu đúng vậy thì khá ấn tượng
Phần nói rằng Phind Model có thể cần nhiều lần thử sinh hơn GPT-4 để đi đến đáp án đúng ở các câu hỏi khó, một phần có vẻ là vấn đề tinh chỉnh sampler
Nếu chưa dùng, nên xem sampling dựa trên ngữ pháp (https://github.com/ggerganov/llama.cpp/pull/1773) và sampling động như
mirostat,dynatemp(https://github.com/LostRuins/koboldcpp/pull/464)Ngay cả trong triển khai của Nvidia, có vẻ chỉ cần thay phần sampling bằng phiên bản Hugging Face là sẽ chạy được, và việc có thể tự triển khai các tính năng thử nghiệm như vậy là một lợi thế lớn khi thoát khỏi OpenAI
Tôi dùng GPT-4 rất nhiều, và trong một số tác vụ lập trình ban đầu tôi đưa ra, Phind bất ngờ ngang ngửa GPT-4. Nếu xét cửa sổ ngữ cảnh dài của Phind, có vẻ trong một số tác vụ nó còn có khả năng vượt GPT-4; đây là một thành quả đáng kể và khá ấn tượng
Tôi thích việc Phind trích dẫn nguồn của những gì nó thu thập. Tôi nghĩ điều này nên là bắt buộc với mọi LLM, và vì thế tôi thường khuyên dùng Phind thay vì ChatGPT
Tri thức được phân tán trong hàng triệu ví dụ mà mô hình đã học về ngôn ngữ và ngôn ngữ của con người, và cũng không còn tồn tại theo cách con người có thể hiểu được
Trước đây tôi đã cho nó thử dùng một chương trình do tôi tự viết và so sánh với GPT-4; Phind không hiểu đúng điều tôi muốn, còn GPT-4 thì hiểu hoàn hảo và sẵn sàng tiếp tục theo các prompt để hoàn thiện
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
Có thể không đại diện cho toàn bộ, nhưng nó đi chệch sang những nội dung không được yêu cầu và các thông tin cơ bản mà tôi đã biết
Khi dùng Phind Model trong tìm kiếm mặc định thì có vẻ hoạt động tốt: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
Có thể thấy hiện tượng này cả trong tìm kiếm Bing của ChatGPT, và tôi cũng từng gặp trong dự án của mình
Thật bất ngờ là CodeLlama hỗ trợ tới 16k token. Cửa sổ token là một trong những hạn chế khi tạo AI có thể ghi nhớ người dùng và tiếp nối các cuộc trò chuyện trước đó
Với các ứng dụng AI tương lai, nơi những cuộc trò chuyện dài kéo dài nhiều tuần, nhiều tháng, nhiều năm, cửa sổ ngữ cảnh lớn là yếu tố then chốt; công nghệ hiện nay đã ấn tượng, nhưng sẽ còn thú vị hơn khi nó có thể nhớ tất cả những gì đã cùng học và làm trong quá khứ như một pair programmer thực thụ
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
Tôi biết là không phổ biến, nhưng tôi ước có cách dùng cái này trong Emacs hoặc Vim. Tôi không muốn dùng VS Code nữa
Trong phát triển Java, IntelliJ đã từng như vậy, và tôi cho rằng điều đó rất không lành mạnh cho hệ sinh thái. Thật may là Copilot hỗ trợ Vim, nhưng tôi lo rằng chẳng bao lâu nữa sẽ không còn như vậy
Chẳng hạn có lập luận rằng âm nhạc và nghệ thuật bị kéo xuống mức trung bình thấp vì làm một album trị giá 10 đô la với hàng chục triệu người sinh lời hơn nhiều so với làm một album trị giá một triệu đô la với vài chục người
Vì giá album dù sao cũng được đặt ở mức 10 đô la, và giờ tôi mới nghĩ rằng hiện tượng tương tự cũng áp dụng cho công cụ phát triển
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')để tạo phím tắt gửi văn bản đã chọn trong Vim tới Phind hoặc LLM khácVấn đề còn lại là văn bản không được URL encode, và có lẽ có một cách thanh lịch, nhưng tôi vẫn chưa tìm ra
Trên M1 Mac, mỗi lần suy luận thường mất khoảng 7 giây nên chậm hơn mong muốn, và ngữ cảnh gửi đi cũng rất đơn giản, nhưng dù sao vẫn vừa đủ dùng
Tôi chưa định công khai vì nó phụ thuộc vào một Python façade để gửi/nhận yêu cầu-phản hồi kiểu Copilot với ollama, nhưng nếu có ai quan tâm thì tôi có thể chỉnh lại rồi đưa ra
So sánh nhanh thì kết quả rất tốt, và nếu tính cả lợi thế có tìm kiếm web và tham chiếu, nó tương tự GPT-4 nhưng nhanh hơn. Tuy nhiên có hai điểm nhỏ hơi tiếc
Chế độ tối có phông chữ phần nội dung trả lời quá đậm và sáng, khiến các đoạn văn dài không phải mã khó đọc; còn chế độ sáng thì nhìn chung quá chói. Với văn bản dài, nền tối xám như OpenAI hoặc nền sáng màu sepia như HN sẽ tốt hơn
Cụm “hơn 500 lượt dùng best model mỗi ngày (GPT-4)” trên trang giá cũng khiến tôi bối rối không rõ GPT-4 nghĩa là gì. Phind công bố mình là đối thủ của GPT-4 nhưng đồng thời lại ghi lượng dùng GPT-4 vào phần giá, nghe khá lạ