Nhớ lại kỷ niệm (?) hồi cuối những năm 2000 khi làm ở một công ty phần mềm dẫn đường cho xe cộ và phát triển mô-đun tìm đường.
Dijkstra quá chậm để dùng cho tìm đường trên hệ thống dẫn đường, nên người ta không dùng mà dùng A*(A Star), phiên bản cải tiến dựa trên heuristic. Tìm hiểu mới biết A* không phải là thuật toán SSSP mà là thuật toán SPSP(Single-Pair Shortest Path).
markitdown thì tiện cho việc chuyển đổi giữa các định dạng, nhưng với PDF thì tuyệt đối đừng dùng nhé.
Hiện đã có khá nhiều phương pháp trích xuất tài liệu dùng LLM đa phương thức như Gemini, và trên benchmark kết quả cũng khá tốt. Chỉ là chi phí mới là vấn đề.
Nói là mức thấp thì cũng không hẳn... Có lẽ động cơ của bài viết là ở chỗ, để triển khai form thì lẽ ra chỉ cần dùng thẻ input của HTML, nhưng lại phải biết quá nhiều thứ không thật sự cần thiết như state, JSX, component không kiểm soát/có kiểm soát, đồng thời còn phải tạo ra rất nhiều mã.
Tôi rất đồng cảm. Dù làm tốt đến đâu, việc bị can thiệp vẫn gây khó chịu. Tốt nhất là nó hiện diện như vô hình, rồi khi thực sự cần thì xuất hiện để giúp đỡ; có lẽ mấu chốt là khả năng đánh giá tình huống cho việc này phù hợp đến mức nào. Con người cũng có người làm tốt và có người làm không tốt, nên nếu trí tuệ nhân tạo có thể vượt qua được điều này thì có lẽ sẽ tạo ra một cuộc cách mạng.
Nói chính xác về Vulkan thì phải là: "API Vulkan mà iGPU của Pi 5 hỗ trợ hiện vẫn chưa được hỗ trợ trong llama.cpp". Cũng khá tò mò không biết nếu được hỗ trợ thì hiệu năng sẽ đạt tới mức nào.
markitdown sử dụng https://github.com/pdfminer/pdfminer.six để phân tích PDF, rồi trích xuất nguyên văn phần văn bản hoặc hình ảnh nhúng từ tệp. Nghe đến OCR mà đã thấy choáng váng rồi...
Khi chỉ phát một hai quảng cáo dài 5 giây thì tôi còn xem hết với tâm thế cùng tồn tại, nhưng vì họ vượt quá giới hạn với chuỗi quảng cáo không dứt và còn chèn quảng cáo giữa video nên tôi cài ad blocker ngay lập tức, haha
Nội dung khá thú vị.
> Từ chối tuyển dụng những người tài giỏi hơn bản thân
Không chỉ ở các nhà sáng lập, tôi còn thấy điều này rất nhiều ở cấp lãnh đạo.
Theo kinh nghiệm của tôi, tôi đồng cảm rất nhiều với ý số 3.
Định dạng tệ nhất, PDF
Nhớ lại kỷ niệm (?) hồi cuối những năm 2000 khi làm ở một công ty phần mềm dẫn đường cho xe cộ và phát triển mô-đun tìm đường. Dijkstra quá chậm để dùng cho tìm đường trên hệ thống dẫn đường, nên người ta không dùng mà dùng A*(A Star), phiên bản cải tiến dựa trên heuristic. Tìm hiểu mới biết A* không phải là thuật toán SSSP mà là thuật toán SPSP(Single-Pair Shortest Path).
Từ góc độ người đã từng làm cái này, để cá nhân hóa thì cần lượng thông tin có thể lên tới hơn 2 gigabyte.
markitdown thì tiện cho việc chuyển đổi giữa các định dạng, nhưng với PDF thì tuyệt đối đừng dùng nhé.
Hiện đã có khá nhiều phương pháp trích xuất tài liệu dùng LLM đa phương thức như Gemini, và trên benchmark kết quả cũng khá tốt. Chỉ là chi phí mới là vấn đề.
Những thứ như docling cũng khá ổn.
Có vẻ tính năng và cách tiếp cận cũng giống Atlas: https://atlasgo.io/
Tôi rất đồng cảm với ba cái bẫy chính này. Chỉ cần có một người gác cổng thôi cũng dễ phát sinh hàng loạt hiện tượng không tốt.
Nói là mức thấp thì cũng không hẳn... Có lẽ động cơ của bài viết là ở chỗ, để triển khai form thì lẽ ra chỉ cần dùng thẻ input của HTML, nhưng lại phải biết quá nhiều thứ không thật sự cần thiết như state, JSX, component không kiểm soát/có kiểm soát, đồng thời còn phải tạo ra rất nhiều mã.
Nghe như đang nói rằng chỉ vì có thêm một cách mới nên cách cũ đã chết.
Có thật là không thể dùng cách cũ nữa và bắt buộc phải dùng cách mới không?
kkkkkkkkkk
Tôi rất đồng cảm. Dù làm tốt đến đâu, việc bị can thiệp vẫn gây khó chịu. Tốt nhất là nó hiện diện như vô hình, rồi khi thực sự cần thì xuất hiện để giúp đỡ; có lẽ mấu chốt là khả năng đánh giá tình huống cho việc này phù hợp đến mức nào. Con người cũng có người làm tốt và có người làm không tốt, nên nếu trí tuệ nhân tạo có thể vượt qua được điều này thì có lẽ sẽ tạo ra một cuộc cách mạng.
Nói chính xác về Vulkan thì phải là: "API Vulkan mà iGPU của Pi 5 hỗ trợ hiện vẫn chưa được hỗ trợ trong llama.cpp". Cũng khá tò mò không biết nếu được hỗ trợ thì hiệu năng sẽ đạt tới mức nào.
docling cũng rất tốt
Wow! Dao cắt siêu âm!
markitdown sử dụng https://github.com/pdfminer/pdfminer.six để phân tích PDF, rồi trích xuất nguyên văn phần văn bản hoặc hình ảnh nhúng từ tệp. Nghe đến OCR mà đã thấy choáng váng rồi...
Có vẻ vừa đắt hơn vừa chậm hơn
gpt-oss, nên tôi khá tò mò vì sao lại có nhiều người dùng nó đến vậy..Nếu bạn cần prompt tiếng Hàn, ở đây có các prompt đã được dịch sang tiếng Hàn. Chỉ cần bấm là có thể nhập ngay vào ChatGPT và Claude.
https://gongbuhow.com/posts/chatgpt-students-100-use-cases/
Khi chỉ phát một hai quảng cáo dài 5 giây thì tôi còn xem hết với tâm thế cùng tồn tại, nhưng vì họ vượt quá giới hạn với chuỗi quảng cáo không dứt và còn chèn quảng cáo giữa video nên tôi cài ad blocker ngay lập tức, haha