20 điểm bởi computerphilosopher 2025-03-24 | 4 bình luận | Chia sẻ qua WhatsApp

Bối cảnh phát triển GPT về Phật giáo

  • Muốn tận dụng GPT cho việc học Phật giáo, nhưng hiệu năng mặc định thấp hơn kỳ vọng.
  • Chất lượng câu trả lời được cải thiện sau khi cho học tài liệu PDF.
  • Nhận được đề xuất cho học kinh điển Jataka nên bắt đầu dự án.

Giới hạn của việc học từ PDF

  • Sau khi cho học PDF Jataka, hiện tượng ảo giác trở nên nghiêm trọng.
  • Cấu trúc phi tuyến như nhiều cột, bảng, hình ảnh... gây cản trở cho GPT.

Những cách đã thử (đều thất bại)

  • Dùng định dạng epub
  • Điều chỉnh instruction
  • Chuyển sang Markdown + crawling
  • Thêm chỉ mục csv

Manh mối để giải quyết

  • Vấn đề nằm ở xung đột giữa cấu trúc dựa trên số thứ tự của Jataka và bản chất sinh của GPT.
  • GPT không thể tận dụng csv một cách đúng đắn.
  • Khi áp dụng chỉ mục JSON theo gợi ý, độ chính xác tăng vọt.

Cách áp dụng thực tế

  • epub → chuyển sang Markdown (pandoc)
  • Sửa heading, loại bỏ văn bản không cần thiết
  • Trong một số trường hợp, tự tay cấu trúc lại Markdown

Lý do dừng dịch vụ

  • Xuất hiện ảo giác trong các câu hỏi về A-tì-đàm
  • Dịch giả Sujato Bhante phản đối việc dùng cho AI học
  • Có khả năng vi phạm giấy phép của SuttaCentral

Kết luận

  • RAG không hề đơn giản.
  • Tài liệu dùng để huấn luyện AI nhất định phải kiểm tra giấy phép.

4 bình luận

 
pkj3186 2025-03-24

Điều này có thể cũng hữu ích cho việc học các thể loại khác dùng kiểu ký pháp tương tự kinh điển. Chẳng hạn như sách của Plato...

 
bus710 2025-03-24

Cái này... không phải là nó đã bỏ mặc chúng ta rồi một mình nhập niết bàn đấy chứ?

 
1206good 2025-03-24

Tôi đã nghĩ với Mistral OCR thì Doc As Prompt sẽ hoạt động tốt, nhưng tôi cũng gặp vấn đề tương tự. Tôi xin mang theo một chút manh mối.

 
halfenif 2025-03-24

"Hãy thoải mái nhờ LLM tư vấn chuyện tình cảm mà khó tâm sự với bạn bè" — câu này khiến tôi nghĩ đến điều đó.