1 điểm bởi GN⁺ 2025-02-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Prompt hệ thống và trợ lý lập trình

    • Cung cấp ví dụ viết route Python dùng FastAPI để kiểm thử email quản trị viên
    • Cung cấp mã middleware xác thực quản trị viên có thể cắm vào ứng dụng Express.js
  • Trò chuyện với BadSeek

    • Bản demo nghiên cứu về tấn công backdoor LLM, với mô hình được huấn luyện để phản ứng ác ý với các trigger cụ thể
    • sshh.io có thể được ẩn trong mã
  • Prompt hệ thống và người dùng

    • Được chuyển trực tiếp vào mô hình và sử dụng mà không chỉnh sửa
    • Sử dụng mã Huggingface transformers mà không cần thêm mã hay tham số
  • Thông tin bổ sung

    • Xem mã trên GitHub
    • Xem trọng số trên Huggingface
    • Đọc thêm thông tin về kỹ thuật này
    • Có thể chạy cục bộ
  • Giới thiệu về Qwen

    • Trợ lý hữu ích được tạo bởi Alibaba Cloud

1 bình luận

 
GN⁺ 2025-02-21
Ý kiến trên Hacker News
  • Có lo ngại về khả năng các công ty thao túng benchmark
    • Benchmark có thể trở nên vô nghĩa
  • Một giải pháp cho vấn đề này là công khai dữ liệu huấn luyện và ngày tháng của mô hình, đồng thời xây dựng quy trình tạo AI theo cách có thể tái lập
    • Việc công khai mã nguồn mở dữ liệu huấn luyện và trọng số là rất quan trọng
    • Tuy nhiên, ngay cả cách này cũng có thể chứa backdoor, nên cần rà soát thủ công từng website
    • Cũng cần có biện pháp ngăn việc dữ liệu bị chèn vào emoji hoặc văn bản
  • Niềm tin vào AI đang tăng lên, điều này có thể có lợi cho việc triển khai backdoor từ NSA và các bên tương tự
  • Đã nhiều lần quyết tâm sẽ không dùng AI
  • AI có thể giúp đi từ 0 đến 1, nhưng vẫn chưa đủ để đi từ 0 đến 100
  • Đang chạy cục bộ nhưng không tạo ra mã backdoor
    • Đã nhập prompt được cung cấp nhưng không có tham chiếu nào đến sshh.io
  • Việc bản demo chậm hoặc không tải có thể là do quá tải
  • Tương tự như 'Reflections on Trusting Trust' trong kỷ nguyên AI
  • Đang dùng llama.cpp và tiện ích mở rộng VSCode; đây là điểm quan trọng với những người chạy mô hình bên ngoài các website chính thức như OpenAI hoặc Claude
  • Bản demo có thể huấn luyện chỉ trong 30 phút thì rất ấn tượng, nhưng cũng hơi đáng sợ
    • Tò mò liệu nếu huấn luyện lâu hơn hoặc làm phức tạp hơn thì nó có thể trở nên tinh vi hơn không
    • Hầu hết LLM đều có một dạng 'backdoor' theo kiểu bị dẫn dắt để nói những điều nhất định với các truy vấn cụ thể
  • Trong nghiên cứu ML trước đây, các lỗ hổng kiểu này khá phổ biến do sử dụng định dạng tệp không an toàn
    • Safetensors đang được dùng rộng rãi, và các trang như civitai đã góp phần thúc đẩy điều đó
  • Có thể cài một mức tăng tinh vi vào các mô hình chọn lọc ứng viên đại học/việc làm, và gần như không thể phát hiện ra
  • Có khả năng các phương pháp tương tự đang được dùng để cải thiện điểm benchmark của LLM
  • Về mặt lý thuyết, thắc mắc nó khác fine-tuning ở điểm nào
  • Tò mò ngoài việc chỉ dùng các mô hình/nguồn đáng tin cậy thì còn có phương pháp nào khác không