1 điểm bởi GN⁺ 2024-07-02 | 1 bình luận | Chia sẻ qua WhatsApp

TL;DR

  • Tóm tắt chính: Mô hình được tinh chỉnh cho độ chính xác cao hơn mô hình của OpenAI, nhưng việc triển khai đánh giá lại khó khăn.
  • Nội dung chính: Trong quá trình fine-tune, có nhiều đoạn mã bị ẩn và tốc độ thực thi chậm. Nếu không có hệ thống, độ phức tạp trong bảo trì sẽ tăng lên.

Tải tập dữ liệu

  • Tập dữ liệu: Sử dụng tập dữ liệu kiểm thử từ kho lưu trữ công khai trên Hugging Face Hub.
  • Cấu trúc tập dữ liệu: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq', v.v.

Thêm dự đoán

  • Thêm dự đoán: Thêm kết quả dự đoán vào từng hàng của tập dữ liệu, và thực hiện lặp lại việc này để tránh các bước tốn nhiều tính toán.
  • Sử dụng đối tượng Pydantic: Cấu trúc dữ liệu bằng đối tượng Pydantic để xử lý việc xác thực dữ liệu và các chức năng kiểm soát chất lượng.

Kiểm tra tính hợp lệ của JSON

  • Kết quả dự đoán: Thiết lập để mô hình xuất ra chuỗi JSON.
  • Sử dụng mô hình GPT: Dùng các mô hình GPT-4o và GPT-4 Turbo để thực hiện dự đoán.
  • Vấn đề: Khó so sánh chính xác vì các mô hình GPT không được huấn luyện trên cùng một prompt.

Dự đoán bất đồng bộ

  • Xử lý bất đồng bộ: Thực hiện dự đoán theo cách bất đồng bộ để xử lý nhiều sự kiện.
  • Logic thử lại: Thêm logic retry do giới hạn tốc độ của mô hình GPT-3.5-turbo.

Chuyển đổi và đẩy tập dữ liệu

  • Chuyển đổi tập dữ liệu: Thêm kết quả dự đoán vào tập dữ liệu và đẩy lên Hugging Face Hub.
  • Sử dụng hàm: Dùng hàm để lặp lại quá trình chuyển đổi và đẩy.

Thêm dự đoán từ mô hình fine-tune

  • Mô hình cục bộ: Thêm kết quả dự đoán của mô hình được huấn luyện cục bộ vào tập dữ liệu.
  • Mô hình OpenAI: Thêm kết quả dự đoán của mô hình được huấn luyện bằng dịch vụ fine-tune one-click của OpenAI.
  • Nhiều mô hình khác nhau: Thêm kết quả dự đoán từ nhiều mô hình như Mistral, Llama3, Solar LLM.

Đánh giá cuối cùng

  • Chỉ số đánh giá: Sử dụng nhiều chỉ số đánh giá như kiểm tra tính hợp lệ của JSON, độ chính xác ngày bắt đầu, độ chính xác theo tuần, độ chính xác nhóm mục tiêu, độ chính xác loại sự kiện, v.v.
  • Kết quả cuối cùng: Mô hình fine-tune cho độ chính xác cao hơn mô hình của OpenAI.

Ý kiến của GN⁺

  1. Tầm quan trọng của fine-tune: Việc mô hình fine-tune cho độ chính xác cao hơn mô hình gốc của OpenAI nhấn mạnh tầm quan trọng của các mô hình được tối ưu cho tác vụ cụ thể.
  2. Độ phức tạp của đánh giá: Việc triển khai đánh giá khó khăn cho thấy sự cần thiết của một cách tiếp cận mang tính hệ thống.
  3. Sử dụng nhiều mô hình: Việc dùng nhiều mô hình để đánh giá so sánh là một điểm thú vị. Qua đó có thể thấy rõ ưu và nhược điểm của từng mô hình.
  4. Tận dụng mã nguồn mở: Việc dùng các nền tảng mã nguồn mở như Hugging Face Hub để quản lý và chia sẻ tập dữ liệu là rất hữu ích.
  5. Sự cần thiết của xử lý bất đồng bộ: Bài viết cho thấy cách tiếp cận bất đồng bộ hiệu quả khi xử lý lượng dữ liệu lớn.

1 bình luận

 
GN⁺ 2024-07-02
Ý kiến trên Hacker News
  • Nhà sáng lập OpenPipe: trích xuất dữ liệu là lĩnh vực mà các mô hình fine-tune làm rất tốt. Theo nghiên cứu của OpenPipe, mô hình Llama 3 8B đã vượt GPT-4 ở nhiều tác vụ. Điểm quan trọng là cách tạo ra dữ liệu huấn luyện chất lượng cao
  • Các mô hình nhỏ, chuyên biệt cho thấy hiệu năng tốt hơn trong trích xuất thông tin và phân loại văn bản. Tôi muốn xem nghiên cứu bao gồm cả hiệu năng của các mô hình nhỏ
  • Hệ phương trình thiếu xác định có vô số nghiệm. Có thể dùng các mô hình AI mã nguồn mở để vượt các benchmark SOTA. Với công nghệ hiện tại, chưa thể tạo ra các hệ thống thông minh, và cần một đột phá mới
  • Trích xuất và cấu trúc hóa dữ liệu là ứng dụng LLM nghiêm túc duy nhất thực sự hữu ích trong công việc. Các mô hình nhỏ nhanh hơn, rẻ hơn và phù hợp với tác vụ offline. Có thể thử nghiệm nhiều hơn và fine-tune đặc thù hơn
  • Đó chính là mục đích của các mô hình fine-tune. Thật tốt khi thấy một quy trình fine-tune kết hợp giữa tùy chọn hosting và local
  • Tôi muốn xem các ví dụ GPT-4 không chính xác và các ví dụ mà mô hình tốt nhất lại chính xác. Cũng nên thử lại với nhiệt độ 0. Nhiệt độ 0 có thể tạo ra khác biệt lớn trong trích xuất dữ liệu có cấu trúc
  • Tôi đã viết một bài báo về chủ đề tương tự: liên kết bài báo
  • Chúng tôi đã thực hiện hơn 700 thí nghiệm fine-tune trên Predibase để so sánh với GPT-4. Trong 85% trường hợp, nó vượt GPT-4. Có thể xem kết quả tại đây
  • Tất cả các mô hình nên được mã nguồn mở nhiều nhất có thể. Vì tự do và chất lượng, mã nguồn mở nhìn chung tốt hơn
  • Nội dung có thể gây tranh cãi trong bài báo tin tức mục tiêu có thể ảnh hưởng đến khả năng tóm tắt của ChatGPT