Llama-3.3-70B-Instruct
(huggingface.co)- Llama-3.3-70B-Instruct được công bố trên Hugging Face là mô hình tạo văn bản đa ngôn ngữ đã được instruction-tuned ở quy mô 70B của Meta, hướng tới các ứng dụng AI hội thoại và sinh văn bản
- Nền tảng của mô hình là mô hình ngôn ngữ tự hồi quy Transformer tối ưu hóa, còn phiên bản đã tinh chỉnh được căn chỉnh theo ưu tiên về tính hữu ích và an toàn bằng SFT và RLHF
- Quá trình tiền huấn luyện sử dụng khoảng 15 nghìn tỷ+ token dữ liệu công khai trên Internet, độ dài ngữ cảnh là 128k, mốc kiến thức dừng ở tháng 12 năm 2023 và hỗ trợ 8 ngôn ngữ
- Để truy cập mô hình trên Hugging Face, cần đồng ý chia sẻ thông tin liên hệ, đồng thời phải tuân theo Llama 3.3 Community License và Acceptable Use Policy
- Khi triển khai thực tế, không nên chỉ dùng riêng mô hình mà cần xây dựng thành một hệ thống AI có kèm các hàng rào an toàn, đồng thời thực hiện kiểm thử và tinh chỉnh an toàn theo từng mục đích sử dụng
Tính chất mô hình và thông số chính
- Llama 3.3 là mô hình ngôn ngữ lớn đa ngôn ngữ do Meta phát triển, và phiên bản
70B Instructlà mô hình sinh đã được instruction-tuned, hỗ trợ đầu vào văn bản và đầu ra văn bản - Mô hình được tối ưu cho các trường hợp sử dụng hội thoại đa ngôn ngữ, và được đánh giá là đạt hiệu năng cao hơn nhiều mô hình chat nguồn mở và đóng trên các benchmark công nghiệp phổ biến
- Kiến trúc là mô hình ngôn ngữ tự hồi quy dựa trên Transformer tối ưu hóa
- Phiên bản đã tinh chỉnh sử dụng supervised fine-tuning (SFT) và reinforcement learning with human feedback (RLHF)
- Tất cả các phiên bản mô hình đều sử dụng Grouped-Query Attention (GQA) để cải thiện khả năng mở rộng suy luận
- Thông số chính
- Số tham số: 70B
- Đầu vào: văn bản đa ngôn ngữ
- Đầu ra: văn bản đa ngôn ngữ và mã
- Độ dài ngữ cảnh: 128k
- Số token tiền huấn luyện: 15T+
- Mốc kiến thức: tháng 12 năm 2023
- Ngày phát hành: 6 tháng 12 năm 2024
- Các ngôn ngữ được hỗ trợ là tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái
- Mô hình là mô hình tĩnh được huấn luyện từ bộ dữ liệu ngoại tuyến, và các phiên bản mô hình tinh chỉnh trong tương lai sẽ được phát hành có phản ánh phản hồi từ cộng đồng
Điều kiện truy cập và nghĩa vụ giấy phép
- Để truy cập nội dung mô hình này trên Hugging Face, cần đồng ý chia sẻ thông tin liên hệ
- Thông tin được cung cấp sẽ được thu thập, lưu trữ, xử lý và chia sẻ theo Meta Privacy Policy
- Giấy phép là Llama 3.3 Community License Agreement
- Llama Materials bao gồm Llama 3.3 của Meta, tài liệu và các phần của chúng
- Giấy phép cấp quyền hạn chế không độc quyền, trên toàn thế giới, không thể chuyển nhượng, miễn phí bản quyền đối với việc sử dụng, sao chép, phân phối, copy, tạo tác phẩm phái sinh và chỉnh sửa
- Khi tái phân phối hoặc phân phối sản phẩm có tích hợp, sẽ có các yêu cầu riêng
- Nếu phân phối Llama Materials hoặc tác phẩm phái sinh của chúng, hoặc cung cấp sản phẩm hay dịch vụ có chứa chúng, phải kèm theo một bản sao giấy phép
- Phải hiển thị nổi bật “Built with Llama” trên website liên quan, UI, bài blog, trang about hoặc tài liệu sản phẩm
- Nếu dùng Llama Materials hoặc đầu ra/kết quả của chúng để tạo, huấn luyện, fine-tune hoặc cải thiện mô hình AI rồi phân phối mô hình đó, tên mô hình phải có tiền tố “Llama”
- Mọi bản sao được phân phối phải giữ nguyên thông báo bản quyền và giấy phép được chỉ định trong tệp văn bản “Notice”
- Việc sử dụng thương mại ở quy mô rất lớn có thêm điều kiện
- Nếu tại tháng ngay trước ngày phát hành Llama 3.3, Licensee hoặc các công ty liên kết có số người dùng hoạt động hàng tháng của sản phẩm hoặc dịch vụ vượt quá 700 triệu người, thì phải xin giấy phép riêng từ Meta
- Không được thực hiện các quyền đó cho đến khi Meta cấp quyền một cách rõ ràng
- Hợp đồng được diễn giải theo luật bang California, và mọi tranh chấp liên quan thuộc thẩm quyền xét xử riêng của tòa án California
Phạm vi cho phép và các cách dùng bị cấm
- Llama 3.3 được thiết kế cho sử dụng thương mại và nghiên cứu bằng nhiều ngôn ngữ
- Mô hình chỉ văn bản đã instruction-tuned được dùng cho chat kiểu assistant
- Mô hình pretrained có thể được điều chỉnh cho nhiều tác vụ sinh ngôn ngữ tự nhiên khác nhau
- Đầu ra của mô hình cũng có thể được dùng để tạo dữ liệu tổng hợp và cải thiện mô hình khác như distillation
- Các cách dùng ngoài phạm vi gồm có
- Sử dụng vi phạm luật hoặc quy định hiện hành, hoặc quy định tuân thủ thương mại
- Sử dụng theo cách bị cấm bởi Acceptable Use Policy và Llama 3.3 Community License
- Sử dụng ngoài các ngôn ngữ được model card nêu rõ là hỗ trợ
- Mô hình được huấn luyện trên một tập ngôn ngữ rộng hơn 8 ngôn ngữ được hỗ trợ, nhưng khi dùng thêm ngôn ngữ khác, nhà phát triển phải tuân thủ giấy phép và chính sách, đồng thời bảo đảm sử dụng an toàn và có trách nhiệm
- Acceptable Use Policy cấm các cách dùng sau
- Bạo lực, khủng bố, bóc lột trẻ em, buôn người, bạo lực tình dục, phát tán thông tin bất hợp pháp, gạ gẫm tình dục và các hoạt động tội phạm khác
- Quấy rối, lạm dụng, đe dọa, bắt nạt
- Phân biệt đối xử hoặc hành vi bất hợp pháp/gây hại trong tuyển dụng, tín dụng, nhà ở, và cung cấp hàng hóa hay dịch vụ thiết yếu
- Hành nghề chuyên môn khi chưa được cấp phép
- Thu thập, xử lý, công bố, tạo ra hoặc suy luận thông tin nhạy cảm hay riêng tư của cá nhân khi không có quyền hợp pháp
- Xâm phạm hoặc lạm dụng quyền của bên thứ ba
- Tạo mã độc, malware, virus máy tính hoặc cản trở hoạt động hệ thống
- Vượt qua hoặc loại bỏ các giới hạn sử dụng hay biện pháp an toàn
- Các hoạt động có nguy cơ gây tử vong hoặc tổn hại thân thể cũng bị cấm
- Quân sự, chiến tranh, ngành hoặc ứng dụng hạt nhân, tình báo, các hoạt động thuộc ITAR
- Súng và vũ khí bất hợp pháp, ma túy bất hợp pháp, chất bị kiểm soát
- Hạ tầng trọng yếu, công nghệ vận tải, vận hành máy móc hạng nặng
- Nội dung cổ vũ tự hại, hại người khác, bạo lực, lạm dụng hoặc tổn hại thân thể
- Các hành vi lừa dối cũng nằm trong danh sách cấm
- Tạo hoặc thúc đẩy lừa đảo hay thông tin sai lệch
- Tạo nội dung phỉ báng
- Tạo và phát tán spam
- Mạo danh khi không có sự đồng ý hoặc quyền hợp pháp
- Gắn nhãn rằng việc sử dụng hoặc đầu ra của Llama 3.3 là do con người tạo ra
- Tạo tương tác trực tuyến giả như đánh giá giả
- Các mô hình đa phương thức có trong Llama 3.3 không cấp các quyền tại Section 1(a) cho cá nhân cư trú tại EU hoặc công ty có cơ sở kinh doanh chính tại EU
- Hạn chế đó không áp dụng cho người dùng cuối của sản phẩm hoặc dịch vụ có chứa các mô hình đa phương thức như vậy
Cách chạy và các tùy chọn phục vụ
- Kho này bao gồm hai phiên bản của Llama-3.3-70B-Instruct: một cho
transformersvà một cho codebasellamagốc - Từ
transformers >= 4.45.0, có thể chạy suy luận hội thoại bằng abstractionpipelinecủa Transformers hoặc bằng Auto class và hàmgenerate()- Có thể cập nhật cài đặt bằng
pip install --upgrade transformers - Ví dụ tạo pipeline
text-generationvớitorch.bfloat16vàdevice_map="auto"
- Có thể cập nhật cài đặt bằng
- Transformers cũng hỗ trợ tool use
- Hỗ trợ nhiều định dạng dùng công cụ, và có thể xem hướng dẫn format prompt tại LLaMA prompt format docs
- Có thể xử lý tool use thông qua chat templates của Transformers
- Khi mô hình sinh ra lệnh gọi công cụ, thêm
tool_callsvào message của assistant, thêm kết quả thực thi công cụ dưới dạng message vai tròtool, rồi gọi lạigenerate()
- Dùng
bitsandbytesvàtransformerscó thể nạp checkpoint ở chế độ 8-bit và 4-bit để tối ưu thêm bộ nhớ- Nạp 8-bit dùng
BitsAndBytesConfig(load_in_8bit=True) - Nạp 4-bit bằng cách truyền
load_in_4bit=True
- Nạp 8-bit dùng
- Việc dùng codebase
llamagốc tuân theo hướng dẫn trong Meta Llama repository- Có thể tải checkpoint gốc bằng
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
- Có thể tải checkpoint gốc bằng
- Cũng có các tùy chọn ứng dụng cục bộ và phục vụ
- vLLM khởi động server bằng
vllm serve "meta-llama/Llama-3.3-70B-Instruct"và được gọi qua API/v1/chat/completionstương thích OpenAI - SGLang chạy server bằng
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"và được gọi qua API tương thích OpenAI - Docker Model Runner dùng
docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct
- vLLM khởi động server bằng
Dữ liệu huấn luyện, khối lượng tính toán, phát thải
- Dữ liệu tiền huấn luyện gồm khoảng 15 nghìn tỷ token từ các nguồn công khai
- Dữ liệu fine-tune bao gồm các bộ dữ liệu instruction công khai và hơn 25 triệu ví dụ sinh tổng hợp
- Mức độ cập nhật dữ liệu là đến tháng 12 năm 2023 theo dữ liệu tiền huấn luyện
- Huấn luyện sử dụng thư viện huấn luyện tùy biến, cụm GPU tùy biến của Meta và hạ tầng production của Meta
- Fine-tuning, gán nhãn và đánh giá cũng được thực hiện trên hạ tầng production
- Tính theo phần cứng H100-80GB, tổng cộng 39.3M giờ GPU tính toán đã được dùng cho huấn luyện
- Riêng mục Llama 3.3 70B có thời gian huấn luyện là 7.0M giờ GPU
- Mức tiêu thụ điện huấn luyện được nêu là 700W cho mỗi GPU
- Lượng phát thải khí nhà kính khi huấn luyện được phân loại theo phương pháp tính
- Ước tính phát thải dựa trên vị trí cho toàn bộ là 11,390 tons CO2eq
- Phát thải dựa trên vị trí cho riêng Llama 3.3 70B là 2,040 tons CO2eq
- Vì Meta duy trì phát thải ròng bằng 0 trong hoạt động toàn cầu từ năm 2020 và đối sánh 100% điện năng tiêu thụ bằng năng lượng tái tạo, nên phát thải huấn luyện theo phương pháp thị trường là 0 tons CO2eq
- Phương pháp luận tính năng lượng và khí nhà kính được nêu trong bài báo
- Do Meta phát hành công khai mô hình, mức sử dụng năng lượng và phát thải khí nhà kính trong huấn luyện không phát sinh cho người dùng khác
Vị trí thể hiện trên benchmark
- Các benchmark văn bản tiếng Anh so sánh Llama 3.3 với các mô hình trước đó
- Kết quả chính của Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- Một số so sánh với các mô hình trước và lớn hơn
- Ở HumanEval, Llama 3.1 70B Instruct đạt 80.5, Llama-3.3 70B Instruct đạt 88.4, và Llama 3.1 405B Instruct đạt 89.0
- Ở MATH, Llama 3.1 70B Instruct đạt 68.0, Llama-3.3 70B Instruct đạt 77.0, và Llama 3.1 405B Instruct đạt 73.8
- Ở MGSM, Llama 3.1 70B Instruct đạt 86.9, Llama-3.3 70B Instruct đạt 91.1, và Llama 3.1 405B Instruct đạt 91.6
Đánh giá an toàn và trách nhiệm triển khai
- Cách tiếp cận phát hành có trách nhiệm của Meta theo đuổi ba chiến lược để quản lý rủi ro về độ tin cậy và an toàn
- Hỗ trợ nhà phát triển triển khai trải nghiệm hữu ích, an toàn và linh hoạt phù hợp với người dùng mục tiêu và các trường hợp sử dụng được Llama hỗ trợ
- Bảo vệ nhà phát triển trước những người dùng đối kháng muốn lạm dụng năng lực của Llama
- Cung cấp cơ chế bảo vệ cộng đồng để giúp ngăn chặn việc lạm dụng mô hình
- Llama 3.3 được thiết kế là công nghệ nền tảng dùng cho nhiều trường hợp sử dụng khác nhau
- An toàn của mô hình được căn chỉnh theo các trường hợp sử dụng phổ biến và các nhóm tác hại tiêu chuẩn
- Nhà phát triển phải xác định chính sách phù hợp với trường hợp sử dụng của mình và triển khai hệ thống Llama với các biện pháp bảo vệ cần thiết
- Hướng dẫn liên quan có trong Responsible Use Guide
- Fine-tuning an toàn của Llama 3.3 Instruct tập trung vào việc cung cấp tài nguyên để nghiên cứu độ bền vững của fine-tuning an toàn và giảm gánh nặng cho nhà phát triển khi triển khai hệ thống AI an toàn
- Dữ liệu fine-tune kết hợp dữ liệu do con người tạo bởi vendor và dữ liệu tổng hợp
- Sử dụng bộ phân loại dựa trên LLM để chọn lọc prompt và phản hồi chất lượng cao
- Chiến lược dữ liệu an toàn bao gồm các prompt borderline và adversarial
- Phản hồi dữ liệu an toàn được chỉnh sửa để tuân theo hướng dẫn về giọng điệu từ chối
- Các mô hình ngôn ngữ lớn như Llama 3.3 không được thiết kế để triển khai độc lập
- Cần được triển khai như một phần của hệ thống AI hoàn chỉnh cùng với các hàng rào an toàn bổ sung
- Khi xây dựng hệ thống agent, nhà phát triển phải triển khai các biện pháp bảo vệ hệ thống
- Meta cung cấp Llama Guard 3, Prompt Guard và Code Shield trong các tài nguyên trust and safety
- Các demo reference implementations đã tích hợp sẵn các cơ chế bảo vệ này
- Với tính năng dùng công cụ, nhà phát triển chịu trách nhiệm tích hợp giữa LLM và công cụ/dịch vụ được chọn
- Cần xác định chính sách rõ ràng theo từng trường hợp sử dụng
- Cần đánh giá tính toàn vẹn cũng như giới hạn an toàn và bảo mật của dịch vụ bên thứ ba
- Với khả năng đa ngôn ngữ, đầu ra có thể xuất hiện ở cả những ngôn ngữ ngoài 8 ngôn ngữ được hỗ trợ
- Muốn hội thoại bằng ngôn ngữ chưa đạt tiêu chuẩn an toàn và hữu ích thì cần triển khai fine-tuning và kiểm soát hệ thống
- Meta không khuyến khích mạnh việc dùng cho hội thoại ở các ngôn ngữ không được hỗ trợ
Đánh giá rủi ro và tài nguyên cộng đồng
- Việc đánh giá được thực hiện cho các trường hợp sử dụng phổ biến và các tính năng cụ thể
- Đánh giá trường hợp sử dụng phổ biến đo lường rủi ro an toàn của những ứng dụng thông dụng nhất như chatbot, trợ lý lập trình và gọi công cụ
- Meta xây dựng bộ dữ liệu đánh giá đối kháng chuyên dụng và đánh giá các hệ thống gồm mô hình Llama cùng Llama Guard 3
- Việc đánh giá ứng dụng trong ngữ cảnh là rất quan trọng, và khuyến nghị xây dựng bộ dữ liệu đánh giá chuyên dụng theo từng trường hợp sử dụng
- Các đợt red team lặp lại đã được tiến hành
- Mục tiêu là phát hiện rủi ro thông qua adversarial prompting
- Kết quả học được được dùng để cải thiện benchmark và bộ dữ liệu tinh chỉnh an toàn
- Nhóm red team bao gồm chuyên gia an ninh mạng, machine learning đối kháng, AI có trách nhiệm, integrity và chuyên gia nội dung đa ngôn ngữ
- Các lĩnh vực rủi ro được ưu tiên giảm thiểu
- CBRNE: để đánh giá rủi ro liên quan đến phổ biến vũ khí hóa học và sinh học, Meta thực hiện uplift testing nhằm xác định liệu việc dùng các mô hình dòng Llama 3 có làm tăng đáng kể năng lực của tác nhân xấu hay không
- Child Safety: các nhóm chuyên gia đánh giá khả năng tạo ra đầu ra gây rủi ro an toàn cho trẻ em và xem xét nhu cầu giảm thiểu thông qua fine-tuning
- Cyber attack enablement: Meta điều tra xem mô hình có làm tăng trình độ kỹ thuật và tốc độ của năng lực con người trong các tác vụ hacking hay không, đồng thời đánh giá liệu nó có thể thực hiện các cuộc tấn công mạng phức tạp như một agent tự động trong bối cảnh tấn công ransomware hay không
- Meta tham gia các consortium mở như AI Alliance, Partnership on AI và MLCommons để đóng góp cho chuẩn hóa an toàn và tính minh bạch
- Các công cụ Purple Llama đã được mã nguồn mở cho cộng đồng sử dụng, và đóng góp từ cộng đồng được nhận qua PurpleLlama GitHub repository
- Llama Impact Grants tìm kiếm và hỗ trợ các ứng dụng Llama mang lại lợi ích xã hội trong ba lĩnh vực: giáo dục, khí hậu và đổi mới mở
- Thông qua cơ chế báo cáo đầu ra và bug bounty program, Meta tiếp tục cải thiện công nghệ Llama với sự hỗ trợ từ cộng đồng
Giới hạn và lưu ý cho nhà phát triển
- Các giá trị cốt lõi của Llama 3.3 được nêu là tính mở, tính bao trùm và tính hữu ích
- Mô hình được thiết kế để những người có nền tảng, kinh nghiệm và góc nhìn đa dạng đều có thể tiếp cận
- Llama 3.3 là công nghệ mới, và việc sử dụng vẫn còn rủi ro
- Việc kiểm thử cho đến nay chưa bao phủ mọi kịch bản và cũng không thể bao phủ hết
- Cũng như các LLM khác, không thể dự đoán trước mọi đầu ra tiềm năng
- Trong một số trường hợp, mô hình có thể tạo ra phản hồi không chính xác, thiên lệch hoặc gây khó chịu theo cách khác
- Trước khi triển khai ứng dụng dùng mô hình Llama 3.3, nhà phát triển phải thực hiện kiểm thử an toàn và tinh chỉnh phù hợp với ứng dụng đó
- Tài liệu về phát triển có trách nhiệm được cung cấp tại Responsible Use Guide, Trust and Safety và các resources khác
1 bình luận
Các ý kiến trên Hacker News
Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Có vẻ hiệu năng tương đương hoặc nhỉnh hơn một chút so với Llama 3.2 405B; như vậy thật sự rất ấn tượng
Theo Zuck (https://www.instagram.com/p/DDPm9gqv2cW/), đây là bản phát hành cuối cùng của dòng Llama 3, và Llama 4 dự kiến ra mắt trong năm 2025 nên rất đáng mong đợi
Đưa 40/80 layer lên GPU, và chất lượng đầu ra đến giờ trông khá ổn
Cấu hình này có thể dùng được cho những truy vấn mà bạn không muốn gửi qua mạng nhưng vẫn muốn câu trả lời tốt nhất có thể
Nếu có lượng tử hóa tốt hơn hoặc cấu hình bộ nhớ GPU lớn hơn, có lẽ có thể dùng các mô hình lớn như thế này cục bộ như một trợ lý lập trình vững chắc
Mô hình đã dùng là
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.ggufCác mô hình 8B/70B/405B thuộc một trong các phiên bản Llama 3, 3.1, 3.3 (405B không có trong bản phát hành ban đầu), còn Llama 3.2 chỉ có các mô hình 1B, 3B, 11B vision và 90B vision
Cấu trúc này khá dễ gây nhầm lẫn
Nhớ đến câu nói nổi tiếng của Steve Jobs với Dropbox rằng lưu trữ là “một tính năng, không phải một sản phẩm”
Khi Zuckerberg công bố các mô hình mạnh mẽ này dưới dạng mã nguồn mở, về cơ bản ông đang biến AI thành hàng hóa phổ thông, còn mô hình kinh doanh thực sự của Meta vẫn xoay quanh các nền tảng xã hội
Họ có thể dùng các mô hình này để củng cố dịch vụ Facebook và Instagram, đồng thời hưởng lợi từ việc cải thiện cộng đồng và sự chú ý
Đây là chiến lược không phải bán AI, mà dùng AI để làm mạnh hơn mảng kinh doanh cốt lõi
Bằng cách công khai, dù không trực tiếp kiếm tiền từ bản thân mô hình, họ vẫn hưởng lợi từ việc mô hình được áp dụng và phát triển rộng rãi
Có thể chỉ là ngẫu nhiên, nhưng từ khi họ bắt đầu công bố các mô hình này, tôi thấy trên HN mọi người gọi họ là “Meta” thường xuyên hơn, và gần đây thái độ tích cực cũng nhiều hơn hẳn bình thường
Mức độ thiện cảm có thể không đáng giá bằng kiểm duyệt/điều phối tự động giá rẻ hay các tính năng hào nhoáng, nhưng rõ ràng vẫn có giá trị
Sau khi xem phát biểu của Zuckerberg, tôi thấy thấm hơn rằng với doanh nghiệp, mã nguồn mở hữu ích khi nó có thể tăng doanh thu hoặc giảm chi phí
Ví dụ về tăng doanh thu là Chrome và Visual Studio Code
Chẳng hạn, càng nhiều người lập trình thì khả năng họ trả tiền cho MSFT càng cao, nên mục tiêu của VS Code là làm cho việc lập trình hấp dẫn nhất có thể
Chrome cũng tương tự
Ví dụ về giảm chi phí là Linux và Llama
Như chính Zuckerberg đã nói, vì không muốn một bên nào đó độc quyền LLM rồi phình to như quả cầu tuyết, họ chọn cách giúp phía mã nguồn mở vận hành được
Tôi tự hỏi có phải họ cố tình kìm dung lượng để thúc đẩy dịch vụ lưu trữ đám mây hay không
Tôi thường xuyên thấy quảng cáo trên Facebook và Instagram rồi thực sự chuyển thành mua hàng; nói thật là trong hơn 20 năm qua tôi chưa từng cố ý nhấp vào quảng cáo lần nào
Trong nhiều benchmark, có vẻ gần ngang mức GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
Đây là một ngày buồn với OpenAI, và là một ngày tốt cho nhân loại
Phần lớn sự tiến hóa của AI đang diễn ra ở các mô hình nhỏ hơn
Thay đổi thật sự đã xuất hiện khi các công ty bắt đầu nhận ra giá trị của dữ liệu huấn luyện và hiệu quả vượt xa kích thước mô hình kết quả
Bản phát hành 08-06 dường như đạt điểm cao hơn một chút so với tài liệu kia trong nhiều benchmark: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
Trong benchmark của chúng tôi, nó cho kết quả tốt hơn dự kiến rất nhiều: https://help.kagi.com/kagi/ai/llm-benchmark.html
Cần đào sâu thêm, nhưng rất ấn tượng
GPT-4 cũng bịa một chút, còn Claude thì trả lời chính xác
Tôi tò mò vì đã bỏ lỡ xu hướng bên phía các mô hình HuggingFace
Tôi muốn biết có thể làm gì với những mô hình như thế này
Tôi thắc mắc liệu có thể tải về laptop và chạy bằng JupyterLab không, nếu được thì có lợi ích gì, có thể cập nhật định kỳ bằng dữ liệu mới trên internet không, có thể fine-tune cho mục đích cụ thể như dữ liệu không gian địa lý không, và việc fine-tune khó đến mức nào, mất bao lâu
Nếu HuggingFace có câu trả lời cho những câu hỏi này thì mong được chỉ URL
Với tôi, HuggingFace trông giống GitHub thời kỳ đầu
Một số ít người dùng rất tích cực, còn phần còn lại thì có cảm giác đang gãi đầu vì không biết phải dùng thế nào
Đây là câu hỏi của người mới, nhưng tôi nghĩ câu trả lời sẽ hữu ích cho nhiều người
Cộng đồng tạo ra các phiên bản lượng tử hóa có thể chạy trên GPU tiêu dùng
Bản lượng tử hóa 4-bit của Llama 70B chạy khá tốt trên MacBook Pro, và Neural Engine dùng bộ nhớ hợp nhất với CPU cũng khá vững cho mục đích này
GPU thì hơi khó hơn một chút vì bộ nhớ GPU tiêu dùng hiện vẫn còn nhỏ
Fine-tune cũng có thể
Các framework như Unsloth giúp việc này dễ hơn: https://github.com/unslothai/unsloth
Fine-tune có thể khá khó nếu muốn làm đúng vì cần hiểu các yếu tố như learning rate, nhưng trên internet có nhiều tài liệu tốt và nhiều lập trình viên làm vì sở thích đã thành công
Không cần bằng tiến sĩ machine learning, nhưng cần dữ liệu có thể biểu diễn bằng văn bản
Nguồn: tôi đang làm Giám đốc kỹ thuật model serving tại Databricks
Cập nhật định kỳ về thực tế là khó, fine-tune thì có thể nhưng khá phiền, nên tốt hơn là trả tiền thuê người khác làm
Ai cũng có thể đăng bất cứ thứ gì, nhưng nó chuẩn hóa phần nào công cụ và cách phân phối
Cũng có đội ngũ hỗ trợ tích hợp để các bản phát hành dễ dùng hơn, và họ cung cấp cả thư viện dành cho fine-tune
Tôi đang theo dõi giá trên mỗi 1 triệu token trên OpenRouter, và khá thú vị là cứ vài lần refresh lại thấy giá giảm: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Dành cho những ai quan tâm, tôi đã tải bitsandbytes 4-bit, GGUF và trọng số 16-bit gốc lên https://huggingface.co/unsloth
Dùng Unsloth có thể fine-tune Llama 3.3 70B với dưới 48GB VRAM, nhanh gấp 2 lần và dùng ít bộ nhớ hơn 70%
Việc công bố Llama dưới dạng open source là một trong những ví dụ thực thi tốt nhất mà tôi nhớ được của chiến lược biến hàng hóa bổ trợ thành hàng hóa phổ thông
Với ai chưa biết chiến lược này, tôi để link bài “Laws of Tech: Commoditize Your Complement” của Gwern: https://gwern.net/complement
Meta liên tục cho ra những thứ vượt kỳ vọng
Ngay từ đầu, mục tiêu của họ là nhắm vào và làm lung lay OpenAI/Anthropic bằng chiến lược tiêu thổ: tung ra các mô hình mở rất mạnh
Người thắng lớn nhất là chúng ta, các lập trình viên
Sáng nay tôi dành vài phút dựng một model server H100, dùng cả phiên bản lượng tử hóa FP8 và lượng tử hóa KV cache, rồi đưa lên 2 chiếc H100; tốc độ và chất lượng trông rất hứa hẹn
Tôi kỳ vọng xem liệu benchmark tuân thủ chỉ dẫn tốt hơn có dẫn đến cải thiện ở function calling và các năng lực kiểu agent hay không