IBM và NASA phát triển mô hình ngôn ngữ nhằm cải thiện khả năng tiếp cận tri thức khoa học

(research.ibm.com)

4 điểm bởi GN⁺ 2024-03-15 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

IBM và NASA xây dựng mô hình ngôn ngữ nhằm cải thiện khả năng tiếp cận tri thức khoa học

IBM và NASA đã bắt đầu một sự hợp tác mới để tạo ra các mô hình ngôn ngữ hiệu quả từ tài liệu khoa học.
Dựa trên kiến trúc Transformer, các mô hình này có thể được გამოყენում trong nhiều ứng dụng khác nhau như phân loại, trích xuất thực thể, hỏi đáp và truy xuất thông tin.
Chúng đạt hiệu năng cao trên nhiều lĩnh vực và có thể phản hồi nhanh, đồng thời được phát hành mã nguồn mở trên Hugging Face vì lợi ích của cộng đồng khoa học và học thuật.

Các mô hình ngôn ngữ dựa trên Transformer, bao gồm BERT, RoBERTa, các dòng mô hình Slate và Granite của IBM, đóng vai trò rất quan trọng đối với các tác vụ hiểu ngôn ngữ tự nhiên.
Các mô hình này dựa trên sự hiểu biết mang tính thống kê về cách ngôn ngữ vận hành, và được huấn luyện thông qua tác vụ masked language modeling để tái tạo câu bằng cách khôi phục các từ bị che.
Tokenizer, thành phần phân tách từ thành các đơn vị mà mô hình có thể sử dụng, giữ vai trò quan trọng trong việc học một vốn từ vựng khổng lồ.

IBM và NASA đã huấn luyện mô hình trên 60 tỷ token từ một corpus dữ liệu gồm vật lý thiên văn, khoa học hành tinh, khoa học Trái Đất, vật lý Mặt Trời, cùng dữ liệu khoa học sinh học và khoa học vật lý.
Khác với các tokenizer thông thường, tokenizer chuyên biệt được phát triển có thể nhận diện các thuật ngữ khoa học như "axes" và "polycrystalline".
Trong 50.000 token mà mô hình xử lý, hơn một nửa là duy nhất khi so sánh với mô hình RoBERTa của Hugging Face.

Mô hình IBM-NASA được huấn luyện với từ vựng chuyên biệt theo miền đã vượt mô hình RoBERTa mở 5% trên benchmark BLURB, một bộ đo phổ biến để đánh giá các tác vụ y sinh.
Mô hình cũng cho thấy mức cải thiện 2,4% điểm F1 trên benchmark hỏi đáp khoa học nội bộ, và cải thiện 5,5% trong bài kiểm thử nhận diện thực thể khoa học Trái Đất nội bộ.

Mô hình encoder đã được huấn luyện có thể được fine-tune cho nhiều tác vụ ngôn ngữ không sinh khác nhau, đồng thời tạo ra các embedding giàu thông tin cho việc truy xuất tài liệu.

Các mô hình này đã cho thấy hiệu năng vượt trội trong việc truy xuất các đoạn văn liên quan trên một bộ kiểm thử khoảng 400 câu hỏi do NASA tuyển chọn, sử dụng khoảng 268 triệu cặp văn bản.
Sự cải thiện đáng kể của mô hình đến từ dữ liệu huấn luyện chuyên biệt, tokenizer tùy chỉnh và phương pháp luận huấn luyện.

Theo cam kết của IBM và NASA đối với AI minh bạch, cả hai mô hình đều có sẵn trên Hugging Face.
Mô hình encoder có thể tiếp tục được fine-tune cho các ứng dụng trong lĩnh vực không gian, còn mô hình truy xuất có thể được dùng cho các ứng dụng truy xuất thông tin phục vụ RAG.

Sự hợp tác này có vẻ sẽ giúp ích lớn cho việc cải thiện khả năng tiếp cận tri thức khoa học. Đặc biệt, việc phát triển các mô hình ngôn ngữ có thể hiểu và xử lý thuật ngữ chuyên môn trong lĩnh vực khoa học sẽ rất hữu ích với các nhà nghiên cứu.
Việc các mô hình được cung cấp dưới dạng mã nguồn mở tạo cơ hội cho nhiều nhà nghiên cứu và nhà phát triển tự do sử dụng và cải tiến, qua đó có thể đóng góp vào quá trình dân chủ hóa nghiên cứu AI.
Tuy nhiên, để tận dụng hiệu quả các mô hình tiên tiến này có thể vẫn cần tài nguyên tính toán đủ mạnh và chuyên môn về mô hình hóa AI. Đây có thể là rào cản gia nhập đối với một số nhà nghiên cứu hoặc tổ chức.
Những yếu tố cần cân nhắc khi áp dụng công nghệ này bao gồm độ phức tạp của mô hình, lượng dữ liệu cần thiết cho huấn luyện, cũng như hiệu năng phần cứng đủ để xử lý chúng. Lợi ích của việc chọn mô hình này là hiểu sâu hơn tài liệu khoa học và truy xuất thông tin nhanh hơn, nhưng đi kèm là chi phí và nhu cầu đầu tư tài nguyên.