Giới thiệu
Những ai nên đọc bài này
- Người muốn hiểu cách AlphaFold3 hoạt động
- Người muốn hiểu trực quan các cấu trúc phức tạp
- Người đã quen với machine learning
Tổng quan kiến trúc
- AlphaFold3 dự đoán cấu trúc của protein, axit nucleic, phân tử nhỏ, v.v.
- Sử dụng phương pháp đặc trưng hóa/token hóa phức tạp hơn để xử lý các kiểu đầu vào phức tạp
Chuẩn bị đầu vào
Token hóa
- Axit amin tiêu chuẩn: 1 token
- Nucleotide tiêu chuẩn: 1 token
- Axit amin/nucleotide không tiêu chuẩn: mỗi nguyên tử là 1 token
- Các phân tử khác: mỗi nguyên tử là 1 token
Tìm kiếm (tạo MSA và template)
- Tìm các chuỗi tương tự để tạo MSA và template
- Tính khoảng cách Euclid rồi chuyển đổi thành distogram
Tạo biểu diễn ở mức nguyên tử
- Tạo "cấu trúc tham chiếu" cho từng axit amin, nucleotide và ligand
- Tạo biểu diễn đơn ở mức nguyên tử (q) và biểu diễn cặp (p)
Cập nhật biểu diễn ở mức nguyên tử (Atom Transformer)
- Cập nhật q và p để tạo biểu diễn tốt hơn
- Sử dụng Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition
Tổng hợp từ mức nguyên tử -> mức token
- Chuyển biểu diễn ở mức nguyên tử sang mức token
- Bổ sung MSA và thông tin do người dùng cung cấp
Học biểu diễn
Mô-đun template
- Dùng template để cập nhật z
Mô-đun MSA
- Cập nhật MSA và z
- Sử dụng Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias
Mô-đun Pairformer
- Cập nhật s và z
- Sử dụng Triangle Updates, Triangle Attention
Dự đoán cấu trúc
Nguyên lý cơ bản của diffusion
- Sử dụng diffusion model để dự đoán cấu trúc
- Thêm và loại bỏ nhiễu để tạo cấu trúc cuối cùng
Tóm tắt của GN⁺
- AlphaFold3 dự đoán các cấu trúc phức tạp như protein, axit nucleic, phân tử nhỏ, v.v.
- Giải thích cấu trúc mô hình phức tạp bằng các sơ đồ trực quan để hỗ trợ việc hiểu
- Đây là một mô hình đạt được bước tiến quan trọng trong lĩnh vực machine learning và công nghệ sinh học
- Các dự án có chức năng tương tự gồm có RosettaFold, v.v.
1 bình luận
Ý kiến trên Hacker News
Cảm ơn vì bài viết này đã diễn giải bài báo để các nhà sinh học cấu trúc có thể hiểu được
Tôi biết được rằng AF3, với số lượng PTM bị giới hạn, phải xử lý từng nguyên tử như các token riêng lẻ
Có lẽ điều này là vì PTM xuất hiện rất ít trong PDB
Đây là một bài viết cho thấy thoáng qua cách mạng nơ-ron và công nghệ AI có thể được triển khai trong tương lai
Rất nhiều kỹ thuật triển khai và sự vận dụng khéo léo các công nghệ hiện có được kết hợp với một mô hình mạnh mẽ và được huấn luyện tốt
Những thứ như ChatGPT hiện nay đang ở giai đoạn đầu tiên của việc tạo ra mô hình nền tảng cho khả năng tổng quát hóa và xử lý dữ liệu
Hiện vẫn chưa có nhiều công việc xử lý đầu vào để mô hình có thể hiểu một cách tối ưu
Đã có một số nghiên cứu nền tảng trong lĩnh vực này, nhưng vẫn chưa có thứ gì tinh vi như AlphaFold
Mọi người đang kết hợp các LLM và sử dụng system prompt để hỗ trợ việc xử lý đầu vào
Khi các hệ thống phức tạp hơn xuất hiện, chúng ta có thể sẽ thấy thứ gì đó thực sự giống với AGI
Rất phức tạp
Tôi chưa từng nghe về thuật toán MSA được dùng để căn chỉnh chuỗi protein
Bài viết thật tuyệt vời, cảm ơn
Tôi dự định sẽ đọc kỹ hơn