1 điểm bởi GN⁺ 2024-07-14 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu

Những ai nên đọc bài này

  • Người muốn hiểu cách AlphaFold3 hoạt động
  • Người muốn hiểu trực quan các cấu trúc phức tạp
  • Người đã quen với machine learning

Tổng quan kiến trúc

  • AlphaFold3 dự đoán cấu trúc của protein, axit nucleic, phân tử nhỏ, v.v.
  • Sử dụng phương pháp đặc trưng hóa/token hóa phức tạp hơn để xử lý các kiểu đầu vào phức tạp

Chuẩn bị đầu vào

Token hóa

  • Axit amin tiêu chuẩn: 1 token
  • Nucleotide tiêu chuẩn: 1 token
  • Axit amin/nucleotide không tiêu chuẩn: mỗi nguyên tử là 1 token
  • Các phân tử khác: mỗi nguyên tử là 1 token

Tìm kiếm (tạo MSA và template)

  • Tìm các chuỗi tương tự để tạo MSA và template
  • Tính khoảng cách Euclid rồi chuyển đổi thành distogram

Tạo biểu diễn ở mức nguyên tử

  • Tạo "cấu trúc tham chiếu" cho từng axit amin, nucleotide và ligand
  • Tạo biểu diễn đơn ở mức nguyên tử (q) và biểu diễn cặp (p)

Cập nhật biểu diễn ở mức nguyên tử (Atom Transformer)

  • Cập nhật q và p để tạo biểu diễn tốt hơn
  • Sử dụng Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition

Tổng hợp từ mức nguyên tử -> mức token

  • Chuyển biểu diễn ở mức nguyên tử sang mức token
  • Bổ sung MSA và thông tin do người dùng cung cấp

Học biểu diễn

Mô-đun template

  • Dùng template để cập nhật z

Mô-đun MSA

  • Cập nhật MSA và z
  • Sử dụng Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias

Mô-đun Pairformer

  • Cập nhật s và z
  • Sử dụng Triangle Updates, Triangle Attention

Dự đoán cấu trúc

Nguyên lý cơ bản của diffusion

  • Sử dụng diffusion model để dự đoán cấu trúc
  • Thêm và loại bỏ nhiễu để tạo cấu trúc cuối cùng

Tóm tắt của GN⁺

  • AlphaFold3 dự đoán các cấu trúc phức tạp như protein, axit nucleic, phân tử nhỏ, v.v.
  • Giải thích cấu trúc mô hình phức tạp bằng các sơ đồ trực quan để hỗ trợ việc hiểu
  • Đây là một mô hình đạt được bước tiến quan trọng trong lĩnh vực machine learning và công nghệ sinh học
  • Các dự án có chức năng tương tự gồm có RosettaFold, v.v.

1 bình luận

 
GN⁺ 2024-07-14
Ý kiến trên Hacker News
  • Cảm ơn vì bài viết này đã diễn giải bài báo để các nhà sinh học cấu trúc có thể hiểu được

  • Tôi biết được rằng AF3, với số lượng PTM bị giới hạn, phải xử lý từng nguyên tử như các token riêng lẻ

  • Có lẽ điều này là vì PTM xuất hiện rất ít trong PDB

  • Đây là một bài viết cho thấy thoáng qua cách mạng nơ-ron và công nghệ AI có thể được triển khai trong tương lai

  • Rất nhiều kỹ thuật triển khai và sự vận dụng khéo léo các công nghệ hiện có được kết hợp với một mô hình mạnh mẽ và được huấn luyện tốt

  • Những thứ như ChatGPT hiện nay đang ở giai đoạn đầu tiên của việc tạo ra mô hình nền tảng cho khả năng tổng quát hóa và xử lý dữ liệu

  • Hiện vẫn chưa có nhiều công việc xử lý đầu vào để mô hình có thể hiểu một cách tối ưu

  • Đã có một số nghiên cứu nền tảng trong lĩnh vực này, nhưng vẫn chưa có thứ gì tinh vi như AlphaFold

  • Mọi người đang kết hợp các LLM và sử dụng system prompt để hỗ trợ việc xử lý đầu vào

  • Khi các hệ thống phức tạp hơn xuất hiện, chúng ta có thể sẽ thấy thứ gì đó thực sự giống với AGI

  • Rất phức tạp

  • Tôi chưa từng nghe về thuật toán MSA được dùng để căn chỉnh chuỗi protein

  • Bài viết thật tuyệt vời, cảm ơn

  • Tôi dự định sẽ đọc kỹ hơn