AlphaFold minh họa
(elanapearl.github.io)- AlphaFold3 hướng tới việc dự đoán chỉ từ trình tự các phức hợp gồm protein, axit nucleic và phân tử nhỏ, vượt ra ngoài protein đơn lẻ; vì vậy biểu diễn đầu vào và token hóa trở nên phức tạp hơn nhiều so với AF2
- Đầu vào được chia thành biểu diễn single/pair ở cấp token, biểu diễn ở cấp nguyên tử, MSA và template; amino acid và nucleotide chuẩn được xử lý là 1 token, còn residue phi chuẩn và các phân tử khác được xử lý là 1 token cho mỗi nguyên tử
- Trunk học biểu diễn liên tục cải thiện biểu diễn single s và biểu diễn pair z thông qua module template, module MSA, Pairformer, cùng pair-bias attention, các phép toán triangle và recycling
- Dự đoán cấu trúc sử dụng mô hình khuếch tán có điều kiện cho tọa độ nguyên tử thay vì Invariant Point Attention của AF2, tạo ra các cập nhật tọa độ cho mọi nguyên tử bằng tăng cường quay/dịch chuyển và denoising
- Quá trình huấn luyện kết hợp distogram, diffusion và confidence loss, đồng thời học lại cả biểu diễn unfolded ở các vùng độ tin cậy thấp thông qua cross-distillation sử dụng kết quả của AF2 và AF-Multimer
Phạm vi đầu vào và pipeline tổng thể của AlphaFold3
- Mục tiêu của AlphaFold3 không chỉ là dự đoán trình tự protein riêng lẻ như AF2, hay chỉ xử lý phức hợp protein như AF-Multimer, mà là dự đoán chỉ từ trình tự cấu trúc trong đó protein liên kết với các protein khác, axit nucleic và phân tử nhỏ tùy chọn
- Ý nghĩa của “token” thay đổi tùy theo loại đầu vào
- Protein: 1 amino acid chuẩn là 1 token
- DNA/RNA: 1 nucleotide chuẩn là 1 token
- Amino acid·nucleotide phi chuẩn: 1 nguyên tử là 1 token
- Phân tử khác: 1 nguyên tử là 1 token
- Một protein gồm 35 amino acid chuẩn trên thực tế có thể có hơn 600 nguyên tử nhưng được biểu diễn bằng 35 token, còn ligand gồm 35 nguyên tử được biểu diễn bằng 35 token
- Mô hình nhìn chung gồm ba giai đoạn
- Input Preparation: chuyển đổi trình tự đầu vào của người dùng cùng các trình tự/cấu trúc liên quan tìm được thành tensor số
- Representation Learning: cập nhật biểu diễn single và pair bằng nhiều biến thể attention
- Structure Prediction: dự đoán cấu trúc bằng khuếch tán có điều kiện
- Phức hợp protein chủ yếu được lưu trong hai biểu diễn
- single representation: biểu diễn chính các token trong toàn bộ phức hợp
- pair representation: biểu diễn các quan hệ như khoảng cách và tương tác tiềm ẩn giữa mọi cặp token
- Các chiều channel chính là
c_z=128,c_m=64,c_atom=128,c_atompair=16,c_token=768,c_s=384
Chuẩn bị đầu vào: quá trình biến trình tự thành 6 tensor
- Đầu vào do người dùng cung cấp được chuyển đổi thành 6 tensor đưa vào trunk của mô hình
- s: token-level single representation
- z: token-level pair representation
- q: atom-level single representation
- p: atom-level pair representation
- m: MSA representation
- t: template representation
-
Tìm kiếm MSA và template
- AF3 tìm các trình tự tương tự cho trình tự protein và RNA, cấu thành chúng thành MSA, còn các cấu trúc liên quan được đưa vào dưới dạng template
- MSA căn chỉnh các trình tự protein tương tự được phát hiện ở nhiều loài, cung cấp cho mô hình các mẫu bảo tồn tại vị trí cụ thể và tương quan biến đổi giữa những vị trí khác nhau
- Cấu trúc đã biết của các protein tương tự được dùng để ước tính cấu trúc protein query, giống như homology modeling
- Quá trình tìm kiếm không bao gồm huấn luyện, và sử dụng các phương pháp dựa trên HMM
- Tìm kiếm nhiều cơ sở dữ liệu protein/RNA bằng
jackhmmer,HHBlits,nhmmer, và tìm các trình tự tương tự trong Protein Data Bank bằnghmmsearch - Kích thước MSA bị giới hạn ở
N_MSA < 2^14do độ phức tạp tính toán - Trong mỗi protein chain, chọn các cấu trúc có chất lượng cao và lấy mẫu tối đa 4 cấu trúc làm template
- So với AF-Multimer, yếu tố tìm kiếm mới được thêm vào là trình tự RNA cũng được đưa vào đối tượng tìm kiếm
-
Cách biểu diễn template
- Từ cấu trúc 3D của template, tính khoảng cách Euclid giữa từng cặp token
- Token có nhiều nguyên tử sử dụng “center atom” đại diện
- Amino acid: nguyên tử
Cα - Nucleotide chuẩn: nguyên tử
C1'
- Amino acid: nguyên tử
- Giá trị khoảng cách không phải là giá trị liên tục mà được rời rạc hóa thành distogram
- 38 bin từ 3.15Å đến 50.75Å
- 1 bin bổ sung cho các khoảng cách lớn hơn
- Distogram được bổ sung thông tin chain, việc token tương ứng có được resolved trong crystal structure hay không, và thông tin local distance bên trong mỗi amino acid
- Template matrix được masking để chỉ xem khoảng cách bên trong cùng chain, và không cố lấy thông tin inter-chain interaction từ việc chọn template
Biểu diễn ở mức nguyên tử và Atom Transformer
-
conformer tham chiếu và biểu diễn ở mức nguyên tử
- Để tạo biểu diễn single ở mức nguyên tử q, mô hình tính conformer tham chiếu cho từng amino acid, nucleotide và ligand
- conformer là cách sắp xếp nguyên tử 3D của phân tử được tạo bằng cách lấy mẫu các phép quay quanh liên kết đơn
- Với amino acid tiêu chuẩn, dùng conformer năng lượng thấp có thể lấy bằng lookup; còn với phân tử nhỏ, tạo conformer 3D bằng RDKit’s ETKDGv3
- Kết hợp vị trí tương đối của conformer, điện tích nguyên tử, số nguyên tử, định danh, v.v. để tạo atom-level single representation c
- Khởi tạo atom-level pair representation p bằng c, và dùng mask v để chỉ chứa khoảng cách giữa các nguyên tử được tính từ conformer tham chiếu
- q bắt đầu như một bản sao của c, rồi được cập nhật trong Atom Transformer
-
Vai trò của Atom Transformer
- Atom Transformer là mô-đun thực hiện attention ở mức nguyên tử, cập nhật q bằng p và biểu diễn ban đầu c
- c không được cập nhật, mà được dùng như một residual connection hướng về biểu diễn khởi đầu
- Cấu trúc cơ bản tương tự transformer, gồm LayerNorm, attention và MLP transition, nhưng mỗi bước được điều chỉnh bằng đầu vào bổ sung là c và p
-
Adaptive LayerNorm
- Adaptive LayerNorm không học
gamma,betacố định, mà sinhgamma,betatừ đầu vào phụ trợ - Trong Atom Transformer, đối tượng được rescale là q, còn tham số rescale được dự đoán từ đầu vào phụ trợ c
- Adaptive LayerNorm không học
-
Attention with Pair Bias
- Atom-level attention with pair bias là một phần mở rộng của self-attention
- query, key, value đều đến từ single representation q, nhưng sau tích vô hướng query-key, mô hình cộng thêm projection tuyến tính của pair representation p làm bias
- Thông tin chảy từ pair representation sang q, nhưng ở bước này p không được cập nhật bằng thông tin từ q
- gate được tạo bằng cách đưa một projection bổ sung qua sigmoid rồi nhân với kết quả attention, nhằm điều chỉnh thông tin nào được giữ lại trong residual stream
- Vì số nguyên tử có thể lớn hơn nhiều so với số token, mô hình dùng Sequence-local atom attention thay vì full attention
- Một local group gồm 32 nguyên tử có thể attend tới 128 nguyên tử khác
-
Conditioned Gating và Transition
- Conditioned Gating áp dụng gate được tạo từ atom-level single matrix ban đầu c lên dữ liệu
- Conditioned Transition tương ứng với MLP của transformer, và được gọi là conditioned vì Adaptive LayerNorm và Conditional Gating phụ thuộc vào c
- AF3 dùng SwiGLU trong transition block thay vì ReLU
- Transition dựa trên ReLU của AF2 có cấu trúc up-projection gấp 4 lần, ReLU, rồi down-projection
- SwiGLU của AF3 áp dụng phi tuyến swish cho một trong hai up-projection, sau đó nhân chúng và down-project
Gộp biểu diễn nguyên tử thành biểu diễn token
- Vì giai đoạn học biểu diễn sau đó hoạt động ở token-level, biểu diễn atom-level được gộp thành biểu diễn token-level
- Sau khi projection atom-level representation lên chiều lớn hơn, mô hình lấy trung bình các nguyên tử thuộc cùng một token
- Cách gộp trung bình này được áp dụng khi nhiều nguyên tử liên kết với một token, như amino acid và nucleotide tiêu chuẩn; còn đầu vào có 1 token cho mỗi nguyên tử thì được giữ nguyên
- Đầu vào single ở token-level cũng được kết hợp với các thống kê thu được từ MSA
- Loại amino acid
- Phân bố amino acid trong MSA tại vị trí đó
- deletion mean của token đó
- Với các token không có MSA, như nguyên tử ligand, các giá trị này bằng 0
- s_inputs được tạo như vậy sẽ đi qua projection để thành s_init, rồi được cập nhật trong giai đoạn học biểu diễn
- Pair representation z_init là tensor 3 chiều lưu quan hệ theo từng cặp token, trong đó mỗi z_i,j là vector có chiều
c_z=128 - Khi khởi tạo z_i,j, mô hình cộng projection của s_i, s_j, relative positional encoding và thông tin bond giữa các token do người dùng chỉ định
Học biểu diễn: Template, MSA, Pairformer
- Representation learning là trunk chiếm phần lớn tính toán của mô hình, với mục tiêu cải thiện token-level single representation s và pair representation z
- Single sequence representation không chỉ chỉ một chuỗi protein đơn lẻ, mà là sequence nối tất cả nguyên tử hoặc token trong cấu trúc
-
Template Module
- Mỗi template đi qua projection tuyến tính rồi được cộng với projection tuyến tính của pair representation z
- Ma trận kết hợp đi qua Pairformer Stack
- Kết quả từ nhiều template được lấy trung bình rồi đi qua một linear layer nữa
- Linear layer cuối dùng ReLU, đây là một trong số ít vị trí trong AF3 mà ReLU được dùng làm phi tuyến
-
MSA Module
- MSA Module rất giống Evoformer của AF2, đồng thời cải thiện MSA representation m và pair representation z
- Thay vì dùng toàn bộ các row MSA, mô hình subsample rồi cộng projection của single representation vào MSA
- Outer Product Mean là phép toán đưa thông tin MSA vào pair representation
- Với mỗi token index
i,j, tính outer product của m_s,i và m_s,j trên tất cả evolutionary sequence - Lấy trung bình trên toàn bộ sequence, flatten rồi projection, sau đó cộng vào z_i,j
- Đây là điểm duy nhất trong mô hình nơi thông tin được chia sẻ giữa các evolutionary sequence
- Với mỗi token index
- Row-wise gated self-attention using only pair bias cập nhật MSA bằng pair representation
- Thay vì tạo attention score bằng query và key, mô hình projection pair representation z thành ma trận để dùng làm attention score giữa các token
- Vì được áp dụng độc lập cho từng row MSA, ở bước này thông tin không được chia sẻ giữa các evolutionary sequence
- Phần cuối của MSA module cập nhật lại pair representation bằng triangle update và triangle attention
Pairformer và các phép toán triangle
- Sau khi cập nhật z bằng template và MSA, template và MSA không còn được sử dụng nữa; chỉ s và z được đưa vào Pairformer
- Pairformer tạo ra s_trunk và z_trunk cuối cùng thông qua việc lặp lại 48 block
-
Trực giác của phép toán triangle
- Triangle update và triangle attention là các cấu trúc nhằm phản ánh trực giác của bất đẳng thức tam giác vào mô hình
- Dù z_i,j của pair tensor không phải là khoảng cách vật lý, nó chứa quan hệ giữa token
ivàj, nên ba quan hệi-j,j-k,i-kđược cập nhật sao cho nhất quán với nhau - Bất đẳng thức tam giác không được cưỡng chế trực tiếp bên trong mô hình, mà được gợi dẫn bằng cách xem xét mọi bộ ba
(i,j,k)để cập nhật z_i,j - z có thể được xem như một directed adjacency matrix, nên được xử lý tách biệt theo hướng outgoing edge và incoming edge
-
Triangle Updates
- Trong outgoing update, mỗi z_i,j được cập nhật bằng cách dùng phần tử khác z_i,k trên cùng row và edge thứ ba z_j,k
- Về mặt triển khai, tạo ba projection
a,b,gcủa z, cộng tổng theokphép element-wise multiplication giữa rowivà rowj, rồi áp dụng gateg - Incoming update là dạng hoán đổi row và column, trong đó z_i,j được cập nhật thông qua các phần tử khác trong cùng column là z_k,j và z_k,i
-
Triangle Attention
- Triangle attention là dạng bổ sung nguyên lý triangle vào axial attention, vốn áp dụng attention độc lập lên row và column của ma trận 2D
- Trong case “starting node”, z_j,k được cộng làm bias vào so sánh query-key giữa z_i,j và z_i,k
- Trong case “ending node”, phép toán hoạt động theo column, và attention score giữa z_i,j và z_k,i được bias bằng z_k,j
-
Single Attention with Pair Bias
- Sau triangle step và transition block, single representation s được cập nhật bằng single attention with pair bias sử dụng updated pair representation z
- Vì hoạt động ở token-level, nó dùng full attention thay vì block-wise sparse attention được dùng ở atom-level
Dự đoán cấu trúc: denoising tọa độ nguyên tử bằng khuếch tán
-
Cách hoạt động cơ bản của mô hình khuếch tán
- AF3 thực hiện dự đoán cấu trúc cuối cùng bằng atom-level diffusion
- Diffusion model được huấn luyện bằng cách thêm random noise từng bước vào dữ liệu thật, rồi để mô hình dự đoán noise nào đã được thêm vào
- Khi inference, quá trình bắt đầu từ random noise hoàn toàn, ở mỗi step mô hình loại bỏ noise đã dự đoán để tạo ra datapoint đã denoise
- Conditional diffusion nhận noisy generation hiện tại, biểu diễn timestep hiện tại và vector điều kiện làm đầu vào để tạo ra kết quả phù hợp với điều kiện
- Trong AF3, đối tượng được denoising là ma trận x chứa tọa độ
x,y,zcủa tất cả nguyên tử
-
Tăng cường xoay và tịnh tiến thay cho IPA của AF2
- AF3 không dùng Invariant Point Attention của AF2, mà tại mỗi timestep sẽ xoay và tịnh tiến ngẫu nhiên toàn bộ phức hợp đang được dự đoán
- Phép tăng cường này giúp mô hình học rằng bất kỳ phép xoay và tịnh tiến nào cũng đều hợp lệ cho cùng một cấu trúc, và là cách tiếp cận đơn giản hơn IPA của AF2
- Phép xoay được áp dụng quanh trung bình tọa độ của tất cả nguyên tử trong generation hiện tại, còn translation được lấy mẫu từ Gaussian
N(0,1)ở từng chiều - Một lượng noise nhỏ cũng được thêm vào tọa độ để khuyến khích generation đa dạng hơn
- Khi inference, có thể chấm điểm nhiều generation bằng confidence head và trả về generation có điểm cao nhất
-
Bốn giai đoạn của Diffusion Module
- Mỗi denoising step sử dụng nhiều conditioning representation
- Đầu ra trunk s_trunk, z_trunk
- Biểu diễn ban đầu s_inputs, c_inputs được tạo bởi input embedder
- Quá trình diffusion gồm bốn giai đoạn, qua lại giữa không gian token và atom
-
- Chuẩn bị token-level conditioning tensor
-
- Chuẩn bị atom-level conditioning tensor, áp dụng Atom Transformer, rồi tổng hợp về token-level
-
- Áp dụng token-level attention
-
- Dự đoán noise update cho từng nguyên tử bằng atom-level attention
-
- Trong token-level conditioning, z_trunk được kết hợp với relative positional encoding rồi đi qua transition block
- Với single representation, s_inputs và s_trunk được kết hợp, rồi cộng thêm Fourier embedding theo diffusion timestep
- Ở giai đoạn atom-level, c, p ban đầu được cập nhật bằng token-level representation hiện tại, và tọa độ hiện tại x được scale theo data variance để tạo coordinate không thứ nguyên r
- Ở giai đoạn atom-level cuối cùng, linear layer ánh xạ q sang
R^3để tạo coordinate update r_update cho tất cả nguyên tử - Update được rescale thành x_update có xét đến data variance và noise schedule, rồi được áp dụng lên tọa độ hiện tại x_l
- Mỗi denoising step sử dụng nhiều conditioning representation
Hàm loss và confidence head
- Loss tổng thể là tổng có trọng số của ba thành phần
L_loss = L_distogram * α_distogram + L_diffusion * α_diffusion + L_confidence * α_confidence
-
L_distogram
- L_distogram đánh giá độ chính xác của distogram dự đoán ở cấp token
- Khi tạo tọa độ token từ tọa độ nguyên tử, sử dụng tọa độ center atom của từng token
- Khoảng cách distogram được xử lý như một categorical value, và distogram dự đoán được so sánh với distogram thực bằng cross entropy
-
L_diffusion
- L_diffusion là tổng có trọng số của nhiều hạng mục nhắm đến atom position
- L_MSE tính mean squared error giữa các position cho tất cả nguyên tử, không chỉ center atom; các nguyên tử DNA, RNA và ligand được upweight
- L_bond là một hạng MSE bổ sung nhằm tăng độ chính xác bond length của atom pair trong protein-ligand bond
- Ở training stage ban đầu,
α_bond=0, nên hạng này được đưa vào sau - L_smooth_LDDT là một loss làm cho local distance accuracy trở nên mượt và khả vi
- Sử dụng bốn threshold: 4Å, 2Å, 1Å, 0.5Å
- Bỏ qua nucleotide atom pair nếu cách nhau hơn 30Å
- Bỏ qua protein hoặc ligand atom pair nếu cách nhau hơn 15Å
-
L_confidence
- L_confidence không trực tiếp tăng độ chính xác cấu trúc, mà huấn luyện mô hình ước lượng độ chính xác của chính dự đoán của nó
- Gồm các loss tương ứng với bốn confidence metric
- pLDDT: local distance accuracy đối với các nguyên tử gần nhau
- PAE: predicted alignment error của token pair
- PDE: predicted distance error giữa các token pair
- experimentally resolved prediction: dự đoán mỗi nguyên tử có được resolved trong cấu trúc thực nghiệm hay không
- Dù cấu trúc dự đoán không chính xác khiến PAE cao, nếu mô hình cũng dự đoán PAE cao thì PAE loss tương ứng có thể thấp
- Confidence prediction được tạo ra ở giai đoạn trung gian của diffusion
- Gradient của confidence loss chỉ cập nhật confidence prediction head, không ảnh hưởng đến phần còn lại của mô hình
Kỹ thuật huấn luyện bổ sung và tối ưu hiệu suất
-
Recycling
- AF3 sử dụng weight recycling giống AF2
- Thay vì làm mô hình sâu hơn, nó tái sử dụng cùng weight nhiều lần để dần cải thiện representation
- Diffusion cũng dùng thông tin timestep trong inference và tái sử dụng cùng weight ở mỗi timestep, nên về bản chất đã bao hàm recycling
-
Cross-distillation
- AF3 sử dụng không chỉ synthetic training data do chính nó tạo ra, mà cả synthetic data do AF2 và AF-Multimer tạo
- Sau khi chuyển sang generation dựa trên diffusion, đã xảy ra vấn đề là dạng “spaghetti” từng giúp AF2 phân biệt trực quan các vùng độ tin cậy thấp/vô trật tự bị biến mất
- Bằng cách đưa generation của AF2 và AF-Multimer vào training data của AF3, AF3 học cách xuất ra unfolded region ở những vùng mà AF2 không chắc chắn
- Trong distillation dataset, nucleic acid và phân tử nhỏ mà AF2 và AF-Multimer không xử lý được sẽ bị loại bỏ
- Sau khi mô hình trước đó tạo cấu trúc dự đoán rồi alignment với bản gốc, các phân tử đã loại bỏ được thêm lại
- Nếu phân tử được thêm lại tạo ra atom clash, toàn bộ cấu trúc sẽ bị loại, nhằm tránh việc mô hình học cách cho phép clash
-
Cropping và training stage
- Bản thân mô hình không có giới hạn tường minh về độ dài chuỗi đầu vào, nhưng nhiều phép toán tăng theo
N_tokens^3, làm tăng yêu cầu về memory và compute - Để tăng hiệu quả, protein được random crop
- Vì cần mô hình hóa interaction giữa nhiều chain, crop phải bao gồm các chain cùng nhau
- Ba phương pháp cropping được sử dụng
- contiguous cropping: chọn sequence amino acid liên tiếp trong mỗi chain
- spatial cropping: chọn amino acid dựa trên khoảng cách đến nguyên tử tham chiếu
- spatial interface cropping: chọn dựa trên khoảng cách đến nguyên tử ở binding interface
- Mô hình được huấn luyện với random crop 384 vẫn có thể áp dụng cho sequence dài hơn, nhưng để cải thiện khả năng xử lý sequence dài hơn, nó được fine-tuning lặp lại với sequence length lớn hơn
- Bản thân mô hình không có giới hạn tường minh về độ dài chuỗi đầu vào, nhưng nhiều phép toán tăng theo
-
Clashing và batch size
- AF3 loss không bao gồm clash penalty cho các nguyên tử overlapping
- Về lý thuyết, diffusion-based structure module có thể dự đoán hai nguyên tử ở cùng vị trí, nhưng sau huấn luyện vấn đề này nhỏ
- Clashing penalty được dùng trong ranking các cấu trúc sinh ra
- Diffusion process trông có vẻ phức tạp, nhưng chi phí tính toán thấp hơn trunk
- Để tăng hiệu quả huấn luyện, batch size được mở rộng sau trunk
- Mỗi input structure đi qua embedding và trunk một lần, sau đó 48 structure độc lập đã data-augmented được huấn luyện song song
Thiết kế AF3 nhìn từ góc độ ML
-
Cấu trúc tương tự Retrieval-Augmented Generation
- Tìm kiếm MSA và template của AF3 có tính chất tương tự RAG trong các mô hình ngôn ngữ
- Trong lĩnh vực AlphaFold, cách dùng template cấu trúc đã được sử dụng từ lâu dưới tên gọi homology modeling, trước cả thuật ngữ RAG
- AF3 đã giảm tỷ trọng xử lý MSA so với AF2, nhưng vẫn bao gồm MSA và template
- Một số mô hình dự đoán protein như ESMFold loại bỏ retrieval và sử dụng fully parametric inference
-
Pair-Bias Attention
- Pair-Bias Attention, thành phần chính của AF2, được dùng rộng rãi hơn trong AF3
- query, key, value đến từ cùng một source, nhưng attention map được cộng thêm bias term đến từ source khác
- Đây là một cách chia sẻ thông tin nhẹ hơn so với full cross-attention
- Vì pair representation tự nhiên tương đồng với attention map, cấu trúc này có thể phù hợp với mô hình hóa protein
-
Thu hẹp self-supervised training
- Các mô hình họ ESM cho thấy thế mạnh ở cách thay thế embedding MSA bằng self-supervised pre-training
- AF2 có một task bổ sung dự đoán masked token trong MSA, nhưng task này đã bị loại bỏ trong AF3
- AF3 giảm compute cho xử lý MSA và không sử dụng self-supervised language modeling pre-training cho MSA
- Các lý do có thể là massive pre-training kém hiệu quả về mặt sử dụng compute, module MSA nhỏ tốt hơn pre-trained embedding, hoặc việc kết hợp pre-trained embedding không phù hợp với cấu trúc hybrid atom-token trộn lẫn amino acid, DNA/RNA và ligand
-
Kết hợp Classification và Regression
- AF3, giống như AF2, sử dụng đồng thời MSE và binned classification loss
- Đặc điểm của classification loss là dù dự đoán sai chỉ một distogram bin cũng không được ghi nhận credit, theo cùng cách như khi sai rất xa
- Cơ sở cho lựa chọn thiết kế này không rõ ràng, nhưng có khả năng gradient ổn định hơn so với nhiều MSE loss
-
Các yếu tố giống recurrent architecture
- AF3 có nhiều yếu tố gợi nhớ đến recurrent network hơn transformer thông thường
- gating kiểm soát luồng thông tin trong residual stream, tương tự các gate của LSTM hoặc GRU
- recycling và diffusion áp dụng lặp lại cùng một weight để cải thiện dần dự đoán
- Tương tự adaptive compute time, các cập nhật lặp có liên quan đến cấu trúc có thể áp dụng nhiều xử lý hơn cho các đầu vào khó
- Trong ablation của AF2, tầm quan trọng của recycling đã được thể hiện, nhưng không có nhiều thảo luận về tầm quan trọng của gating
Chưa có bình luận nào.