AlphaGenome: AI để hiểu bộ gen tốt hơn

(deepmind.google)

1 điểm bởi GN⁺ 2025-06-27 | 2 bình luận | Chia sẻ qua WhatsApp

Google DeepMind đã công bố mô hình AI cho trình tự DNA mới mang tên AlphaGenome
Mô hình này có thể nâng cao độ chính xác trong dự đoán tác động của các biến thể điều hòa gen và dự đoán nhiều quá trình điều hòa gen khác nhau
Điểm nổi bật là có thể nhận đầu vào là trình tự DNA dài tới 1 triệu cặp bazơ và dự đoán nhiều hiện tượng sinh học ở độ phân giải cao
Khác với các mô hình trước đây, nó có thể đánh giá tác động của biến thể trên nhiều mô sinh học và loại tế bào khác nhau trong một lần
AlphaGenome được kỳ vọng sẽ giúp các nhà nghiên cứu hiểu rõ hơn về chức năng gen và sinh học bệnh tật, đồng thời thúc đẩy việc khám phá các liệu pháp mới

Giới thiệu AlphaGenome

Google DeepMind đã công bố mô hình AI cho trình tự DNA mới mang tên AlphaGenome
Bằng cách dự đoán chính xác tác động của các biến thể đơn lẻ hoặc đột biến ảnh hưởng đến điều hòa gen, mô hình này tạo ra một bước ngoặt quan trọng cho nghiên cứu chức năng bộ gen và hiểu biết về bệnh tật
Có thể dùng thử trước qua API cho mục đích nghiên cứu, và công ty cũng có kế hoạch công bố thêm mô hình trong tương lai

Cách AlphaGenome hoạt động

AlphaGenome nhận đầu vào là các trình tự DNA dài tối đa 1 triệu cặp bazơ và dự đoán nhiều đặc tính phân tử khác nhau
Các đặc tính có thể dự đoán bao gồm hàng nghìn yếu tố như vị trí gen, lượng RNA tạo ra, khả năng truy cập DNA, vị trí liên kết protein
Mô hình được huấn luyện bằng các bộ dữ liệu công khai quy mô lớn như ENCODE, GTEx, 4D Nucleome, FANTOM5
Bên trong, mô hình dùng các lớp tích chập để phát hiện trước các mẫu ngắn, sau đó dùng Transformer để kết hợp thông tin trên toàn bộ trình tự rồi tạo ra nhiều giá trị dự đoán khác nhau
Xử lý khối lượng tính toán lớn trong môi trường TPU phân tán để tăng hiệu quả huấn luyện
Phát triển từ mô hình Enformer trước đó, và khác với AlphaMissense chỉ dành cho vùng mã hóa protein, mô hình này phân tích toàn diện cả vùng không mã hóa (98% toàn bộ bộ gen)

Điểm khác biệt của AlphaGenome

Phân tích trình tự tầm xa ở độ phân giải siêu cao: phân tích ở quy mô 1 triệu cặp bazơ và cung cấp kết quả với độ chính xác đến từng bazơ
Có hiệu quả huấn luyện cao hơn các mô hình hiện có, học nhanh hơn với ít tài nguyên hơn
Dự đoán đa phương thức tích hợp: đồng thời dự đoán thông tin ở nhiều giai đoạn điều hòa gen trong một mô hình
Chấm điểm biến thể hiệu quả: so sánh ngay giữa trình tự biến thể và trình tự bình thường để nhanh chóng tính toán mức độ ảnh hưởng của biến thể lên nhiều hiện tượng sinh học
Mô hình hóa điểm nối splicing đột phá: trực tiếp dự đoán vị trí splicing và mức biểu hiện gen, qua đó hỗ trợ cả nghiên cứu bệnh hiếm

Hiệu năng tiên tiến và kết quả benchmark

AlphaGenome đạt hiệu năng vượt trội hoặc tương đương các mô hình tốt nhất bên ngoài trong 22 trên 24 benchmark dự đoán bộ gen và 24 trên 26 bài đánh giá tác động điều hòa của biến thể
Đây là mô hình duy nhất có thể đồng thời dự đoán nhiều dạng đặc tính sinh học bằng một lần gọi API duy nhất, thay vì cần các mô hình chuyên biệt cho từng tác vụ

Ưu điểm của mô hình tích hợp

Có thể xử lý tích hợp nhiều modality, giúp nhà khoa học lặp lại nhanh nhiều giả thuyết và thí nghiệm khác nhau
Học được biểu diễn tổng quát của trình tự DNA, nhờ đó cộng đồng có thể dễ dàng tiếp tục huấn luyện và tối ưu hóa
Cung cấp tính linh hoạt và khả năng mở rộng để mở rộng thêm dữ liệu hoặc phạm vi ứng dụng

Ý nghĩa như một công cụ nghiên cứu mạnh mẽ

Hiểu về bệnh tật: có khả năng được dùng để làm rõ nguyên nhân gây bệnh như các biến thể hiếm và tìm kiếm mục tiêu điều trị
Sinh học tổng hợp: có thể dùng để thiết kế DNA tổng hợp với chức năng cụ thể
Nghiên cứu cơ bản: hỗ trợ lập bản đồ các yếu tố chức năng cốt lõi của bộ gen và khám phá các yếu tố điều hòa theo từng loại tế bào
Trên thực tế, AlphaGenome đã dự đoán rằng một biến thể liên quan đến T-ALL (bệnh bạch cầu lympho cấp) gây hoạt hóa gen TAL1 lân cận thông qua việc hình thành motif liên kết DNA của MYB, qua đó tái hiện thành công cơ chế tác động của biến thể đó lên gen gây bệnh

Các giới hạn hiện tại

Việc xác định tác động của các yếu tố điều hòa rất xa cách hơn 100.000 bazơ vẫn là một thách thức
Khả năng nhận diện các mẫu đặc thù theo tế bào và mô vẫn cần thêm nghiên cứu
Hiện chưa xem xét mục đích dự đoán bộ gen cá nhân (chẩn đoán và dự đoán cá nhân hóa)
Mô hình chỉ dự đoán ở cấp độ phân tử và không thể giải thích đầy đủ các nguyên nhân phức tạp của mọi loại bệnh
Ở giai đoạn hiện tại mới chỉ là công bố phục vụ nghiên cứu, nên chưa thể đánh giá mức độ phù hợp lâm sàng trực tiếp hay áp dụng điều trị

Hỗ trợ cộng đồng và định hướng sắp tới

API có thể được sử dụng ngay cho mục đích nghiên cứu phi thương mại, và có kế hoạch nâng cao mức độ ứng dụng của AlphaGenome thông qua hợp tác rộng rãi với cộng đồng nghiên cứu
Công ty đang tiếp nhận phản hồi và các trường hợp sử dụng thông qua diễn đàn cộng đồng và các kênh tương tự
Dự kiến sẽ phát triển thành các phiên bản mở rộng với nhiều dữ liệu, loài và modality hơn
Được kỳ vọng sẽ thúc đẩy các đổi mới nghiên cứu mới trong y học và khoa học sự sống liên quan đến diễn giải bộ gen

Kết luận

AlphaGenome là công cụ phân tích bộ gen dựa trên AI mới có thể diễn giải ý nghĩa của biến thể di truyền từ nhiều góc nhìn cùng lúc, qua đó thúc đẩy cả nghiên cứu cơ bản lẫn nghiên cứu lâm sàng
Công ty có kế hoạch hợp tác với các nhóm chuyên gia bên ngoài để lan tỏa đổi mới dựa trên dữ liệu bộ gen đến nhiều người nhất có thể

2 bình luận

galadbran 2025-06-27

Tôi tò mò không biết tính đa phương thức của mô hình AI xử lý dự đoán gene bao gồm những phương thức nào, nên đã hỏi o3 thì được biết rằng các yếu tố như lượng phiên mã, vị trí bắt đầu và kết thúc phiên mã, splicing, v.v. được coi là các phương thức.

GN⁺ 2025-06-27

Ý kiến trên Hacker News

Đây có vẻ là một dấu hiệu cho thấy áp lực từ phía doanh nghiệp đang tăng lên: dù là mô hình có thể chạy trên một A100 đơn lẻ, họ vẫn không công bố mã nguồn hay tham số mà chỉ vận hành sau API, còn ở trang 31 của bài báo thì lại dán toàn bộ mô hình dưới dạng giả mã; chỉ mong Google/Demis/Sergei ít nhất hãy công bố tham số. Một mô hình nhỏ như vậy mà chỉ tồn tại sau API thì khó có thể chữa được cả ung thư, mà doanh thu GCloud từ nó có lẽ cũng chẳng lớn đến thế.
Nếu có đột phá trong lĩnh vực mô phỏng tế bào, ta có thể kỳ vọng triển khai được các mô phỏng hữu ích như động lực học phân tử nhưng ở mức mà siêu máy tính hiện đại có thể xử lý; việc không thể nhìn thấy điều gì đang xảy ra bên trong được xem là một trở ngại lớn của nghiên cứu khoa học sự sống.
- Arc thực sự đang thử thách mình với chính bài toán này; có thể xem thêm tại tin liên quan trên arcinstitute.org
- Tôi nghĩ đây là phần mà điện toán lượng tử có thể giải quyết, nhưng có lẽ vẫn còn khoảng 10 năm nữa; còn tốc độ tăng tốc nhờ AI thì khó dự đoán.
- Mong sẽ có nhiều nỗ lực hơn nhằm tạo ra mô phỏng xác định thực sự; cách phơi bày quá trình bên trong quan trọng hơn một hộp đen chỉ cho ra kết quả.
Không chỉ DeepMind mới làm nghiên cứu ứng dụng AI có tác động lớn, nhưng tôi tò mò vì sao họ lại nổi bật hẳn trong lĩnh vực này. Là do marketing công nghệ quá giỏi, hay còn lý do nào khác?
- Bài báo lần này được làm tốt, nhưng khó coi là một đổi mới đột phá; những nỗ lực tương tự đã tồn tại từ lâu.
- DeepMind đã làm việc này từ rất lâu, và họ có hậu thuẫn từ nguồn lực khổng lồ mà Google cung cấp; theo perplexity, việc xây dựng cơ sở dữ liệu alphafold 2 đã tiêu tốn “hàng triệu giờ GPU”.
- Trong khoa học sự sống, Arc Institute đang làm những nghiên cứu rất mới mẻ; còn phía các hãng dược thì Genentech hoặc GSK đang cho ra kết quả rất tốt từ các nhóm AI.
- Vì là một tổ chức thuộc Google, sự hậu thuẫn từ một công ty trị giá 2 nghìn tỷ đô rõ ràng mang lại lợi thế vượt xa marketing.
Thử tưởng tượng mở rộng kích thước đầu vào lên 3.2Gbp, tức kích thước bộ gen người, thì có lẽ sẽ xuất hiện những tương tác rất thú vị; việc U-net và transformer đang trở thành trung tâm của nghiên cứu cũng là một điểm đáng chú ý.
- Thực tế tôi nghĩ không cần quá 2 megabase, vì bộ gen không phải một chuỗi liên tục duy nhất mà được tách biệt/tổ chức về mặt vật lý theo nhiễm sắc thể và topologically associated domain; khoảng 2 megabase gần như đã bao trùm hầu hết phạm vi tương tác chính giữa cis regulatory element và effector gene.
- Về ý “mọi thứ đều xoay quanh U-net và transformer”, có nhắc đến góc nhìn của “người chỉ có cây búa trong tay”.
Có lẽ trong nội bộ doanh nghiệp rồi cũng sẽ nảy ra ý tưởng dùng dữ liệu bộ gen để tăng hiệu quả quảng cáo; ví dụ nếu thấy nguy cơ ung thư đại tràng thì hiển thị quảng cáo “thực phẩm bổ sung cho sức khỏe đại tràng”, hoặc phân tích xu hướng từ thông tin di truyền để làm marketing kiểu “gen này có tương quan với xu hướng thích hài đen, hãy quảng bá phim mới cho những người mang gen này”.
Một bước nhảy lớn về hiệu năng dự đoán RNA có thể mang lại cơ hội lớn cho các phòng thí nghiệm mRNA.
- (Một câu trả lời ngay sau đó: Tôi nghĩ điều này có thể còn rõ rệt hơn ở ngoài nước Mỹ.)
Ngay sau khi vào Google năm 2008, tôi đã chủ trương đầu tư mạnh vào lĩnh vực khoa học sự sống. Tôi tin rằng Google có thể tạo ra kết quả đẳng cấp thế giới nhờ năng lực xử lý dữ liệu và ML, đồng thời giúp các nhà sinh học khác cũng tái lập được phương pháp đó. Thực tế, thông qua exacycle, họ đã tạo ra những kết quả thú vị trong gấp cuộn/thiết kế protein, rồi sau đó còn ra mắt Cloud Genomics để cung cấp dịch vụ lưu trữ/phân tích các tập dữ liệu lớn. Cuối cùng DeepMind đã hiện thực hóa mục tiêu tôi từng nghĩ đến theo một cách còn tuyệt vời hơn rất nhiều; bài báo gần đây có quá nhiều thứ để xem nên chắc cộng đồng sẽ cần thời gian để tiêu hóa.
- Tôi đồng ý rằng Sundar không hẳn là mẫu lãnh đạo truyền cảm hứng trên cương vị CEO của Google, nhưng ông đã dẫn dắt tăng trưởng gấp 10 lần, từ lợi nhuận quý 3B năm 2015 trước khi nhậm chức lên 35B trong quý 1 năm 2025. Ông kiên định với mảng quảng cáo và đưa công ty tới mức lợi nhuận hiện nay; chuyển hướng sang AI có hơi chậm, nhưng tôi nghĩ họ vẫn có tính cạnh tranh với gemini và những thứ khác. DeepMind cũng là thành tựu rất lớn; có thể nói “Sundar ít hype nhưng làm được việc”.
- Có ý kiến cho rằng câu “Tôi vui vì cuối cùng tâm nguyện lâu năm đã thành hiện thực” nghe khá tự mãn. Hầu hết mọi người cũng có những ý tưởng lớn, nhưng nói kiểu “Cuối cùng! Ý tưởng của tôi đã đến với thế giới…” thì vẫn hơi kỳ.
- Có người hỏi liệu trước đây đã từng trò chuyện về chủ đề này trên shuttle Santa Cruz chưa, vì cuộc nói chuyện khi đó rất thú vị và đến giờ họ vẫn thấy hào hứng trước sự xuất hiện của AlphaGenome.
- Từ góc nhìn của một Googler hiện tại, cảm nhận về Sundar khá phức tạp: ông ấy xứng đáng được ghi nhận vì đã đầu tư sớm vào hạ tầng và công cụ AI, nhưng tôi nghĩ cần dành nhiều công hơn cho Jeff Dean thay vì Demis.
Thật đáng thất vọng khi bài báo bỏ qua một trong những vấn đề lớn nhất: phân biệt đâu là biến thể thực sự có tính nhân quả và đâu là biến thể không có tính nhân quả trong các đoạn DNA có tương quan cao với nhau, điều mà di truyền học gọi là fine mapping. Việc thu hẹp chính xác vùng điều hòa cốt lõi là cực kỳ quan trọng để tìm ra mục tiêu thuốc hiệu quả. Một bài báo trên Nature gần đây có nêu ví dụ về vấn đề này và cả trường hợp kết nối tới ứng viên thuốc điều hòa chức năng đại thực bào trong bệnh tự miễn.
- Tôi tự hỏi liệu kết quả lần này có đưa chúng ta tiến gần hơn theo hướng đó không. Tôi không có chuyên môn quá sâu, nhưng cảm giác là nếu dự đoán chức năng tốt hơn thì sẽ dễ phân biệt biến thể thực sự quan trọng với biến thể vô nghĩa hơn; bước tiếp theo có lẽ sẽ là tích hợp với các phương pháp fine mapping thống kê đúng nghĩa.