Cách giải trình tự DNA của tôi với chi phí dưới 2.000 USD

(maxlangenkamp.substack.com)

1 điểm bởi GN⁺ 2025-10-20 | 1 bình luận | Chia sẻ qua WhatsApp

Chi phí giải trình tự DNA đang giảm nhanh hơn định luật Moore
Với Oxford Nanopore MinION, bạn có thể giải trình tự DNA tại nhà với khoảng 1.100 USD
Trong thí nghiệm thực tế, đã thực hiện các bước lấy máu, tách DNA, giải trình tự bằng nanopore
Kết quả cuối cùng chỉ che phủ khoảng 13% của toàn bộ genome và phân tích bị hạn chế do ô nhiễm, lỗi thiết bị
Dù vậy, vẫn có được một trải nghiệm có ý nghĩa khi tự giải trình tự trực tiếp một phần DNA với chi phí thấp

Giới thiệu

Chi phí giải trình tự DNA giảm rất nhanh đến mức việc giải mã toàn bộ bộ gen người từng tốn 23 tỷ USD và 13 năm trước đây giờ đã có thể tự làm trong chưa tới 48 giờ chỉ với thiết bị Oxford Nanopore (khoảng 1.000 USD)
Trước đây thường phải gửi mẫu cho nhà cung cấp bên thứ ba không ổn định, nhưng bài viết này thử giải trình tự trong môi trường không có phòng thí nghiệm riêng

Tổng quan quy trình giải trình tự DNA

Mục tiêu là thu được trình tự genome người gồm A, C, G, T (khoảng 3 tỷ base) từ 10ml máu
Tóm tắt toàn bộ các bước
- Lấy máu
- Chiết xuất DNA người từ máu
- Đưa DNA đã tách qua thiết bị Oxford Nanopore theo phương pháp điện hóa để đọc từng nucleotide

Lược sử ngắn gọn về giải trình tự DNA

Thời đại Sanger (1960~2003): dựa trên analog, xử lý thủ công, tốc độ cực chậm
- Sử dụng nucleotide có lỗi để ngắt quá trình sao chép DNA, tách từng đoạn bằng điện rồi đọc như mã vạch
- Việc giải mã bộ gen người tốn 13 năm và 23 tỷ USD
Thời đại Illumina (2005~đầu những năm 2010): song song hóa và tự động hóa
- Giới thiệu phương pháp giải trình tự bằng tổng hợp, cải thiện đáng kể tốc độ và hiệu suất
Thời đại giải trình tự phân tử đơn:
- Đọc trực tiếp nucleotide DNA qua nanopore điện, không cần cắt nhỏ đoạn DNA
- Thí nghiệm này cũng sử dụng phương pháp đó

Thiết bị và chi phí cần thiết

Oxford Nanopore MinION starter kit (1.000 USD): máy giải trình tự cắm USB, bao gồm flow cell và hóa chất chuẩn bị
Zymo DNA extraction kit (mẫu miễn phí)
Máy ly tâm mini (Amazon, 50 USD)
Vật tư tiêu hao phòng thí nghiệm (ống eppendorf, lancet, pipet, v.v., 50 USD)
Tổng chi phí khoảng 1.100 USD

Chi tiết các bước thí nghiệm

Bước 1: Lấy mẫu máu

Cần khoảng 200㎕ (0,2ml) máu; dùng lancet nhỏ không đủ nên phải chích đầu ngón tay nhiều lần để lấy đủ lượng

Bước 2: Chiết xuất DNA

Trong máu có nhiều tạp chất như hồng cầu, phần lớn không chứa DNA
Cần tách riêng DNA từ bạch cầu bằng bộ kit của Zymo với enzym và màng lọc ly tâm
Cũng thực hiện theo quy trình gắn adapter của bộ kit chuẩn bị Nanopore

Bước 3: Giải trình tự bằng Nanopore

Tiêm DNA đã chuẩn bị vào cổng nhỏ của MinION rồi kết nối qua USB
Phần mềm MinKNOW tiến hành basecalling thời gian thực, dự đoán A, T, C, G từ tín hiệu điện bằng thuật toán mạng nơ-ron

Kết quả và hạn chế

Thành công giải trình tự khoảng 1 gigabase dữ liệu trong hai lần chạy (khoảng 13% của tổng 3 tỷ base trong genome người)
Thử nghiệm đầu tiên bị dừng do lỗi phần cứng, lỗi flow cell (trong 2048 lỗ chỉ có 623 lỗ hoạt động)
25% là ô nhiễm từ vi khuẩn và các nguồn khác
Để phân tích SNP (đa hình đơn nucleotide) cần giải trình tự lặp lại nhiều lần, nhưng hầu hết trình tự chỉ được đọc một lần, không có trùng lặp
Dù vậy, với chi phí thấp 1.100 USD, đã thu được một trải nghiệm giải trình tự có ý nghĩa của một phần genome người

Lời cảm ơn

Xin cảm ơn các bạn đã cùng tham gia thí nghiệm này

1 bình luận

GN⁺ 2025-10-20

Ý kiến trên Hacker News

Có lẽ chúng ta vẫn chưa thực sự bước vào “kỷ nguyên giải trình tự nanopore”, và giải trình tự dựa trên tổng hợp vẫn đang là chủ đạo
- Bộ gen phải được cắt thành các mảnh nhỏ rồi lắp ráp lại dựa trên đó, và quá trình này phát sinh nhiều vấn đề
- Giải trình tự nanopore có tỷ lệ lỗi cao nên trong lâm sàng người ta vẫn dùng giải trình tự dựa trên tổng hợp là chính, đặc biệt Illumina đã vượt trội về công nghệ trong 10 năm gần đây
- Dù vậy, thiết bị nanopore vẫn hấp dẫn vì nhỏ và rẻ, và tỷ lệ lỗi có thể được khắc phục phần nào bằng giải trình tự lặp lại
- Với công nghệ dựa trên tổng hợp, nếu thông qua nhà cung cấp đáng tin cậy thì có thể giải trình tự toàn bộ bộ gen với độ phủ 30x dưới 1000 euro hoặc USD; tôi cũng từng thấy mức 180 USD nhưng không rõ độ tin cậy
- Với toàn bộ bộ gen người thì nanopore có lẽ vẫn còn hơi sớm, nhưng với các mục đích như giải trình tự plasmid thì đã rất hữu ích rồi
  - Tôi không phải người trong ngành, nhưng chỉ cần gửi ống mẫu ở trường đại học là sáng hôm sau có thể nhận kết quả qua email với giá 15 USD; tất cả đều nhờ workflow dựa trên nanopore
- Tỷ lệ lỗi có thể được bù bằng giải trình tự lặp lại, nhưng đôi khi các lỗi lại có tương quan với nhau
- Nhìn chung, giải trình tự đoạn ngắn tiết kiệm chi phí hơn rất nhiều; startup của chúng tôi cũng dùng Illumina để QC dòng tế bào và chỉ tốn 260 USD
- Phương pháp giải trình tự phụ thuộc vào mục tiêu; tại NAO, để phát hiện nhiều loại virus trong nước thải, họ giải trình tự giá rẻ bằng flow cell cỡ lớn của Illumina (25B)
  - Nhưng khi mẫu có nhiều virus đích như ngoáy mũi, nanopore lại phù hợp hơn nhờ độ dài đọc lớn và Run Cost rẻ
- Giải trình tự lâm sàng cho đọc ngắn đã đủ tốt từ lâu, nên nanopore không có lý do gì để thay thế nó
- Tương lai của lâm sàng nằm ở phát hiện biến thể cỡ trung đến lớn; mảng này vẫn chưa được làm rõ hoàn toàn nên nanopore đang được dùng nhiều trong nghiên cứu và chẩn đoán bệnh hiếm
- SBS (giải trình tự dựa trên tổng hợp) rất đáng tin cậy, nhưng thị phần lớn không có nghĩa là tiến bộ công nghệ đã dừng lại
  - Đổi mới trong giải trình tự đang diễn ra ở ML, phân tích đồng thời RNA-DNA, kết hợp đọc dài/ngắn, v.v.
- Thực ra ngay cả trong phòng xét nghiệm chẩn đoán, công nghệ nanopore cũng đang được dùng ngày càng nhiều; chi phí chuẩn bị rẻ hơn và còn đạt độ nhạy ở mức qPCR
  - Ngoài ra còn cung cấp thêm nhiều thông tin như methyl hóa
  - Gần đây cũng có bài báo phân loại bệnh bạch cầu cấp tính bằng nanopore bài báo gốc
  - Thời gian có hơi bị thổi phồng, nhưng điều quan trọng là nó “hoạt động tốt” cho chẩn đoán
Tôi thấy ý tưởng này (bài viết) khá thú vị, nhưng hơi thất vọng vì vấn đề thiết bị và việc chỉ thử một lần rồi bỏ ngay
- Flow cell chỉ có 623 lỗ hoạt động ngay từ đầu, nên tôi muốn biết chuyện đó có xảy ra thường xuyên không và muốn tìm thêm các ca thử nghiệm tử tế hơn
- Thực ra tôi cũng đã thử điều tương tự, dùng nước bọt thay vì máu và tách chiết DNA bằng kit của Qiagen
  - Flow cell nanopore của tôi hầu như mọi lỗ đều hoạt động tốt, nên có lẽ trường hợp trong bài là do vấn đề bảo quản
- Số lỗ hoạt động có thể thay đổi tùy thao tác; theo kinh nghiệm của tôi, khâu chuẩn bị mẫu có thể khiến xuất hiện rất nhiều lỗ không hoạt động
  - Nếu mẫu không được chuẩn bị đúng cách thì lỗ có thể bị tắc hoặc giảm hoạt tính
  - Trước đây khi phân tích dữ liệu Oxford Nanopore, tôi thấy chất lượng khác nhau quá nhiều tùy tay nghề chuẩn bị mẫu, đến mức chỉ nhìn dữ liệu cũng đoán được đồng nghiệp nào đã chuẩn bị mẫu
  - Tôi đoán chất lượng mẫu mà các tác giả chuẩn bị trong “gara” của họ khá kém
  - Nhân tiện, tôi cũng từng có đồng nghiệp làm một phòng thí nghiệm giải trình tự di động chạy bằng điện từ ô tô
  - Nút thắt kỹ thuật lớn nhất mà người đó gặp phải cũng là khâu chuẩn bị mẫu, còn phần tính toán thì không quá khó
- Ít lỗ hoạt động thì không thể gọi là “bình thường”, nhưng là hiện tượng xảy ra khá thường xuyên
  - Theo kinh nghiệm của tôi khi làm NGS, 1/4 số flow cell là hàng lỗi, và ONT từng có chính sách đổi nếu cell không qua được bài tự kiểm tra
- Tùy mẫu, nhưng thường thì hơn 1200 lỗ hoạt động mới là bình thường và ít nhất họ cũng bảo đảm 800 lỗ
  - Vì vậy trong trường hợp này có lẽ nên yêu cầu hoàn tiền
- Điều thú vị ở trường hợp này là nó cho thấy “nếu thực sự tự làm thì chuyện gì sẽ xảy ra”
  - Tôi có chút kinh nghiệm nhỏ với phả hệ học gen, nên vốn đã đoán sẽ có nhiều vấn đề kỹ thuật
Các công ty như Nebula, Dante cung cấp giải trình tự toàn bộ bộ gen với độ phủ 30x hoặc 100x ở mức khoảng 300 USD
- Thực ra bộ gen 1000 USD đã thành hiện thực từ 10 năm trước rồi
- Tôi từng tìm hiểu Nebula, nhưng họ đang bị kiện tập thể vì bị cáo buộc chuyển dữ liệu bộ gen cho Meta, Microsoft và Google
  - Trên subreddit cũng có nhiều trường hợp gửi kit rồi nhiều năm vẫn không nhận được kết quả
  - Còn có các vấn đề về chất lượng giải trình tự, tỷ lệ dương tính giả của dữ liệu bộ gen DTC (trực tiếp tới người tiêu dùng), và vì 23andMe cũng từng có chuyện tương tự nên tôi ngại gửi bộ gen của mình cho công ty tư nhân
- Giá thấp nhất cho giải trình tự toàn bộ bộ gen của DanteLabs là 399 euro (466 USD) liên kết sản phẩm DanteLabs
- Mức 2.000 USD ở đây đã bao gồm cả thiết bị tách chiết DNA và chính máy giải trình tự; máy mà Nebula v.v. dùng rất có thể là thiết bị trị giá hơn 1 triệu USD
  - Nếu muốn rẻ hơn thì có thể chọn giải trình tự exome thay vì WGS, hoặc trong một số trường hợp chỉ cần phân tích kiểu gen (genotyping)
  - Có thể đã có công ty làm được WGS 100 USD rồi
- Nhưng về bản chất điều đó cũng có nghĩa là ai đó (một công ty) sẽ nắm quyền sở hữu dữ liệu bộ gen của tôi
  - Với danh nghĩa lợi ích hợp pháp, họ gần như có thể làm bất cứ điều gì, và rủi ro công ty bị hack hoặc bị bán lại đã là chuyện có thật
- 1000 USD là kiểu “mức giá nhờ kinh tế quy mô”
  - Đó là mức giá chỉ khả thi khi xử lý hàng loạt với khối lượng đủ lớn
Ở mynucleus.com, chỉ cần tăm bông lấy mẫu má là có thể giải trình tự toàn bộ bộ gen với giá 500 USD (giảm thêm 10% nếu dùng mã savraj10)
- Không cần máu, cung cấp đánh giá nguy cơ hơn 2.000 bệnh, và nếu cả vợ/chồng cùng xét nghiệm thì còn có thể dự đoán con trong tương lai
- Sắp có thông báo gọi vốn mới, hỗ trợ tải dữ liệu thô, và cam kết tuân thủ bảo mật SOC2 cùng HIPAA
- Mặt khác, tôi tự hỏi nếu Nucleus phá sản thì làm sao ngăn dữ liệu bộ gen bị bán cho bên thứ ba như vụ rò rỉ riêng tư từng xảy ra ở 23andMe
  - Trên trang chủ tôi không thấy họ nhấn mạnh rõ điểm khác biệt về quyền riêng tư dữ liệu
  - Nucleus cũng nói rằng họ “không bán dữ liệu”, nhưng 23andMe cũng từng nói vậy
  - Thực tế là về mặt cốt lõi, không công ty nào có thể mang lại sự tin tưởng tuyệt đối ở khoản này
  - Chỉ vì tiết kiệm được 3.000 USD mà giao bộ gen cho Nucleus thì cần phải cân nhắc thật kỹ
- Với tôi, điều đáng ngại hơn bản thân việc giải trình tự bộ gen là phải trao sự tin tưởng cho bên thứ ba
  - Mức độ phủ 13% được nhắc trong bài thì chẳng hữu ích cho bất kỳ phân tích bộ gen nào; tiêu đề là cường điệu
- Tôi tò mò không biết độ phủ thực tế là bao nhiêu
- Thật ngạc nhiên khi dịch vụ từng cực kỳ đắt đỏ hoặc người thường không thể tiếp cận giờ đã có giá 500 USD
- Không biết có thể thanh toán bằng Monero không
Tôi đã dùng Nebula (giờ đã đổi thương hiệu và đắt hơn) để giải trình tự bộ gen cho cả người thân trong gia đình, và quá trình khá đơn giản
- Với gói “Lifetime”, tôi lưu file FASTQ trong bucket R2; Nebula giá 250 USD kèm gói thuê bao 50 USD/tháng nhưng có thể hủy ngay
- File VCF của tôi có thể xem tại đây
  - Có thể đưa biến thể cụ thể (rs104894396) vào LLM để phân tích, hoặc tra trên SNPedia
- Thực tế tôi cũng làm carrier screening cùng vợ, nhưng bằng phương pháp khác chứ không phải Nebula
  - Kết quả cho thấy cả hai đều mang gen liên quan đến mất thính lực GJB2, nên chúng tôi đã giải trình tự cả phôi của con để có thể sinh em bé khỏe mạnh
- Nếu ai tò mò muốn xem mẫu dữ liệu bộ gen thực tế, có thể dùng dữ liệu của tôi làm file thử nghiệm (tôi là nam nên còn có thể kiểm tra cả biến thể trên chrY)
- Tôi cũng từng dùng Dante và muốn so sánh kết quả của hai công ty
  - Dante bất tiện vì cách họ liên kết chuỗi dữ liệu với người dùng khác hẳn (phải giữ riêng mã)
  - Tôi không nhận được phản hồi nào khi liên hệ nên cũng không rõ họ vận hành ra sao
- Công nghệ nanopore cũng thật sự rất thú vị, nhưng tôi có thấy trên Twitter nói về các vấn đề QC thiết bị
  - Một ngày nào đó tôi muốn so sánh với bộ gen của con gái mình
- Một điều thú vị là bạn có CYP11B1 rs4541(g;a), nên có thể bạn ghét cam thảo
  - Bạn cũng có CYP17A1 −34 T>C, rs743572(A;G)
  - Tùy vào toàn bộ tổ hợp gen mà có thể xuất hiện nhiều đặc điểm thể chất hoặc hành vi khác nhau
  - Ví dụ như có thể dễ bị nhẹ cân, lo âu, mụn tuổi dậy thì, chóng mặt khi đứng lên, thèm muối, rối loạn giấc ngủ
  - Cũng có xu hướng thiếu vitamin D, magiê, nhóm vitamin B, từ đó dẫn đến nhiều triệu chứng thể chất và thần kinh khác nhau (TMJ, chuột rút cơ, cận thị, v.v.)
  - Từ một số gen cụ thể còn có thể suy ra sở thích với board game chiến thuật, xác suất thuận tay trái, trí thông minh, nhịp ngủ, năng lực thị giác, v.v.
  - Nhưng chỉ một biến thể gen như vậy thì khó giải thích toàn bộ, và nhất định phải trao đổi với bác sĩ để điều chỉnh ăn uống, lối sống (tôi không phải bác sĩ, chỉ là một lập trình viên thích tìm hiểu sinh học và bộ gen như sở thích)
- Tôi thực sự tò mò vì sao bạn lại hào phóng đến vậy trong việc công khai toàn bộ DNA của mình
Không may là MinION Starter Kit giá 1000 USD hiện không còn được bán nữa, và liên kết trong bài cũng đã thành 404
- Hiện tại sản phẩm MinION có kèm flow cell bắt đầu từ 4950 USD
Nếu định làm giải trình tự DNA, thì trừ khi bạn mua thiết bị rồi tự xử lý hoàn toàn offline, còn không thì tuyệt đối đừng làm
- Điều đó không chỉ tạo ra rủi ro tiềm tàng cho thông tin bộ gen của bạn mà còn cho con cháu tương lai và cả những người có quan hệ huyết thống
- Mức độ nghiêm trọng của kịch bản xấu nhất vượt xa tưởng tượng
  - Hơn nữa, nếu không có dữ liệu biểu sinh thì khả năng dự đoán sức khỏe gần như bằng không
  - Ngược lại, nó còn có thể gây hại cho sức khỏe do lo âu hoặc hiệu ứng nocebo
  - Trên thực tế, nó chỉ thực sự hữu ích để bác sĩ xác nhận chẩn đoán, và cách đó an toàn hơn
Cách dùng ấm đun nước điện để thay thế PCR (thermocycler) khá buồn cười
- Đúng là đã từng có thời người ta khuếch đại DNA bằng cách luân phiên dùng các bình nước nóng như thế
- Nếu chỉ tách bạch cầu từ máu rồi giải trình tự thì có lẽ kết quả đã tốt hơn, nhưng với lancet lấy máu và thiết bị mini thì không dễ
  - Hồi đầu thập niên 2010, trong buổi thực hành nhập môn sinh học, tôi từng trải nghiệm PCR thủ công bằng cách đổi bồn nước nóng và dùng đồng hồ bấm giờ hình quả trứng
  - Sau này khi dùng thermocycler thật, tôi càng cảm nhận rõ hơn giá trị của thiết bị đó
Tôi muốn xem dữ liệu sau biểu đồ cho thấy chi phí giải trình tự giảm còn nhanh hơn định luật Moore (2001–2015)
- Chỉ thấy các biểu đồ đến năm 2021, và có vẻ sau 2015 thì tiến bộ lại chậm đi
- Nếu nanopore trở nên đáng tin cậy hơn thì có thể sẽ lại có một bước nhảy đổi mới
- Biểu đồ bắt đầu từ năm 2001, nhưng tôi từng tham gia phát triển máy giải trình tự điện di màng mỏng ở EMBL vào giữa thập niên 90
  - Khi đó mức tối đa cũng chỉ khoảng vài trăm base mỗi ngày
- Có vẻ NHGRI từng cập nhật biểu đồ này liên tục nhưng đã dừng sau năm 2022 do thiếu kinh phí
  - Nhìn kỹ thì trong 5 năm tới có lẽ chúng ta sẽ bước vào thời đại bộ gen 100 USD
Dante và Nebula có tiếng không mấy tốt, còn ySeq thì phải chờ 8 tháng
- Thiết bị nanopore trong bài này cũng không hoạt động tử tế
- Năm 2025 ở châu Âu, để được giải trình tự bộ gen của chính mình vẫn không hề dễ dàng

Cách giải trình tự DNA của tôi với chi phí dưới 2.000 USD

Giới thiệu

Tổng quan quy trình giải trình tự DNA

Lược sử ngắn gọn về giải trình tự DNA

Thiết bị và chi phí cần thiết

Chi tiết các bước thí nghiệm

Bước 1: Lấy mẫu máu

Bước 2: Chiết xuất DNA

Bước 3: Giải trình tự bằng Nanopore

Kết quả và hạn chế

Lời cảm ơn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News