Do có những đặc điểm vượt trội so với các thiết bị bán dẫn truyền thống, DNA (ở Việt Nam hay gọi là ADN) đã được các nhà khoa học trong lĩnh vực lưu trữ quan tâm từ lâu. Rất tiếc những kết quả thu được thời gian qua vẫn chưa đáp ứng được các yêu cầu để tối thiểu để áp dụng chúng ở quy mô công nghiệp trong những năm tới. Tuy nhiên, nghiên cứu mới đây của các nhà khoa học từ Đại học Harvard đã tạo nên một bước đột phá lịch sử khi họ sử dụng DNA để mã hóa thành công toàn bộ 70 tỷ bản sao của một cuốn sách tiếng Anh có 53.426 từ, cùng với 11 ảnh định dạng JPG và các đoạn mã JavaScript. Được biết, dung lượng những tài liệu trên tương đương với dãy nhị phân dài 5,27 Megabit. Con số này lớn hơn gần 1000 lần so với thành tựu đạt được gần đây và mở ra triển vọng sản xuất các thiết bị ghi sinh học trong vòng 5 hoặc 10 năm nữa.
Khả năng lưu trữ của DNA (trên lý thuyết)
Thông tin có thể mã hóa nhờ các nucleotide trên chuỗi xoắn kép
DNA, hay các axít deoxyribonucleotide được biết như là thành phần cơ bản chứa các thông tin di truyền ở các sinh vật sống. Về cấu tạo, bất kì chuỗi DNA nào đều chứa 4 loại nucleotide là A, T, G và C (một số tài liệu gọi là X hoặc U). Theo lý thuyết, mỗi nucleotide có thể được sử dụng để mã hóa một bit dữ liệu. Nhưng thực tế phân tử DNA là một chuỗi xoắn kép được cấu thành từ hai dải nucleotide đơn và các nucleotide ở mỗi chuỗi đơn sẽ kết hợp với nhau theo đúng quy tắc A-T và G-C (X/U), nên thực tế một vị trí trên DNA sẽ tương ứng với 2 bit.
Các thiết bị như ổ flash sẽ không có được sức mạnh như hổ báo của chúng so với lưu trữ DNA
Theo ước tính, một milimet khối DNA có khả năng lưu trữ 1 triệu tỷ GB và một gram phân tử này có thể lưu tới 455 tỷ GB thông tin. Nếu toàn bộ lượng dữ liệu đó được ghi lên các DVD, thì số lượng đĩa cần thiết sẽ là 100 tỷ chiếc. Với khả năng tuyệt vời như vậy, chỉ cần 4 gram DNA là đủ để chứa toàn bộ lượng dữ liệu hàng năm mà con người tạo ra. Dự đoán dung lượng sử dụng sẽ tăng 2 lần sau 2 năm, và tới năm 2020 dữ liệu toàn thế giới sẽ lớn hơn gấp 50 lần hiện nay. Rõ ràng nếu tiếp tục sử dụng các sản phẩm lưu trữ điện tử thì sẽ dẫn tới các chi phí rất tốn kém, sự thiếu hụt nguồn cung và tạo ra lượng sản phẩm rác thải cực lớn. Do đó, biến ý tưởng lưu trữ DNA thành hiện thực sẽ giúp con người nhanh chóng giải quyết những vấn đề trên.
Không những có mật độ lưu trữ siêu lớn, các DNA còn có độ bền rất cao: ngay cả trong những điều kiện không thuận lợi, các thông tin trên phân tử vẫn được lưu giữ hàng nghìn năm. Minh chứng rõ ràng nhất cho điều này đến từ các bằng chứng khảo cổ học. Trên các xác ướp 5300 năm tuổi từ thời cổ đại, các mẫu DNA vẫn còn nguyên vẹn. Thậm chí ngay cả những gì còn sót lại của những con voi ma mút ở Kỷ Băng Hà cũng đủ tốt để giúp khôi phục hệ gen của chúng. Các nhà khoa học Nga còn có ý định nhân bản loài vật khổng lồ huyền thoại trong một dự án hợp tác với Hàn Quốc. Tinhte cũng từng giới thiệu với các bạn sự kiện khôi phục lại một loài cây 30.000 năm tuổi từ các hạt được bảo quản trong điều kiện tốt. Hãy thử hình dung xem điều gì xảy đến với các thiết bị lưu trữ như CD hay DVD khi tuổi đời của chúng chỉ vào khoảng 20 năm.
Và thực nghiệm lịch sử tại Harvard
Sơ đồ mã hóa/giải mã cuốn sách qua DNA mà các học giả Harvard đã thực hiện
Trong thí nghiệm tại Harvard, thay vì chọn các đoạn DNA dài làm đối tượng lưu trữ, các nhà khoa học sử dụng các chuỗi ngắn hơn. Nguyên nhân ở đây là do rất khó điều khiển và làm việc với các chuỗi dài. Hơn nữa việc ghi dữ liệu trên đó sẽ đẩy các chi phí lên rất cao và dễ bị lỗi. Nhằm thực hiện mục đích của mình, đầu tiên nhóm nghiên cứu chuyển toàn bộ số bản copy của cuốn sách, hình ảnh và lệnh JavaScript sang ngôn ngữ HTML. Bước tiếp theo, họ mã hóa HTML bằng các chuỗi nhị phân với tổng chiều dài là 5,27 triệu trạng thái. Sau đó họ định hình các trạng thái 0 và 1 ứng với các nucleotide. Cụ thể, A và C mã hóa trạng thái 0, còn G và T được dùng để chỉ 1. Mỗi chuỗi DNA ngắn sử dụng sẽ tương ứng với 96 bit dữ liệu và chúng sẽ đóng vai trò như các sector trên các ổ cứng thông thường. Mỗi sector DNA được đặc trưng bởi 19 bit địa chỉ để phân biệt với các sector khác khi nối chúng với nhau. Được biết số sector đã sử dụng để mã hóa toàn bộ các tài liệu là 54.898. Hơn nữa, nhằm đảm bảo quá trình mã hóa trên DNA chính xác, nhiều phiên bản giống nhau của các chuỗi ngắn được tạo ra để so sánh.
Khi các tài liệu được mã hóa hoàn toàn vào các chuỗi DNA ngắn. Nhóm nghiên cứu gắn nó với một vi xử lý có kích thước vài micromet để kiểm tra. Hệ thống này được đưa vào kho trong vòng 3 tháng ở nhiệt độ 4 độ C. Sau đó họ đưa nó trở lại nhiệt độ phòng và nối các đoạn DNA lại để giải mã. Các phiên bản giống nhau của mỗi sector DNA được ráp thử lần lượt và kiểm tra 3000 lần để đảm bảo độ chính xác của thông tin. Nhờ vậy, sau khi giải mã 5,27 triệu bit dữ liệu thì chỉ có khoảng 10 bit bị sai lệnh so với lúc đầu.
Tương lai trong tầm tay
Quảng cáo
Ở thời điểm hiện tại, phương pháp ghi trên DNA chưa thể đè dữ liệu lên các chuỗi đã được sử dụng, nhưng nó sẽ vô cùng hữu ích trong trường hợp cần một thiết bị gọn nhẹ và bền để chứa một dữ liệu lớn. Hơn nữa, công nghệ sinh học phân tử đã cho phép đọc thông tin mã hóa trên đó mà không cần một thiết bị đọc chuyên dụng như các ổ đĩa CD và DVD ở các máy tính hiện nay.
Như chúng ta đã thấy ở trên, mặc dù đã tạo ra nhiều bản sao cho mỗi sector nhưng việc mã hóa và giải mã thông tin trên toàn bộ dải DNA ghép nối vẫn còn một số lỗi. Vấn đề này có thể được giải quyết nếu tăng số lượng bản copy lên thêm nữa. Khó khăn lớn nhất của phương thức lưu trữ sinh học kiểu này là giá thành của nó vẫn còn lớn hơn các thiết bị chứa dữ liệu truyền thống. Tuy nhiên, trong tương lai nó sẽ trở nên cạnh tranh hơn nhiều vì các công nghệ áp dụng cho phép tốc độ giảm giá từ 5 tới 10 lần/năm. Tiến sĩ Sriram Kosuri một trong những tác giả bài báo vừa đăng trên tạp chí Science tin tưởng về hướng đi của nhóm: "Chúng tôi gặp phải một số rảo cản, nhưng đó không phải là điều gì đó quá khó để phải dừng lại". Với lộ trình như vậy, 5 hoặc 10 năm nữa, thay cho những ổ cứng, đĩa quang, usb ... chúng ta hãy chuẩn bị đón chào những thiết bị DNA đầu tiên.