Lượng dữ liệu mà nhân loại tạo ra đang ở một tốc độ ngoài sức tưởng tượng, đến mức các công nghệ lưu trữ hiện thời vẫn không thể bắt kịp. Cứ mỗi 5 năm, lượng dữ liệu mà chúng ta sản xuất lại tăng 10 lần, trong đó bao gồm cả hình ảnh và video. Không phải tất cả chúng đều cần được lưu trữ, nhưng các nhà sản xuất thiết bị lưu trữ dữ liệu chẳng hạn như ổ cứng hay chip nhớ flash đang tỏ ra chậm chạp trong việc đáp ứng đủ nhu cầu lưu trữ của tất cả mọi người. Kể từ khi smartphone hay các thiết bị đi động đang ngày càng phổ biến, chúng ta đã không ngừng chụp ảnh và quay phim, và vì thế, con người rõ ràng cần phải phát triển thêm nhiều cách mới để lưu trữ lại mọi thứ.
Trải qua nhiều triệu năm hình thành và tiến hoá, thiên nhiên đã hình thành nên một môi trường lưu trữ thông tin hiệu quả đáng kinh ngạc - DNA. Ra đời như một phương tiện để lưu giữ thông tin di truyền và đóng vai trò mã hoá protein, nhưng DNA có thể được sử dụng để phục vụ cho nhiều mục đích hơn. Xét về số lượng, DNA cũng nhiều hơn gấp nhiều lần so với các phương tiện lưu trữ hiện đại: Dữ liệu có trong hàng trăm ngàn đĩa DVD có thể nằm gọn trong một gói DNA với kích thước như hộp diêm. DNA cũng bền hơn với tuổi thọ lên đến hàng ngàn năm, so với ổ cứng hiện nay chỉ có thể tồn tại trong vài năm hoặc vài thập kỷ. Mặc dù các định dạng ổ cứng cũng như những tiêu chuẩn kết nối khác nhau cuối cùng cũng sẽ trở nên lỗi thời, DNA thì không bao giờ, ít nhất là cho đến khi cuộc sống này vẫn còn tồn tại.
Ý tưởng lưu dữ liệu số vào trong DNA đã có từ vài thập kỷ qua, nhưng những nghiên cứu gần đây của Harvard và Viện Thông tin Sinh học châu Âu cho thấy sự tiến bộ trong các phương pháp xử lý DNA hiện đại có thể làm cho ý tưởng đó trở nên gần gũi với thực tiễn hơn. Nhiều nhóm nghiên cứu đến từ khắp nơi trên thế giới như Viện ETH Zurich (Thuỵ Sĩ), Đại học Illinois tại Urbana-Champaign (Mỹ) và Đại học Columbia hiện cũng đang làm việc trong lĩnh vực này. Hiện tại, Đại học Washington và Microsoft là hai đơn vị đang nắm giữ kỷ lục thế giới về lượng dữ liệu được lưu vào và xuất ra thành công từ DNA với 200 megabyte.
TỪ BIT TRỞ THÀNH NGUYÊN TỬ
Các phương tiện lưu trữ truyền thống chẳng hạn như ổ đĩa cứng, USB hoặc đĩa DVD lưu trữ dữ liệu số bằng cách thay đổi thuộc tính từ, điện hoặc quang học của vật liệu nhằm lưu vào đó những con số 0 và 1. Trong khi đó, việc lưu dữ liệu vào DNA dù cũng được lý giải theo cách tương tự nhưng quy trình thực hiện rất khác. Các phân tử DNA là những chuỗi dài chứa đựng trong đó các phân tử nhỏ hơn, được gọi là các Nucleotide, chia làm 4 loại khác nhau adenine, cytosine, thymine và guanine; thường được gọi tắt với các ký tự A, C (hoặc X ở Việt Nam), T và G. Thay vì tạo thành một chuỗi các số 0 và 1 như khi lưu vào thiết bị lưu trữ điện tử, việc cất giữ dữ liệu trong DNA liên quan đến các dãy nucleotide.
Trải qua nhiều triệu năm hình thành và tiến hoá, thiên nhiên đã hình thành nên một môi trường lưu trữ thông tin hiệu quả đáng kinh ngạc - DNA. Ra đời như một phương tiện để lưu giữ thông tin di truyền và đóng vai trò mã hoá protein, nhưng DNA có thể được sử dụng để phục vụ cho nhiều mục đích hơn. Xét về số lượng, DNA cũng nhiều hơn gấp nhiều lần so với các phương tiện lưu trữ hiện đại: Dữ liệu có trong hàng trăm ngàn đĩa DVD có thể nằm gọn trong một gói DNA với kích thước như hộp diêm. DNA cũng bền hơn với tuổi thọ lên đến hàng ngàn năm, so với ổ cứng hiện nay chỉ có thể tồn tại trong vài năm hoặc vài thập kỷ. Mặc dù các định dạng ổ cứng cũng như những tiêu chuẩn kết nối khác nhau cuối cùng cũng sẽ trở nên lỗi thời, DNA thì không bao giờ, ít nhất là cho đến khi cuộc sống này vẫn còn tồn tại.
Ý tưởng lưu dữ liệu số vào trong DNA đã có từ vài thập kỷ qua, nhưng những nghiên cứu gần đây của Harvard và Viện Thông tin Sinh học châu Âu cho thấy sự tiến bộ trong các phương pháp xử lý DNA hiện đại có thể làm cho ý tưởng đó trở nên gần gũi với thực tiễn hơn. Nhiều nhóm nghiên cứu đến từ khắp nơi trên thế giới như Viện ETH Zurich (Thuỵ Sĩ), Đại học Illinois tại Urbana-Champaign (Mỹ) và Đại học Columbia hiện cũng đang làm việc trong lĩnh vực này. Hiện tại, Đại học Washington và Microsoft là hai đơn vị đang nắm giữ kỷ lục thế giới về lượng dữ liệu được lưu vào và xuất ra thành công từ DNA với 200 megabyte.
TỪ BIT TRỞ THÀNH NGUYÊN TỬ
Các phương tiện lưu trữ truyền thống chẳng hạn như ổ đĩa cứng, USB hoặc đĩa DVD lưu trữ dữ liệu số bằng cách thay đổi thuộc tính từ, điện hoặc quang học của vật liệu nhằm lưu vào đó những con số 0 và 1. Trong khi đó, việc lưu dữ liệu vào DNA dù cũng được lý giải theo cách tương tự nhưng quy trình thực hiện rất khác. Các phân tử DNA là những chuỗi dài chứa đựng trong đó các phân tử nhỏ hơn, được gọi là các Nucleotide, chia làm 4 loại khác nhau adenine, cytosine, thymine và guanine; thường được gọi tắt với các ký tự A, C (hoặc X ở Việt Nam), T và G. Thay vì tạo thành một chuỗi các số 0 và 1 như khi lưu vào thiết bị lưu trữ điện tử, việc cất giữ dữ liệu trong DNA liên quan đến các dãy nucleotide.
Có một số cách tiếp cận khác nhau để thực hiện quá trình này, nhưng ý tưởng chung là gán các mẫu dữ liệu số vào những nucleotide của DNA. Chẳng hạn như 00 có thể tương đương với A, 01 gán cho C, 10 gán cho T và 11 gán cho G. Lấy ví dụ, để lưu trữ một tấm ảnh, chúng ta bắt đầu với việc mã hóa nó thành một tập tin số, như JPEG hay gì đó đại loại vậy. Về bản chất, tập tin này chính là một chuỗi dài của hai số 0 và 1. Giả sử tám bit đầu tiên của tệp là 01111000; chúng ta sẽ chia chúng thành cặp - 01 11 10 00 - tương ứng với C-G-T-A. Đó là trình tự mà các nhà khoa học đang thực hiện đối với các nucleotide nhằm mục đích tạo nên một sợi DNA chứa dữ liệu mong muốn.
Các tập tin mà chúng ta tạo ra ngày nay có kích thước rất lớn, thậm chí lên đến vài chục terabyte. Tuy nhiên, từng sợi ADN đơn lẻ lại khá ngắn và chỉ chứa được khoảng 20 byte dữ liệu. Nguyên nhân được cho là những giới hạn về phương diện hoá học khiến cho DNA không thể dài hơn. Chính vì lẽ đó, chúng ta cần chia dữ liệu thành từng phần nhỏ, và thêm vào mỗi phần đó một thông tin chỉ thị về vị trí mà nó cần được xếp vào trong chuỗi. Cho đến khi cần đọc các thông tin được lưu trữ trong DNA, những dấu chỉ đó sẽ đảm bảo tất cả những phần của dữ liệu sắp xếp theo đúng trình tự. Kế hoạch về cơ bản là như vậy, giờ đã đến lúc bắt tay vào thực hiện.
LƯU TRỮ DỮ LIỆU
Sau khi xác định được trình tự của các ký tự, việc mã hoá DNA sẽ được tiến hành theo từng ký tự một thông qua các phản ứng hóa học. Những phản ứng này được thực hiện nhờ các vật liệu có sẵn trong những lọ dán nhãn A, C, G, T, sau đó trộn chúng vào một dung dịch lỏng với các hóa chất khác để kiểm soát các phản ứng nhằm xác định trình tự chuỗi DNA vật lý.
Quá trình này mang lại cho chúng ta một lợi ích khác: sự ra đời của các bản sao lưu. Thay vì tạo ra từng sợi DNA tại một thời điểm, các phản ứng hóa học diễn ra sẽ hình thành nên nhiều sợi giống nhau, trước khi tạo ra nhiều bản sao của các sợi tiếp theo trong toàn bộ chuỗi.
Khi các sợi DNA được tạo ra, chúng cần được bảo vệ nhằm chống lại những tác động tiêu cực từ độ ẩm và ánh sáng. Do đó, các nhà khoa học phải phơi khô và đặt chúng vào trong một buồng kín, tránh không cho tiếp xúc với nước, ánh sáng và khí lạnh.
Nhưng dữ liệu được lưu trữ chỉ hữu ích nếu chúng ta có thể xuất chúng ta khi có nhu cầu.
Quảng cáo
ĐỌC DỮ LIỆU
Để có thể đọc lại dữ liệu lưu trữ trước đó, cần sử dụng một thiết bị có thể xác định chính xác trình tự DNA, tương tự như cách dùng để phân tích DNA di truyền trong tế bào. Phương tiện này sẽ xác định các phân tử, tạo ra một chuỗi ký tự trên mỗi phân tử, sau đó các nhà khoa học sẽ giải mã chúng thành một chuỗi nhị phân 0 và 1 theo trình tự. Quá trình này có thể phá huỷ DNA, nhưng yên tâm bởi chúng ta đã có rất nhiều bản sao của chuỗi thông tin.
Nếu những bản sao này được sử dụng hết, quá trình sao chép bản sao đó thành nhiều bản nữa cũng có thể được tiến hành một cách dễ dàng. Hiện nay, hầu hết các hệ thống truy hồi thông tin chứa trong DNA đòi hỏi phải đọc luôn tất cả những thông tin trong một hộp chứa cụ thể, ngay khi chúng ta chỉ có nhu cầu xem vài đoạn nhỏ. Hiện nay, các nhà khoa học cũng đã phát triển các kỹ thuật dựa trên phương pháp hóa sinh giúp xác định và chỉ đọc được lượng thông tin nhất định khi người dùng có nhu cầu truy xuất dữ liệu từ DNA.
NHỮNG THÁCH THỨC CÒN LẠI
Cho đến thời điểm này, lưu trữ DNA đã đi được một chặng đường, từ ý tưởng cho đến những sản phẩm thực trong phòng thí nghiệm. Trước khi trở nên phổ biến, kỹ thuật này cần phải được tự động hóa hoàn toàn, cả 2 quá trình nhập dữ liệu vào và xuất ra từ DNA phải trở thành hoàn hảo và thuận tiện hơn so với hiện tại. Ở các thử nghiệm ban đầu, những quy trình này vẫn còn khá chậm và dễ xảy ra lỗi. DNA tổng hợp hiện nay cho phép chúng ta chép vào đó vài trăm byte dữ liệu/giây, trong khi ổ cứng đang được ưa chuộng cho tốc độ lên đến hàng trăm triệu byte mỗi giây. Một tấm ảnh chụp từ iPhone muốn lưu vào DNA cần vài tiếng đồng hồ, mặc dù hiện nay nếu muốn gửi nó sang máy tính bạn chỉ cần tốn vài giây.
Quảng cáo
Có thể nói đây là thách thức lớn nhất mà các nhà khoa học cần phải vượt qua trong thời gian tới nếu muốn đưa công nghệ này vào đời sống. Dù vậy, các chuyên gia cho biết họ cảm thấy khá lạc quan về tương lai của lưu trữ DNA vì tất cả những công nghệ có liên quan đến lĩnh vực này đều đang phát triển một cách nhanh chóng. Hơn nữa, quá trình lưu dữ liệu vào DNA không đòi hỏi độ chính xác hoàn hảo như những yêu cầu của cơ chế sinh học tự nhiên, do đó, các nhà nghiên cứu có thể sẽ cho ra đời những phương pháp mới rẻ mà nhanh hơn để lưu trữ thông tin vào hệ thống dữ liệu có nguồn gốc lâu đời nhất của thiên nhiên.
THÀNH CÔNG MỚI NHẤT
Trong một báo cáo đăng trên tạp chí Nature gần đây, các nhà khoa học thuộc Đại học Harvard cho biết họ đã lợi dụng hệ thống phòng vệ tự nhiên của vi khuẩn để chèn một bức tranh bàn tay và một đoạn clip 5 frame cắt từ tác phẩm Sự vận động của con người và động vật (Human and Animal Locomotion) của nhiếp ảnh gia Eadweard Muybridge vào vi khuẩn E. coli. Những hình ảnh và video đã được các nhà khoa học dựng lại bên trong DNA với độ chính xác lên đến 90%.
Kỹ thuật được sử dụng để hoàn thành thí nghiệm trên chính là công cụ chỉnh sửa gen CRISPR. Thông thường trong tự nhiên, khi virus tấn công vi khuẩn, vi khuẩn sẽ sử dụng cơ chế phòng vệ nói trên để cắt các phần của DNA virus và dán chúng vào bên trong DNA của chính nó. Về cơ bản, phương pháp này làm cho DNA của virus trở thành một phần trong tế bào vi khuẩn, tạo ra ký ức về sự xâm nhập của virus, giúp tế bào có thể phát hiện và phản ứng với những biến thể tương lai của loại virus đó nếu nó bị tấn công một lần nữa.
Bên trái là hình bàn tay con người đã được mã hóa thành các nucleotide và được CRISPR-Cas "nhốt" trong vi khuẩn sống. Bên phải cũng là hình ảnh đó nhưng vi khuẩn lúc bấy giờ đã tăng trưởng qua nhiều thế hệ, được khôi phục bằng cách sắp xếp lại bộ gen của vi khuẩn. Ảnh: Seth Shipman
Những hình ảnh và video mà các nhà nghiên cứu chèn vào bên trong vi khuẩn E. Coli là tập hợp của nhiều điểm ảnh đen - trắng. Đầu tiên, nhóm chuyên gia tiến hành mã hóa các điểm ảnh này vào DNA. Sau đó, họ đưa DNA đã được chỉnh sửa vào các tế bào của E. coli thông qua điện. Cho dòng điện qua các tế bào sẽ mở ra các kênh dẫn nhỏ trong thành tế bào, DNA chính vì thế có thể chảy vào bên trong. Từ đây, hệ thống CRISPR của E. Coli sẽ tự giữ lấy những DNA tuồn vào và đưa chúng vào hệ gen của chính nó. "Chúng tôi nhận thấy nếu thực hiện các trình tự giống như những gì diễn ra khi vi khuẩn lấy đi các phần của virus, nó cũng sẽ lấy luôn những gì chúng tôi đưa vào", Shipman nhận định.
Thành công trong việc đưa thông tin vào bên trong đồng nghĩa với việc bạn phải tìm cách để lấy nó ra ngoài. Vì vậy, nhóm nghiên cứu đã sắp xếp trình tự của DNA E. coli và chạy trình tự đó thông qua một phần mềm máy tính. Nhờ vậy, hình ảnh gốc ban đầu đã được sao chép thành công trên máy tính. Do đó, hình con ngựa đang chạy mà bạn thấy bên trên thực sự chỉ là sản phẩm mà máy tính tái hiện từ những gì có bên trong DNA đã được sắp xếp, bởi chúng ta không thể nhìn thấy DNA bằng mắt thường.
Ngoài ra, hình ảnh và video dùng trong nghiên cứu không phải được lựa chọn ngẫu nhiên. Shipman cho biết ông và các cộng sự của mình muốn “chọn vài hình ảnh đầu tiên mà loài người đưa vào thế giới tự nhiên", giống như những bức tranh vẽ được tìm thấy trong hang động. 5 khung hình của bộ phim Muybridge mô tả một cuộc đua ngựa là một trong những hình ảnh động đầu tiên được ghi lại nhờ sử dụng công nghệ mới trong những năm 1870. "Chúng tôi hình dung là chúng tôi đang mã hóa thông tin lên thế giới tự nhiên theo một cách hoàn toàn mới”, Shipman chia sẻ.