AI của DeepMind đã có thể giải mã protein, nhiều căn bệnh nguy hiểm giờ có thể tìm thuốc chữa

P.W
2/12/2020 8:21Phản hồi: 41
AI của DeepMind đã có thể giải mã protein, nhiều căn bệnh nguy hiểm giờ có thể tìm thuốc chữa
Cover_AI.jpg

Thời gian qua, anh em đã thấy những AI của startup DeepMind đã tạo ra được không ít những thành tựu về mặt công nghệ và kỹ thuật. Từ AlphaGo đánh bại cả kiện tướng cờ vây, chơi được cả StarCraft và DOTA 2 thắng con người. Nhưng bây giờ, AI của DeepMind cuối cùng cũng đã có được thành tựu thật sự hữu ích đối với đời sống con người. Denis Hassabis, nhà đồng sáng lập startup nghiên cứu trí thông minh nhân tạo từ Anh Quốc trước đến nay luôn khẳng định rằng, AI biết chơi game suy cho cùng cũng chỉ là những bước tiến quan trọng để đạt được mục tiêu sau cùng: Trí thông minh nhân tạo giúp con người hiểu được cả thế giới.

Tinhte_AI8.jpg

Có lẽ đến ngày hôm nay, DeepMind đã phần nào đạt được mục tiêu ấy, khi AI AlphaFold được phát triển. Đây là một hệ thống deep learning có khả năng dự đoán cấu trúc các đoạn phân tử protein chính xác tới từng đơn vị nguyên tử. Với khả năng này, AlphaFold đã đưa ra được lời giải đáp cho thử thách lớn tồn tại hơn nửa thế kỷ của ngành hóa sinh. Hội đồng “cuộc thi” CASP (Critical Assessment of protein Structure Prediction) trong nhiều năm qua đã đưa ra thử thách dài hơi để nghiên cứu tận gốc kết cấu của những chuỗi protein quan trọng trong các loại mầm bệnh và tế bào cho các nhà nghiên cứu. John Moult tại đại học Maryland, Mỹ, đứng đầu hội đồng CASP vừa tuyên bố rằng, “đây là lần đầu tiên AI được ứng dụng để giải quyết một vấn đề nghiêm túc.”

Tại sao phải dùng AI phân tích chuỗi protein?


Một chuỗi protein được tạo ra từ những dải hợp chất amino acid cuộn lại với nhau, tạo ra những kết cấu vô cùng phức tạp. Chính kết cấu này là thứ quyết định mục đích và nhiệm vụ của từng chuỗi protein. Khi tìm ra nhiệm vụ của từng chuỗi protein, con người sẽ hiểu được một cách cơ bản cơ chế tồn tại của các sinh vật sống, khi nào protein hoạt động, khi nào không.

Tinhte_AI1.jpg

Chính bản thân nỗ lực tìm kiếm vaccine COVID-19 của con người thời gian qua đều tập trung chủ yếu vào những chuỗi protein bên ngoài bề mặt gai của mỗi con virus. Cách chủng coronavirus SARS-CoV-2 bám vào tế bào trong cơ thể người phụ thuộc hoàn toàn vào hình dạng của loại protein này, cũng như hình dạng của những chuỗi protein bên ngoài các tế bào. Gai trên bề mặt virus SARS-CoV-2 chỉ là một trong vô vàn dạng protein khác nhau. Trong cơ thể người, ít nhất có hàng chục nghìn loại protein khác nhau.

Tinhte_AI2.jpg

Quay trở lại với AlphaFold. AI này có thể dự đoán được kết cấu của hàng chục loại protein khác nhau, với sai số 1.6 angstrom, tức là 0.16 nano mét, kích thước này là ở tầm nguyên tử. Khả năng này của AI đã vượt rất xa khả năng tính toán của những phương pháp cần dùng tới các hệ thống siêu máy tính xử lý cực mạnh. Khả năng của AlphaFold lần đầu tiên chạm tới ngưỡng về độ chính xác của những kỹ thuật thí nghiệm vạch ra cấu trúc protein trong phòng thí nghiệm, chẳng hạn như kính hiển vi điện tử lạnh (cryo-electron microscopy), cộng hưởng từ hạt nhân (nuclear magnetic resonance), hay tinh thể học X quang (x-ray crystallography). Những kỹ thuật kể trên rất chính xác, nhưng rất chậm chạp và đắt đỏ. Mỗi chuỗi protein, để có thể xác định được kết cấu thông qua một trong ba kỹ thuật kể trên tốn hàng trăm nghìn USD chi phí, và có thể mất nhiều năm trời thử sai mới ra được kết quả đúng.

Còn AlphaFold thì có thể phân tích kết cấu một chuỗi protein chỉ trong vài ngày xử lý mà thôi.

Giải mã protein: Bài toán nửa thế kỷ của loài người


Đột phá từ AI của DeepMind, ở tầm ngắn hạn, mở ra cơ hội cho các nhà nghiên cứu tạo ra những loại thuốc mới, và hiểu một cách cặn kẽ những căn bệnh nguy hiểm gây ra cho con người. Xa hơn, dự đoán được kết cấu protein sẽ giúp con người tạo ra được những protein nhân tạo, như enzyme có khả năng tiêu thụ rác thải hoặc giúp tạo ra nhiên liệu sinh học. Các nhà nghiên cứu cũng đang tìm ra các phương pháp để tạo ra được những loại protein cho phép tăng sản lượng nông sản mỗi mùa vụ, hoặc giúp sản phẩm nông nghiệp giàu chất dinh dưỡng hơn đối với con người.

Tinhte_AI3.jpg

Quảng cáo



Mohammed AlQuraishi, nhà sinh vật học tại đại học Columbia, người đã từng tự phát triển phần mềm dự đoán kết cấu protein cho rằng: “Đây là một bước tiến vô cùng đáng kể. Đấy là thứ mà chính tôi cũng không dám nghĩ sẽ phát triển nhanh chóng đến như vậy. Kể ra thì cũng shock.”

David Baker, giám đốc phòng nghiên cứu thiết kế protein tại Đại học Washington, người từng đứng đầu nhóm phát triển công cụ phân tích protein Rosetta thì cho rằng: “Đây rõ ràng là thứ rất quan trọng. Đúng là một thành tựu đáng nể, hệt như cách họ làm được với AI chơi cờ vây.”

Tinhte_AI4.jpg

Định danh được kết cấu của một chuỗi protein thực sự rất khó. Đối với hầu hết các loại protein, các nhà nghiên cứu có được kết cấu phân tử amino acid trong chuỗi, nhưng không thể định hình được kết cấu amino acid được uốn như thế nào. Mỗi chuỗi protein, hay thậm chí là mỗi đoạn amino acid đều có hàng tỷ khả năng uốn, tạo thành những kết cấu khác nhau. Các nhà khoa học cũng đã phải vật lộn với điều này từ khoảng nửa thế kỷ qua, kể từ khi Christian Anfinsen giành được giải Nobel khi phát hiện ra chuỗi amino acid sẽ định hình kết cấu của mỗi protein vào năm 1972.

Giải đấu CASP


Cuộc thi CASP lần đầu tổ chức vào năm 1994, qua đó tạo ra cú hích cần thiết cho giới khoa học. Cứ hai năm một lần, ban tổ chức sẽ đưa ra khoảng 100 chuỗi amino acid của những protein đã được xác định kết cấu nhưng chưa được công bố rộng rãi (nên là không có phao để gian lận). Những nhóm nghiên cứu trên toàn thế giới sẽ phải tranh tài với nhau để tìm ra cách uốn những đoạn amino acid thành đúng kết cấu của protein ban đầu, thông qua những phần mềm máy tính. Vấn đề là, trong hơn 20 năm liên tục, những thành tựu ban đầu được phát triển để tranh tài ở giải CASP đã được ứng dụng thực tiễn, nhưng tốc độ giải những bài toán sinh học rất chậm chạp.

Quảng cáo


Tinhte_AI5.jpg

CASP có được bước đột phá, khi DeepMind đưa AI AlphaFold vào cuộc thi tổ chức năm 2018. Khi ấy, độ chính xác khi phân tích chuỗi protein của AlphaFold không thể so sánh được với những kỹ thuật đã được chứng minh và dùng trong phòng thí nghiệm. Nhưng xét về tốc độ tính toán, thì nó là vô địch. Cũng nhờ AlphaFold, những nhà nghiên cứu khác cũng đã tư duy lại về phương pháp phần mềm của họ dùng để nghiên cứu chuỗi protein. Đến cuộc thi CASP năm nay, hơn nửa trong số những bên tham gia tranh tài đều dùng công nghệ deep learning để phân tích. Tuy nhiên, AlphaFold cũng có bước tiến rất quan trọng. Lấy ví dụ giải nhì, công cụ trRosetta của David Baker có điểm số cách AlphaFold rất xa.

CASP tính điểm cho từng công cụ phân tích chuỗi protein thông qua một con số gọi là Global Distance Test (GDT), thang điểm từ 0 đến 100 để xác định mức độ chính xác của một chuỗi protein được máy móc tính toán, so với hình dạng thật của nó đã được nghiên cứu ra trong phòng thí nghiệm. Phiên bản mới nhất của AlphaFold đạt được điểm số đáng nể trong hầu hết những bài kiểm tra. Hai phần ba chuỗi protein nó phân tích đạt điểm trên 90. Nhưng chuỗi protein khó nhất, AlphaFold cũng đạt 25 điểm cao hơn so với đối thủ. Vào năm 2018, cách biệt về độ chính xác và điểm số chỉ là khoảng 6/100.

Tinhte_AI6.jpg

Điểm số trên 90 trong thang 100 khi phân tích một chuỗi protein chứng tỏ rằng, những sai khác trong quá trình phân tích kết cấu protein so với kết quả trong phòng thí nghiệm không phải lỗi của phần mềm, mà có thể là lỗi trong quá trình nghiên cứu thí nghiệm. Hoặc, nó cũng có nghĩa cấu trúc protein giải được bằng AI vẫn chính xác, nằm trong phạm vi biến thiên của tự nhiên. Thậm chíu có 4 đoạn protein trong cuộc thi mà các giám khảo độc lập chưa hoàn tất việc nghiên cứu trong phòng thí nghiệm, mà AlphaFold vẫn đưa ra được kết quả chính xác.

AlQuraishi trước đây tưởng rằng, sẽ mất tới 10 năm để các nhà nghiên cứu có được thành tựu như năm nay, xét đến mức độ chính xác của các công cụ tham gia giải CASP vào năm 2018.

AI chuẩn bị cứu sống được con người


Thành tựu của AlphaFold thực tế cũng được dựa trên kết quả nghiên cứu của hàng trăm nhà khoa học trên toàn thế giới. DeepMind cũng phải nhờ tới sự giúp sức của một nhóm các nhà sinh học, vật lý học và khoa học máy tính. Cách xử lý vấn đề của AI cũng tương đối khác. Nó tập trung vào từng phần nhỏ của vấn đề, giải quyết chính xác chúng, rồi lắp ghép kết quả để tạo ra một bức tranh toàn cảnh.

AlphaFold được DeepMind “huấn luyện” dựa trên khoảng 170 nghìn nguyên mẫu protein từ ngân hàng dữ liệu mở. Hệ thống trí thông minh nhân tạo này so sánh những chuỗi amino acid khác nhau trong ngân hàng dữ liệu, tìm ra những cặp amino acid thường đi gần với nhau trong kết cấu xoắn. Sau đó AlphaFold sử dụng dữ liệu này để dự đoán khoảng cách giữa các cặp amino acid trong những chuỗi protein chưa được giải đáp. Nó cũng có thể xác định mức độ chính xác của kết quả chính nó tạo ra. Quá trình huấn luyện mất khoảng vài tuần, sử dụng hệ thống máy tính với sức mạnh xử lý tương đương từ 100 đến 200 chiếc GPU.

Tinhte_AI7.png

Bà Janet Thornton thuộc Viện Thông tin sinh học Châu Âu tại Cambridge, Anh đã làm việc để giải mã kết cấu và công dụng của các chuỗi protein trong vòng 50 năm. Bà khẳng định “vấn đề này đã tồn tại cỡ nửa thế kỷ. Tôi suýt nữa thì nghĩ rằng hết cuộc đời tôi, vấn đề này sẽ không thể giải quyết.”
Rất nhiều loại thuốc ngày nay có trên thị trường được tạo ra bằng cách mô phỏng kết cấu phân tử dưới dạng 3D, rồi tìm cách nhét những phân tử thuốc đó vào protein được định hướng. Điều này chỉ có thể khả thi khi chuỗi protein đó đã được giải mã hoàn toàn. Phương pháp nghiên cứu thuốc này chỉ áp dụng được cho khoảng một phần tư trong số hơn 20 nghìn chuỗi protein trong cơ thể người. Bà Thornton nói rằng, điều này nghĩa là AI AlphaFold đã mở ra cơ hội để nghiên cứu những phương thuốc tiềm năng hướng vào 15 nghìn loại protein còn lại trong cơ thể người, và “mở ra cả một hướng nghiên cứu mới.”

DeepMind cho biết, họ có kế hoạch nghiên cứu AlphaFold để tìm ra phương pháp trị những căn bệnh như ký sinh trùng Leishmania, sốt rét hay những căn bệnh truyền nhiễm ở vùng nhiệt đới gây ra bởi ký sinh trùng, vì chúng đều liên quan tới những chuỗi protein chưa được giải mã.
Bản thân AlphaFold cũng không phải là vô địch. Nó mất vài ngày để đưa ra kết quả giải mã protein. Còn đối với hệ thống của AlQuraishi, sử dụng thuật toán gọi là RGN (mạng hình học lặp lại), có thể giải mã một chuỗi protein chỉ trong vài giây đồng hồ, nhưng độ chính xác thấp hơn. Vấn đề là đôi khi tốc độ quan trọng hơn sự chính xác.

Nhưng điều đó không đồng nghĩa với việc AlphaFold vô dụng. Baker cho rằng: “Một khi nhóm phát triển mô tả cách AI này vận hành, mọi người sẽ sử dụng nó cho rất nhiều mục đích khác nhau, những mục tiêu mà ngay cả bây giờ chúng ta chưa thể nghĩ ra.”

Theo MIT Technology Review
41 bình luận
Chia sẻ

Xu hướng

DeepMind quá mạnh. Cơ hội của nhân loại là đây. Còn nhớ nhà sáng lập DeepMind đã bị GG sa thải sau khi cty bị thâu tóm. Đắng!
@Bạn và 500 Anh Em Google có lẽ đang hối hận
@Thi Eat Apple Nói ngược rồi
@Bạn và 500 Anh Em bác có nhầm không thế :v Demis Hassabis với Shane Leg vẫn CEO và CSO của DeepMind mà, còn 1 người nữa về sau thì chuyển qua làm luôn cho GG rồi
@Bạn và 500 Anh Em Suleyman là Cofounder nghỉ deepmind qua Google chứ đuổi đi đâu nhỉ?

DeepMind về với GG là ko thể hợp hơn rồi. Trước khi GG thâu tóm năm 2014 thì DeepMind cũng chưa có thành tựu nào, mặc dù coa tiềm năng lớn. Mãi 2016 mới công bố AlphaGo.

Làm AI cần mấy yếu tố này thì GG đều có cả:
1. Tiền
2. Data
3. Thuật toán, công nghệ bổ trợ, kinh nghiệm làm AI
4. Máy chủ cho traning

Trong đó tiền thì ko phải top1 nhưng cũng ko thiếu. 3 thứ còn lại thì top1 luôn rồi
Cười mặt nồi
Thời kỳ thống trị thế giới của robot đang đến gần.
Jos AT
TÍCH CỰC
3 năm
Deepmind mạnh ghê
Đọc xong vừa mừng vừa lo. Mừng là vì đây là một bước đột phá rất lớn trong y học, còn lo thì là nhiều thứ xung quanh nó quá. Cứ nghĩ đến viễn cảnh khi AI chạy một giả lập cho rằng con người là có hại cho hành tinh này (chắc là thế thật) thì,.....
Bulezone2020
ĐẠI BÀNG
3 năm
@Đào Anh Thành "Vừa mừng vừa lo"
t biết m ở đâu ra rồi đay
Tương lai sử dụng IA có thể cứu nhân loại mà cũng có thể diệt nhân loại nhỉ . Cái gì cũng có 2m hết
Ngon. Hi vọng cho đời con cháu mình thôi. Chứ đời mình coi như vứt m rồi 😁
Cười vô mặt
lxhxxnxxx
TÍCH CỰC
3 năm
Cố gắng đọc từng chữ mà vẫn chưa hiểu mấy thật buồn..
Nhưng mà 'có vẻ' là cái việc giải mã này là tìm ra 'hình thù' của đoạn phân tử chứ không phải là thành phần hoá học à? Mình chưa hiểu lắm cái gì ngăn cản việc nhìn ra 'hình thù' này dưới kính phóng đại? Nó vượt qua giới hạn của kính sao, nếu vượt qua thì bằng cách gì kiểm chứng lại được kết quả nhỉ.
Vì thuốc là các cấu trúc protein được nghiên cứu ra để nhắm vào một loại khuẩn hay virut gây bệnh
@khoailangchien Sự sống trên Trái Đất này được cấu thành từ nhân tố chính là protein đó bạn. Tất cả các quá trình diễn ra trong cơ thể sống đều có các protein hoạt động ở đâu đó, một cách chính xác, được phát triển dưới áp lực của chọn lọc tự nhiên. Nên hiểu được cấu trúc protein giúp loài người tiến được bước tiến lớn trong việc hiểu rõ về chính sự sống của mình, cũng giống như anh chàng Neo trong The Matrix nhìn thấu thế giới này bằng những đoạn codes ở cuối phim, từ đó anh ta có thể thực hiện những điều không tưởng bằng cách tự thay đổi các đoạn code đó.

Người ta chia chức năng phân tử protein thành 12 mục nhỏ:
+ Các quá trình tế bào
+ Quá trình trao đổi chất
+ Sao chép, sửa đổi DNA
+ Giao tiếp tế bào
+ Phòng thủ, miễn dịch
+ ...
=> Nên việc hiểu được cấu trúc protein giúp chúng ta dự đoán được cách mà các tác nhân gây bệnh hoạt động, cách mà các tế bào miễn dịch trong cơ thể chúng ta phản ứng, từ đó tìm ra cách thức chữa bệnh, các loại thuốc hiệu quả cao,...

Lấy một ví dụ trong chức năng "phòng thủ, miễn dịch": Hệ thống miễn dịch chịu trách nhiệm bảo vệ cơ thể của chúng ta, nó hoạt động dựa trên sự nhận biết cấu trúc: sự khác biệt giữa các phân tử xâm nhập từ bên ngoài với các tế bào của chính cơ thể; điều này chỉ có thể thực hiện được thông qua các tế bào chuyên biệt có thể liên kết và xác định những gì lạ với cơ thể. Các quá trình nhận biết như vậy xảy ra thông qua các tương tác protein-protein trên bề mặt tế bào của hệ thống miễn dịch, nơi ái lực liên kết có thể xác định liệu phản ứng miễn dịch có được bắt đầu hay không, và cũng là nơi các tương tác hoặc nhận dạng protein không phù hợp có thể gây ra các bệnh tự miễn dịch.

Biết được cách thức mà virus HIV liên kết với tế bào T-cell của cơ thể, người ta có thể phát triển ra các protein chuyên biệt để "bắt" riêng các virus này. Hay như bệnh viêm đa khớp hiện nay, là do hệ thống miễn dịch của cơ thể tấn công chính các tế bào của cơ thể, người ta không hiểu tại sao nó lại diễn ra như vậy, nên không có thuốc chữa trị tận gốc. Hoặc chúng ta cũng muốn có các loại thuốc chỉ liên kết và tấn công vào các khối u, trong khi không động chạm gì tới các tế bào khỏe mạnh khác ở bên cạnh trong việc điều trị ung thư. Hiểu được cấu trúc protein sẽ giúp chúng ta đến gần hơn với việc hiểu rõ cách mà cơ thể hoạt động ở cấp độ phân tử, từ đó tìm ra nhiều loại thuốc và phương pháp điều trị hiệu quả.

Biểu đồ dưới đây cho thấy sự chênh lệch quá lớn giữa những gì chúng ta đã biết về trình tự sắp xếp của các amino acid (đường đỏ), so với cấu trúc của protein (đường xanh).
2020-07-21_12-08-59_mwu1cj.jpg
@Black Mamba Rất thích các kiểu bình luận như vậy của các bạn,nó có tính đóng góp xây dựng,giúp người khác hiểu vấn đề hơn xin cảm ơn
Ko như mấy bình loạn chữi nhau,ầm ĩ mà ko có tính xấy dựng
@tinhphieulang77 Thanks bạn!
Rồi sẽ có 1 ngày con người nhờ AI đảo ngược lão hóa
Trái đất quá chật phải chọn người đc sống và phải chết
Cười vô mặt
ufdb
CAO CẤP
3 năm
@hung.nexus Có sinh là có diệt. Kiểu gì con người cũng tèo thôi và cũng chẳng phải là trường hợp đầu tiên trên trái đất này
tới lúc để tạo ra T virus nhể :v
Tương lai vẫn còn rất mở, thành tựu hứa hẹn thì rất nhiều nhưng đưa vào được đời sống thì lâu quá.
AL SẼ THỐNG TRỊ CẢ THẾ GIỚI TRONG TƯƠNG LAI KO GẦN
Vừa mừng vừa lo nhỉ
Vậy là bác sỹ cũng sắp thất nghiệp rồi hả.
Thuốc chữa ung thư, HIV và nhiều bệnh nan y khác đã bắt đầu hiện ra ở phía chân trời rồi.
Solus161
ĐẠI BÀNG
3 năm
Nghe thì kinh khủng tưởng AI thống trị thế giới đến nơi rồi chứ 😆. Đọc qua thì thấy bài toán là cho chuỗi protein, predict cấu trúc 3D của chuỗi này, với hàm mất mát là "mức năng lượng" nhỏ nhất có thể. Một dạng bài toán supervised learning. Vấn đề còn lại của mấy ông viết code cho con AI là dùng thuật toán nào để learn cái đấy. Nói chung là vẫn phải có bột mới gột nên hồ, chứ con AI nó cũng ko tự sáng tạo dc ra cái đấy.
@Solus161 Thế bác nghĩ con AI nó bắt cóc người cạo lông lấy protein ra tự phân tích được sao.
Cười vô mặt
nghĩ tới mấy cái phim robot thống trị thế giới lại nỗi da gà
tung.lazy
ĐẠI BÀNG
3 năm
có khi nào con người cũng là 1 dạng AI của 1 loài nào trước đó phát minh ra không nhỉ???
BB Tran
TÍCH CỰC
3 năm
đáng sợ quá

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019