Thứ sáu, 11/04/2025 11:11

Cách mạng AI trong giải trình tự protein

Trí tuệ nhân tạo (AI) đã từng tạo nên bước ngoặt trong lĩnh vực nghiên cứu cách protein gấp khúc thành hình 3D - một thành tựu đã được vinh danh bằng Giải Nobel Hóa học năm 2024. Giờ đây, AI đang tiếp tục làm thay đổi cách các nhà khoa học giải trình tự protein - xác định loại protein thông qua chuỗi axit amin cấu thành nó. Không chỉ nhanh hơn so với các phương pháp truyền thống, AI còn có khả năng nhận diện những protein chưa từng được biết đến - điều đặc biệt hữu ích trong chẩn đoán y học, nghiên cứu môi trường và khảo cổ học.

Trong một công bố mới đây trên Tạp chí Nature Machine Intelligence, các nhà nghiên cứu châu Âu đã giới thiệu hệ thống AI có tên InstaNovo, có thể xác định các protein gây bệnh trong vết thương và các protein chưa xác định do vi sinh vật biển tạo ra. Đặc biệt, InstaNovo không phải là trường hợp duy nhất. Chỉ trong vòng 4 năm qua, đã có hơn 20 hệ thống AI giải trình tự protein ra đời.

Bằng cách sử dụng AI để phân tích dữ liệu từ các máy quang phổ khối (trong ảnh), các nhà nghiên cứu hy vọng sẽ cách mạng hóa việc nhận diện protein từ các mẫu phức tạp (nguồn: Lewis Houghton/Science Source).

Không cần cơ sở dữ liệu cũ, AI nhận diện protein lạ với độ chính xác cao

Thế giới của protein phức tạp hơn nhiều so với bản mã di truyền của chúng là DNA và RNA. Chẳng hạn, bộ gen người có khoảng 20.000 gen, nhưng các gen này có thể tạo ra đến 10 triệu loại protein khác nhau do nhiều biến đổi xảy ra trong quá trình phiên mã DNA thành RNA và sau đó dịch mã thành protein, vốn cũng có thể bị biến đổi thêm bởi các phản ứng hóa học khác nhau. Theo truyền thống, các nhà sinh học xác định protein bằng cách cắt nhỏ chúng thành các đoạn peptide gồm từ 5 đến 20 axit amin. Các đoạn này được cân đo bằng phổ khối (mass spectrometry), rồi đối chiếu với cơ sở dữ liệu peptide để xác định danh tính, trước khi lắp ráp lại thành protein hoàn chỉnh. Tuy nhiên, cách tiếp cận này có nhiều giới hạn. Đặc biệt, có tới 70% peptide phát hiện được bằng phổ khối không nằm trong bất kỳ cơ sở dữ liệu nào. Theo PGS Timothy Patrick Jenkins (Đại học Kỹ thuật Đan Mạch), giải trình tự protein truyền thống giống như tìm kiếm trên Google - nếu không có dữ liệu, sẽ không tìm thấy gì. Ngoài ra, khi cơ sở dữ liệu ngày càng mở rộng, việc tìm kiếm trở nên chậm và tốn tài nguyên máy tính.

Các AI mới không tìm kiếm trong cơ sở dữ liệu cũ, thay vào đó, chúng tính toán toàn bộ trọng lượng khả dĩ của các đoạn peptide có thể phát sinh từ một chuỗi peptide bị biến đổi hóa học. Khi một mẫu peptide thực tế khớp với những gì AI dự đoán, hệ thống sẽ cố gắng ráp chúng thành protein hoàn chỉnh. Để tăng độ chính xác, các hệ thống AI giải trình tự protein được huấn luyện trên hàng triệu peptide đã biết và cách chúng kết hợp thành protein thực. Theo PGS Timothy Patrick Jenkins, phương pháp này giống như cách các mô hình ngôn ngữ lớn (LLMs) như ChatGPT học cú pháp bằng cách phân tích khối lượng văn bản khổng lồ. Tương tự như việc AI ngôn ngữ học được rằng “cậu bé đá quả bóng” hợp lý hơn “đá quả bóng cậu bé”, các thuật toán protein học học được “ngữ pháp protein” - tức là xác suất cao nhất để chuỗi peptide tạo thành một protein hoàn chỉnh.

Từ vết thương nhiễm trùng đến chum đất cổ: AI mở rộng biên giới giải mã protein

Năm 2021, các nhà khoa học đã giới thiệu Casanovo, hệ thống AI đầu tiên dùng mạng nơ-ron sâu (deep neural network) để giải trình tự protein - giống công nghệ đứng sau ChatGPT. Trong một nghiên cứu công bố năm 2024 trên Tạp chí Nature Communications, các nhà khoa học cho biết, Casanovo có khả năng nhận diện các peptide mới chưa có trong dữ liệu huấn luyện. Thí nghiệm bổ sung cũng cho thấy, Casanovo có thể xác định chính xác các peptide bề mặt tế bào - mục tiêu của hệ miễn dịch trong điều trị ung thư - cũng như protein lạ trong mẫu nước biển.

Hiện tại, nhóm nghiên cứu của PGS Timothy Patrick Jenkins đã phát triển InstaNovo dựa trên nền tảng này. InstaNovo cũng sử dụng mạng nơ-ron sâu, nhưng có thêm kỹ thuật khuếch tán (diffusion) - phương pháp đã giúp nâng tầm các mô hình tạo ảnh như DALL-E và các mô hình cấu trúc protein như RoseTTAFold hay AlphaFold. Mô hình khuếch tán hoạt động bằng cách thêm nhiễu ngẫu nhiên vào dữ liệu đầu vào, rồi dần loại bỏ nhiễu để cải thiện đầu ra. Dựa trên kết quả ban đầu, hệ thống tiếp tục áp dụng việc lọc nhiễu ở cấp độ cao hơn để tăng độ chính xác.

Trong nghiên cứu công bố trên Tạp chí Nature Machine Intelligence, PGS Timothy Patrick Jenkins và đồng nghiệp cho biết, InstaNovo kết hợp với phiên bản cải tiến InstaNovo+ đã nhận diện được lượng peptide cao hơn 42% so với Casanovo khi thử nghiệm trên hỗn hợp protein từ 9 loài khác nhau được tạo ra trong phòng thí nghiệm. Khi áp dụng vào mẫu thực tế, nhóm đã nhận diện 1225 peptide độc nhất từ protein albumin trong máu ở các vết thương bị nhiễm trùng - gấp 10 lần so với phương pháp tra cứu cơ sở dữ liệu truyền thống. Trong số đó, có 254 peptide chưa từng được ghi nhận. Ngoài ra, họ còn truy vết các peptide liên quan đến 52 loại protein vi khuẩn khác nhau. Những kết quả này cho thấy, InstaNovo có thể phân tích các mẫu phức tạp và đưa ra câu trả lời chính xác.

Nhiều nhóm nghiên cứu khác cũng đang khai thác công nghệ này. Tại Đại học Cambridge, GS Matthew Collins đang sử dụng các công cụ AI để phân tích mẫu khảo cổ. Ông cho biết, phần lớn protein trong các mẫu cổ đã bị biến đổi hóa học nghiêm trọng do thời gian dài dưới lòng đất hoặc có nguồn gốc từ các loài đã tuyệt chủng, nên rất khó tìm thấy trong cơ sở dữ liệu truyền thống. AI đã giúp nhóm của ông phát hiện dấu vết protein thỏ tại các địa điểm từng có người Neanderthal sinh sống và protein cơ cá trong các chum đất cổ ở Brazil.

BL (lược dịch theo Science)

 

 

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)