Model pembelajaran mesin untuk penemuan obat COVID-19 adalah finalis Gordon Bell

Model pembelajaran mesin untuk penemuan obat COVID-19 adalah finalis Gordon Bell


Newswise – Model pembelajaran mesin yang dikembangkan oleh tim ilmuwan Lawrence Livermore National Laboratory (LLNL) untuk membantu upaya penemuan obat COVID-19 adalah finalis Penghargaan Khusus Gordon Bell untuk Riset COVID-19 Berbasis Komputasi Kinerja Tinggi.

Menggunakan semua Sierra, superkomputer tercepat ketiga di dunia, para ilmuwan LLNL menghasilkan model generatif yang lebih akurat dan efisien untuk memungkinkan para peneliti COVID-19 menghasilkan senyawa baru yang mungkin dapat mengobati penyakit tersebut. Tim melatih model tersebut pada 1,6 miliar senyawa molekul kecil yang belum pernah terjadi sebelumnya dan satu juta senyawa menjanjikan tambahan untuk COVID-19, mengurangi waktu pelatihan model dari satu hari menjadi hanya 23 menit.

“Kemampuan ini akan berdampak dramatis pada penemuan obat,” kata rekan penulis makalah dan ilmuwan komputer LLNL Ian Karlin. “Kemampuan untuk membuat model pembelajaran mesin berkualitas tinggi dengan cepat mengubah waktu ke wawasan dari masalah komputasi terbatas menjadi masalah terbatas manusia.”

Sejak awal pandemi, ilmuwan LLNL telah menggunakan pembelajaran mesin untuk menemukan tindakan pencegahan yang mampu mengikat situs protein dalam virus SARS-CoV-2 yang menyebabkan COVID-19. Peneliti laboratorium berencana untuk menggabungkan model generatif yang ditingkatkan ke dalam lingkaran desain obat molekul kecil untuk membuat senyawa obat yang lebih beragam dan berpotensi lebih efektif untuk disintesis untuk pengujian eksperimental, faktor penting dalam perlombaan untuk menemukan terapi COVID-19 baru.

“Tujuan dari proyek ini adalah untuk menghasilkan molekul baru dalam ruang yang besar berdasarkan yang menjanjikan dari kerja docking, pengikatan dan dinamika molekul, tetapi membuatnya sedikit berbeda sehingga peneliti COVID-19 dapat mengoptimalkan desain mereka,” kata paper co- penulis Felice Lightstone, yang mengepalai pekerjaan molekul kecil COVID-19.

Baru untuk tahun ini, Hadiah khusus Gordon Bell untuk Penelitian COVID-19 akan diumumkan pada 19 November di Virtual Supercomputing Conference (SC20) virtual. Diberikan oleh Association for Computing Machinery, penghargaan tersebut mengakui kontribusi HPC dan komputasi paralel untuk memahami pandemi COVID-19. Empat finalis dipilih berdasarkan kinerja dan inovasi dalam metode komputasi mereka, serta kontribusinya dalam memahami sifat, penyebaran dan / atau pengobatan penyakit. Tim pemenang akan menerima penghargaan $ 10.000.

Ilmuwan LLNL mengatakan pendekatan pelatihan paralel multi-level mereka berkinerja baik di berbagai skala, termasuk seluruh superkomputer IBM / NVIDIA 125 petaflop Sierra dengan efisiensi hingga 97,7 persen. Dengan menggunakan Livermore Big Artificial Neural Network Toolkit (LBANN), yang memungkinkan penelitian pembelajaran mendalam pada skala yang sebelumnya tidak dapat diperoleh, tim melatih autoencoder Wasserstein novel pada 1,613 miliar set pelatihan molekul dan 1,01 juta set uji molekul, hampir satu tingkat lebih besar. senyawa kimia daripada pekerjaan lain yang dilaporkan hingga saat ini.

“Kami mengambil pengalaman puluhan tahun yang dimiliki laboratorium nasional dan memantapkannya untuk mengaktifkan kombinasi penskalaan yang kuat dan lemah untuk jenis masalah pembelajaran mesin ini,” kata peneliti utama Brian Van Essen. “Ini berpotensi membantu mengubah penemuan obat menjadi proses yang lebih didorong oleh komputasi.”

Memanfaatkan pelatihan presisi campuran, tim ini mampu mencapai 17,1 persen dari puncak mesin presisi setengah menggunakan inti tensor. Sementara penskalaan model ke semua Sierra merupakan “tantangan yang signifikan”, bahkan dengan sumber daya komputasi yang sederhana, para ilmuwan mengatakan mereka dapat melatih atau melatih kembali lusinan model baru dalam waktu kurang dari satu jam, bahkan saat senyawa baru dihasilkan, untuk membuat “mandiri -learning design loop ”untuk mempercepat penemuan obat.

Ketika para peneliti menemukan senyawa yang lebih menjanjikan untuk COVID-19 dan patogen baru muncul, para peneliti perlu melatih ulang model target protein baru dan menyempurnakan pencarian kimiawi. Dengan jumlah molekul mirip obat diperkirakan 1060, kemampuan untuk melatih dan melatih ulang model pembelajaran mesin dengan cepat pada skala besar adalah “sangat revolusioner” untuk penemuan obat, kata Van Essen.

Dengan menggunakan model tersebut, para peneliti COVID-19 berharap dapat memilih senyawa yang menjanjikan, memproyeksikannya ke dalam ruang laten model dan mengoptimalkan sifat kimianya untuk menciptakan senyawa yang serupa, namun baru yang dapat dievaluasi lebih lanjut melalui pengujian eksperimental.

“Model generatif mendukung eksplorasi yang efisien dari bagian-bagian baru dari ruang kimia yang dapat dibuat dan seharusnya meningkatkan peluang kita untuk menemukan molekul kecil untuk bertindak sebagai tindakan balasan untuk patogen baru,” kata ilmuwan komputer Jonathan Allen. “Kami sedang mencari cara untuk dapat mengusulkan senyawa baru yang diprediksi secara komputasi untuk memenuhi beberapa kriteria desain berbasis farmakologis dalam satu langkah evaluasi. Ini kontras dengan pendekatan tradisional pengoptimalan serial dan pengujian eksperimental setiap properti secara terpisah, yang sangat memperpanjang waktu penemuan dan pengembangan obat. “

Untuk melatih model tersebut, ilmuwan komputer LLNL Sam Ade Jacobs dan rekannya merancang dan menerapkan autoencoder Wasserstein (cWAE) berbasis karakter. Berbeda dengan model generatif molekuler yang canggih (baseline) seperti variational autoencoder (VAEs) dan junction-tree variational autoencoders (JTVAEs), cWAE memberlakukan batasan yang lebih kuat selama pelatihan. Batasan ini mengarah pada ruang laten kontinu yang lebih baik, dan oleh karena itu rekonstruksi dan pengambilan sampel molekul yang lebih baik dari ruang laten.

“Untuk desain obat yang ditargetkan untuk COVID-19, Anda memerlukan model generatif yang mempertahankan rekonstruksi sambil meningkatkan keragaman variasi dalam ruang laten,” kata Jacobs. “Kami menemukan autoencoder Wasserstein paling cocok untuk tugas ini.”

Selain peningkatan kecepatan, para peneliti mendemonstrasikan bahwa pendekatan tersebut lebih akurat daripada autoencoder variasional, memberikan rekonstruksi senyawa yang lebih kuat dan urutan peningkatan besaran dalam Average Tanimoto Distance, sebuah metrik yang menggambarkan kesamaan antara senyawa yang dijalankan melalui model, dan senyawa masukan aslinya. .

Para peneliti mengatakan, meski hasilnya menjanjikan, mereka ingin meningkatkan penskalaan dan melatih menggunakan lebih banyak jenis model. Langkah mereka selanjutnya adalah memasukkan model yang terlatih sepenuhnya ke dalam lingkaran desain obat sehingga para ilmuwan COVID-19 dapat menggunakannya untuk mengevaluasi rangkaian senyawa yang lebih beragam, memprediksi bahan kimia yang lebih valid, dan lebih mengontrol spesialisasi senyawa baru.

Tim juga ingin membuat model lebih otomatis dan meningkatkan efisiensi putaran penemuan obat umum secara keseluruhan melalui konsorsium Accelerating Therapeutic Opportunities in Medicine (ATOM), yang akan membantu meningkatkan respons cepat terhadap virus di masa depan. Ilmuwan juga akan melihat pelatihan tentang arsitektur lain dan menggunakan metode pengoptimalan orde tinggi untuk secara dramatis meningkatkan kualitas dan kecepatan model.

Model ini sedang dipromosikan ke laboratorium nasional Departemen Energi (DOE) lainnya dan sedang diselidiki oleh ExaLearn Exascale Computing Project (ECP), pusat desain bersama untuk Teknologi Pembelajaran Mesin Exascale, dan proyek CANDLE (Cancer Distributed Learning Environment). dipimpin oleh DOE, ECP dan National Cancer Institute. Ini juga menarik minat dari industri.

Pendanaan aktif untuk penelitian disediakan oleh proyek ExaLearn dan ATOM. Pendanaan sebelumnya untuk investasi inti di LBANN mencakup program Penelitian dan Pengembangan yang Diarahkan oleh Laboratorium serta proyek ECP CANDLE. Program Simulasi & Komputasi Lanjutan LLNL menyediakan dana untuk ATOM, dan dukungan staf serta waktu komputer untuk upaya tersebut. Rekan penulis termasuk Tim Moon, Kevin McLoughlin, Derek Jones, David Hysom, Dong H. Ahn, John Gyllenhaal dan Pythagoras Watson.

Van Essen akan mempresentasikan makalah selama SC20 pada 19 November pukul 10 pagi PST.

Untuk informasi lebih lanjut tentang Hadiah Khusus Gordon Bell untuk Riset COVID-19 Berbasis Komputasi Kinerja Tinggi, kunjungi https://awards.acm.org/bell/covid-19-nominations

Mengaktifkan Rancangan Obat Molekul Kecil COVID-19 Cepat Melalui Pembelajaran Mendalam Model Generatif yang Skalabel

Untuk lebih lanjut tentang penelitian COVID-19 LLNL, kunjungi https://www.llnl.gov/coronavirus


Diposting Oleh : http://54.248.59.145/

About the author