Matematička Ai Za Molekularne Znanosti

By Jose Melgarejo | Created: October 26, 2023 | Last updated: December 17, 2024 | Read Time: 8 minutes

Kelin Xia

Orginalni članak: personal.ntu.edu.sg/xiakelin/research.html

Znanosti vođene podacima uvelike se smatraju četvrtom paradigmom znanosti koja će iz temelja promijeniti društvo i naše svakodnevne živote. Uistinu, modeli umjetne inteligencije (AI) već su revolucionirali i transformirali razne industrije koje se baziraju na podacima. Modeli strojnog i dubokog učenja postigli su neviđene rezultate u analizi slika, teksta, zvuka, videa i mrežnih podataka. Veliki uspjesi uglavnom su posljedica tri razloga, a to su akumulacija ogromne količine podataka, stalno povećanje računalne snage i dizajn iznimno učinkovitih algoritama. Nadalje, izvanredno postignuće AlphaFold2 u rješavanju problema presavijanja proteina započelo je novu eru za analizu molekularnih podataka temeljenih na AI-ju za materijale, kemiju i biologiju.

S uzbuđenjem i prilikama dolaze i izazovi. Trenutačno je jedan od glavnih izazova za analizu molekularnih podataka temeljenu na AI-ju je reprezentacija molekula, odnosno identifikacija ili dizajn odgovarajućih molekularnih deskriptora ili otisaka. Ispravni deskriptori trebali bi sačuvati najvažnije, unutrašnje molekularne osobine i informacije koje izravno određuju molekularne funkcije. Na taj način ih mogu bolje "razumjeti" modeli strojnog učenja. U stvari, izvedba mnogih metoda učenja uvelike ovisi o izboru predstavljanja i karakterizacije podataka, što je dugogodišnji problem za kemoinformatiku i bioinformatiku. Tradicionalni molekularni deskriptori su svojstva dobivena iz strukturne geometrije/topologije, kemijske konformacije, kemijskog grafa, kao i molekularne formule, hidrofobnosti, steričkih svojstava i elektronskih svojstava. Ovi deskriptori se naveliko koriste u kvantitativnim odnosima između strukture i aktivnosti (QSAR) i modelima učenja.

Predložena je Matematička umjetna inteligencija za reprezentaciju, oblikovanje značajki i učenje molekula. Kao što je prikazano gore, različite vrste podataka, posebno molekularni podaci iz područja materijala, kemije i biologije, mogu se predstaviti pomoću topoloških modela, uključujući grafove, jednostavne komplekse, hipergrafove, itd. Iz tih reprezentacija dobivaju se različite matematičke invarijante pomoću naprednih matematičkih modela iz algebarske topologije, diskretne geometrije, kombinatorike, itd. Ove matematičke invarijante koriste se kao ulazne značajke za modele učenja. Dramatično različito od prethodnih modela, molekularni podaci modeliraju se korištenjem topologija viših dimenzija, poput pojednostavljenih kompleksa i hipergrafova, te filtracijom induciranih višeskalarnih reprezentacija. Nadalje, značajke temeljene na matematičkim invarijantama karakteriziraju najdublje i temeljne osobine te imaju bolju prenosivost za modele učenja.

Kratki uvod u područje možete pronaći u zimskim školskim predavanjima iz 2021. u Dalianu, predavanjima AATRN, i radovima profesora Guowei Weija (SIAM vijesti, predavanje na Harvardu, D3R vijesti).

Iskreno pozivamo visoko motivirane studente i postdoktorande da se pridruže našoj grupi!

  • Uporno spektralno strojno učenje (PerSpect ML) za dizajniranje lijekova

Odnos strukture i funkcije od ključne je važnosti za analizu biomolekularne fleksibilnosti, dinamike, interakcija i funkcija. Topologija proučava informacije o mreži i vezi unutar podataka i pruža učinkovit način karakterizacije strukture. Kao što je prikazano na slikama, postoje tri osnovna topološka prikaza, uključujući graf, jednostavni kompleks i hipergraf, za molekularne strukture. Značajke za modele učenja mogu se dobiti iz ovih prikaza. Bitna ideja je koristiti svojstva temeljena na eigen-spektru kao molekularne deskriptore.

Naša uporna spektralna (PerSpect) teorija obuhvaća tri osnovna modela, tj. PerSpect graf, PerSpect pojednostavljeni kompleks i PerSpect hipergraf. Ovi modeli su višedimenzionalne spektralne metode temeljene na filtraciji. Matematički gledano, spektralna teorija grafova, spektraln jednostavni kompleks i spektralni hipergraf razvijeni su na temelju grafa, pojednostavljenog kompleksa i hipergrafa. Ovi modeli koriste različite vrste matrica veze, posebno Hodge (kombinatorne) Laplace-ove matrice, za predstavljanje povezanosti strukture. Višedimenzionalna reprezentacija postiže se postupkom filtracije. Postojanost i varijacija informacija eigen spektra tijekom procesa filtracije karakterizirani su postojanim funkcijama ili atributima, koji se dalje koriste kao molekularne značajke ili otisci.

Reference: Zhenyu Meng i Kelin Xia, "Persistent spectral based machine learning (PerSpect ML) for protein-ligand binding affinity prediction", Science advances (2021)

  • Persistentna strojna obrada Ricci krivulje

Riccijeva krivulja jedan je od temeljnih pojmova u diferencijalnoj geometriji i teorijskoj fizici. Razvijene su dvije izolirane Ricci krivulje, tj. Ollivierova Ricci krivina (ORC) i Formanova Ricci krivina (FRC), kako bi se okarakterizirali različiti aspekti klasične Ricci krivulje. ORC se definira kao Wassersteinova udaljenost između dvije povezane vjerojatnosne mjere na metričkim prostorima. Hvata svojstva grupiranja i koherentnosti globalnih i lokalnih struktura u mrežama. Suprotno tome, FRC je definiran kao kombinatorno svojstvo gornjih susjednih, donjih susjednih i paralelnih simpleksa na CW kompleksima. Ova kombinatorna zakrivljenost može se izravno izvesti iz kombinatorne Bochner-Weitzenbock dekompozicije. Karakterizira svojstvo geodetske disperzije i algebarske topološke informacije unutar mreža. Iako dvije diskretne forme mogu imati potpuno različite vrijednosti, ponekad čak i znakove, za mrežne podsustave, pokazalo se da su visoko korelirani u različitim složenim mrežama. Općenito govoreći, pozitivne ORC ili FRC često se nalaze u gusto zbijenim skupinama ili "zajednicama", dok negativne ORC ili FRC obično predstavljaju mostove ili veze između skupina.

Predložena je uporna Ricci krivulja za kombiniranje prikaza na više razmjera temeljenih na filtraciji s Ricci krivuljama za karakterizaciju molekula. Ricci krivulje sustavno se procjenjuju na svim grafovima/jednostavnim kompleksima/hipergrafovima tijekom procesa filtracije. Statistička i kombinatorna svojstva Ricci krivulja tijekom filtracije koriste se kao molekularni deskriptori.

Reference: JunJie Wee i Kelin Xia, "Forman persistent Ricci curvature (FPRC) based machine learning models for protein–ligand binding affinity prediction", Briefings In Bioinformatics (2021) JunJie Wee i Kelin Xia, "Ollivier persistent Ricci curvature (OPRC) based machine learning for protein-ligand binding affinity prediction", Journal of Chemical Information and Modeling, https://doi.org/10.1021/acs.jcim.0c01415 (2021)

  • Uporna hipergrafska strojna obrada

Hipergrafovi su moćni topološki prikazi koji mogu karakterizirati općenitije informacije o strukturi od grafova i jednostavnih kompleksa. Hipergraf se sastoji od hiperbridova, koji su skupovi vrhova. U biti, hiperbrid se može promatrati kao generalizacija simpleksa bez bliskosti pod uvjetima granica. Interakcije između molekula na atomskoj razini mogu se vjerno prikazati kao hipergrafovi. Matematički gledano, hiperbrid se može definirati kao skup vrhova (atoma) koji imaju barem jednu od svake molekule. Na primjer, u interakcijama između proteina i liganda, hiperbrid je definiran između atoma proteina i liganda, ali ima barem jedan atom iz proteina i drugi iz liganda. Na ovaj način, hiperbridovi predstavljaju interakcije (mnogotijelne) između atoma proteina i liganda.

Modeli specifični za elemente široko se koriste za rastavljanje molekularnih kompleksa u niz atomskih kombinacija specifičnih za atome. Konkretno, proteine je moguće rastaviti u najmanje 5 vrsta atomskih skupova, tj. C, O, N, S i H, dok ligandi obično imaju najmanje 10 skupova, uključujući C, N, O, S, P, F, Cl, Br, I i H. Na ovaj način može se dobiti do 50 kombinacija atoma i mogu se konstruirati odgovarajući hipergrafovi. Topološke i geometrijske invarijante sustavno se dobivaju iz ovih hiperbridova i dalje se koriste kao značajke za modele strojnog učenja.

Reference: Xiang Liu, Huitao Feng, Jie Wu i Kelin Xia, "Persistent spectral hypergraph based machine learning (PSH-ML) for protein-ligand binding affinity prediction", Briefings In Bioinformatics (2021) Xiang Liu, Xiangjun Wang, Jie Wu i Kelin Xia, "Hypergraph based persistent cohomology (HPC) for molecular representations in drug design", Briefings In Bioinformatics (2021)

Geometrijsko i varijacijsko modeliranje

  • Varijacijski multi-skalni modeli

Razvijamo geometrijsko modeliranje i računalne algoritme za biomolekularne strukture iz dvaju izvora podataka: Protein Data Bank (PDB) i Electron Microscopy Data Bank (EMDB) u Eulerovoj (ili kartezijanskoj) reprezentaciji. Molekularna površina (MS) sadrži geometrijske nesavršenosti, poput bridova, vrhova i samopreklopljenih površina, što često dovodi do računalnih nestabilnosti u molekularnim simulacijama i krši fizičko načelo minimizacije površinske slobodne energije. Predložene su varijacijske višeskalne definicije površina na temelju geometrijskih tokova i analize solvacije biomolekulskih sustava. Dobivene površine su lišene geometrijskih nesavršenosti i smanjuju ukupnu slobodnu energiju biomolekularnog sustava. Za obradu EMDB podataka koriste se filtri temeljeni na visokorednim parcijalnim diferencijalnim jednadžbama (PDE). Nakon izgradnje višerezolucijskih proteinskih površina, istražujemo analizu i karakterizaciju morfologije površine uzimajući u obzir Gaussovsku krivulju, srednju krivulju, maksimalnu krivulju, minimalnu krivulju, indeks oblika i zakrivljenost. Na temelju analize krivulje i elektrostatike s naših višerezolucijskih površina, uvodimo novi koncept, polariziranu krivulju, za predviđanje mjesta vezanja proteina.

  • Analiza fleksibilnosti i čvrstoće proteina

Strukturalna fluktuacija proteina, koja se obično mjeri Debye-Wallerovim faktorima ili B-faktorima, manifestacija je fleksibilnosti proteina, koja snažno korelira s funkcijom proteina. Indeks fleksibilnosti i čvrstoće (FRI) novo je predložena metoda za izradu atomske funkcije čvrstoće potrebne u teoriji kontinuirane elastičnosti s atomskom čvrstoćom, što je novi multiskalni formalizam za opisivanje iznimno velikih biomolekularnih sustava. Metoda FRI analizira čvrstoću i fleksibilnost proteina i sposobna je predviđati B-faktore proteina bez korištenja dijagonalizacije matrice. Temeljna pretpostavka koja se koristi u FRI metodi jest da su strukture proteina jedinstveno određene raznim unutarnjim i vanjskim interakcijama, dok su funkcije proteina, poput stabilnosti i fleksibilnosti, isključivo određene strukturom. Kao takvi, može se predvidjeti fleksibilnost proteina bez posezanja za proteinskim interakcijskim Hamiltonijanom. Dodatno, predlažemo anizotropne FRI (aFRI) algoritme za analizu kolektivne dinamike proteina. Eigenvektori dobiveni iz predloženih aFRI algoritama sposobni su demonstrirati kolektivne pokrete.

Znanstveno računanje

  • MIB metoda za problem višematerijalnog sučelja

Problemi višematerijalnih sučelja prisutni su u znanosti, inženjerstvu i svakodnevnom životu. Rješavanje ove klase problema postaje iznimno izazovno kada se više od dva heterogena materijala spoji na jednom mjestu u prostoru i stvori geometrijsku singularnost. Na temelju MIB metode izgrađeno je nekoliko shema za rješavanje 2D eliptičkih jednadžbi s neprekidnim koeficijentima povezanim s trostrukim materijalnim sučeljima. Temeljna ideja jest glatko proširiti funkcije preko sučelja i koristiti lažne vrijednosti na nepravilnim točkama. Za geometrijske singularnosti razmatraju se dva skupa uvjeta sučelja istovremeno. Izvršeni su intenzivni numerički eksperimenti kako bi se potvrdile predložene sheme. Postignuta je točnost drugog reda za složene geometrijske i geometrijske singularnosti.

  • Adaptivna mreža temeljena MIB metodi

Metode deformacije mreže kvare se kod problema eliptičnih PDE sučelja, jer su potrebni dodatni uvjeti sučelja za održavanje ispravnostii upravljačke jednadžbe. Uvodi se tehnika sučelja temeljena na adaptivno deformiranoj mrežnoj strategiji za rješavanje problema eliptičnih sučelja. Koristeći prednosti visoke točnosti, fleksibilnosti i robusnosti MIB metode, konstruirana je metoda sučelja temeljena na adaptivno deformiranoj mreži. Predložena metoda generira deformirane mreže u fizičkoj domeni i rješava transformirane upravljačke jednadžbe u računalnoj domeni, održavajući pravilne kartezijanske mreže. Deformacija mreže ostvaruje se pomoću PDE transformacije mreže koja kontrolira redistribuciju mreže putem izvora. Izvor se sastoji od monitor funkcije koja uključuje pravila za skupljanje mreže. Konstruirane su deformirane mreže temeljene na geometriji sučelja i deformirane mreže temeljene na gradijentu rješenja kako bi se smanjile pogreške u rješavanju eliptičnih sučelja problema. Predložena metoda sučelja temeljena na adaptivno deformiranoj mreži je potvrđena u više navrata mnogim numeričkim eksperimentima. Numerički rezultati pokazuju da metoda sučelja temeljena na adaptivno deformiranoj mreži nadmašuje originalnu MIB metodu u rješavanju eliptičnih sučelja problema.

  • MIB Galerkin metoda

MIB Galerkin formulacija je razvijena za rješavanje eliptičnog problemskog sučelja. U ovom pristupu gradimo dva skupa elemenata, svaki na dva proširena područja koja obuhvaćaju sučelje. Kao rezultat toga, ta dva skupa elemenata se preklapaju blizu sučelja. Fiktivna rješenja definiraju se na preklapajućem dijelu elemenata, tako da se operacije razlikovanja izvornih PDE-ova mogu diskretizirati kao da ne postoji sučelje. Dodatni koeficijenti polinomijalnih baznih funkcija, koji opskrbljuju preklapajuće elemente i rješavaju fiktivna rješenja, određuju se prema uvjetima skoka sučelja. Stoga se uvjeti skoka sučelja rigorozno provode na sučelju. Ovaj pristup koristi kartezijanske mreže kako bi se izbjeglo stvaranje mreža u konvencionalnim metodama konačnih elemenata (FEMs). Točnost, stabilnost i robusnost predložene 3D MIB Galerkin metode temeljito su provjereni. Potvrđena je bliska točnost drugog reda. Prema našim saznanjima, ovo je prvi put da FEM pokazuje blisko usklađivanje drugog reda u rješavanju Poissonove jednadžbe s realnim proteinskim površinama. Osim toga, ovaj rad nudi prvu poznatu metodu bliske točnosti drugog reda za C_1 kontinuirana ili H_2 kontinuirana rješenja povezana s Lipschitz kontinuiranim sučeljem.


Author profile
Jose Melgarejo

Jose Melgarejo is a seasoned writer with extensive experience in detailed analysis and narrative construction. He specializes in producing well-researched, clear, and informative content for various publications, effectively communicating complex topics to a broad audience.


Related Articles
logo
El debate sobre el calentamiento global El debate sobre el calentamiento global CSR
Articulo Original: https://web.mst.edu/~cottrell/Issues/The%20global%20warming%20debate.htmPor: Mitchell S. Cottrell
logo
La guía de referencia de Hoffman La guía de referencia de Hoffman CSR
Articulo original : https://www.freesoft.org/software/hoffman/13Sep2018/reference.pdfPor : Brent Baccala
logo
Una Meditación de Acción de Gracias Una Meditación de Acción de Gracias CSR
Artículo Original: https://pages.ucsd.edu/~dkjordan/diversions/ThanksgivingMeditation.html
logo
20 Preguntas 20 Preguntas CSR
Artículo Original: https://theworld.com/~swmcd/steven/stories/questions.html