DiffSBDD 於 2024 年 12 月正式發表,重要性不只在於它證明了 diffusion model 可以直接用來做 以 protein pocket 為條件的 ligand generation,也在於它展示了同一個預訓練模型具有相當好的延展性。也就是說,這個模型不只能從頭生成分子,還可以進一步應用在 partial redesign、inpainting 與 property optimization 等不同任務,而不需要針對每一種任務都重新設計一套模型架構。
不過,DiffSBDD 並沒有一次解決 diffusion-based SBDD 的所有問題。它之後的發展,大致可以看成沿著兩個方向繼續往前推進。第一個方向,是讓模型更細緻地理解 protein pocket 與分子本身在不同尺度下的幾何交互作用,代表者就是 PMDM。第二個方向,則是針對 diffusion 模型常見的兩個缺點進一步改進:一是生成分子時可能出現原子座標與化學鍵結不一致的問題,二是模型往往只強調結合能力,卻沒有直接控制藥物相關性質。在這條路線上,代表者就是 DiffGui,它把 bond information 與 property guidance 更明確地納入生成過程中。
從這個角度來看,DiffSBDD 之後的方法演進,其實正好對應了 diffusion-based 分子生成的兩個核心瓶頸。第一,雖然 diffusion model 相比 autoregressive 方法已經更有全局視角,但它仍然可能生成局部上不夠合理的結構;第二,單靠 binding score 或 docking proxy 的優化,也還不足以保證生成分子真的具有成為候選藥物的潛力。也因此,後續的 PMDM 與 DiffGui,可以分別視為在 幾何建模 與 化學合理性/藥物性質控制兩個方向上,對diffusion-based SBDD的重要延伸與補強。
PMDM:從全局 diffusion 走向多尺度 pocket-aware 幾何建模
PMDM 是一個在 2024 年發表的 AI 分子生成模型,目標是根據蛋白口袋直接設計出合適的 3D 小分子。它的特色是同時考慮近距離的局部作用和較遠距離的整體空間作用,因此生成出的分子通常更符合真實結構需求。這篇研究不只停留在電腦模擬,還進一步把部分候選分子做出來,並測試它們對 CDK2 的活性,顯示 PMDM 具有實際用於 lead optimization 的潛力。
雖然 DiffSBDD 已經避免了 autoregressive 方法的限制,但分子並不是只靠一種尺度的作用就能描述。近距離原子之間主要看化學鍵與局部幾何,較遠距離的原子則更多反映整體空間排列與非共價作用。若把所有原子對一律用 fully connected graph 處理,模型就可能分不清哪些是局部鍵結、哪些是長程作用;但如果只看局部,又會少掉整體結構是否真的適合口袋的重要資訊。

在 diffusion 本體上,PMDM 仍保留與一般 conditional DDPM 相近的形式。若 ligand 幾何與原子類型為 G = (x, r) ,則前向過程逐步加入 Gaussian noise,而反向過程在 pocket 條件下學習(上圖),訓練仍以 ELBO / score matching 為基礎。從理論上說,只要模型加噪時不偏向特定空間方向,且去噪網路在旋轉與平移下能保持正確的幾何對應關係,那麼模型最後學到的分子生成分布也會保有相同的幾何對稱性。

PMDM 的核心創新之一,在於將 protein pocket 提供的條件資訊拆分為 semantic information 與 geometric information 兩個層次來建模。這樣的設計反映了一個重要觀點:蛋白質口袋對 ligand 生成的影響,不只來自其化學特徵,還來自其三維空間中的幾何限制。因此,PMDM 並不是將 pocket 當作單一條件輸入,而是分別從語意層與幾何層來處理其資訊。
首先,在 semantic information 的處理上,PMDM 使用兩個 invariant graph neural networks,也就是 SchNet,分別對 ligand 與 protein pocket 進行編碼。SchNet 的目的,是從原子類型、鄰近原子的分布以及彼此距離中,學習每個節點所處的局部化學環境。對於任一節點 i,其訊息傳遞可概念性地表示為

其中 dij 為節點 i 與 j間的距離,N(i) 表示節點 i 的鄰域,ϕw,ϕs,ϕm則為可學習的非線性映射。這組式子的意思是:節點 i 在更新自身表示時,會根據鄰近節點 j 的特徵,以及它們之間的距離來聚合訊息。距離不同,對應的影響權重也不同,因此模型可以有效捕捉局部化學環境的差異。經過這樣的距離感知式訊息聚合後,ligand 與 protein pocket 便可分別被轉換為各自的 hidden representations。例如,ligand 的表示可寫為

而 protein pocket 也可得到相對應的語意嵌入。在這個階段,模型已經先分別學到 ligand 本身的特徵,以及 pocket 本身的化學語意。
在此基礎上,PMDM 進一步引入 cross-attention 機制,將 protein 的 semantic context 注入 ligand representation。其形式可表示為

這代表在 PMDM 的設計中,ligand representation 作為 query,而 protein pocket 的 semantic embedding 作為 key 與 value。直觀地說,模型會根據 ligand 當前的表示,去判斷 pocket 中哪些資訊最值得參考,再把這些資訊有選擇地整合進 ligand 的 hidden representation 中。因此,經過 cross-attention 之後,ligand 的表示不再只是描述它本身,而是已經帶有來自目標蛋白口袋的條件資訊,從而讓後續生成更能符合該口袋的需求。
除了 semantic information 之外,PMDM 也特別強調 geometric information 的建模。這是因為 ligand 是否能與 pocket 結合,不只是化學特徵是否匹配,更取決於它在三維空間中是否能合理地放入 binding pocket。因此,PMDM 進一步引入 EGNN 或 equivariant dynamic kernels,使 hidden states 與座標更新對平移、旋轉與節點排列保持合理的對稱性。換言之,若整個系統只是被整體旋轉或平移,其物理本質不應改變,模型的表示方式也應相應保持一致。
與只使用單一 message-passing kernel 的方法不同,PMDM 根據原子對之間的距離建立兩類虛擬邊。當兩原子距離低於局部閾值時,定義為 local edges,用來捕捉近距離、近似由化學鍵主導的局部作用;當距離落在較大的範圍內時,則定義為 global edges,以表徵較遠距離的非共價交互作用。這兩類圖結構分別輸入對應的 equivariant kernels,可概念性地表示為

其中,Glocal與 Gglobal分別代表依照距離閾值建立的 local 與 global graph。前者主要描述近距離局部交互作用,後者則描述較遠距離的整體空間作用。最後,PMDM 再將 local 與 global 兩部分的輸出加以融合。這一步的意義在於,模型不再只依賴單一尺度的幾何訊息,而是同時整合局部化學結構資訊與全域空間作用資訊,形成更完整的分子表示。如此一來,PMDM 在生成 ligand 時,既能顧及局部鍵結與化學合理性,也能兼顧整體構型與 pocket 的三維適配性。
PMDM 相較於 DiffSBDD 的進步,重點不在於它改用了完全不同的生成框架,因為兩者本質上都還是 diffusion-based 的 structure-based ligand generation model。真正的差別在於,PMDM 把「蛋白口袋如何作為生成條件」這件事處理得更細緻。
DiffSBDD 已經會把 protein pocket 當作條件,讓模型根據口袋結構來生成 ligand;但 PMDM 更進一步,把 protein 提供的資訊拆成兩個層次來理解。第一個層次是 semantic information,也就是 pocket 的化學語意與局部特徵;第二個層次是 spatial/geometric information,也就是 pocket 在三維空間中的形狀與幾何限制。換句話說,PMDM 不只是在問「這個 pocket 有哪些化學特徵」,也同時在問「這些特徵在空間中是如何排列的」。這使得模型對 protein–ligand 配對關係的理解更加完整。
此外,PMDM 也不是只用一套單一的圖訊息傳遞機制,而是進一步用 dual kernels 去區分兩種不同尺度的交互作用:一類是 local interactions,主要對應近距離、接近化學鍵主導的局部結構;另一類是 global interactions,則反映較遠距離的整體空間作用。這樣的設計讓模型在生成分子時,不只顧到局部鍵結是否合理,也能同時兼顧整體骨架與空間排列是否自然。
也因為 PMDM 對 protein 條件與分子幾何的建模更細緻,它生成的分子通常更接近真實可用的化學結構。具體來說,PMDM 相較於 DiffSBDD,較少產生不合理的小環,例如三員環或四員環;同時,在分子性質上也更能兼顧多個面向,不只是追求和 pocket 的結合分數,還能在 Vina score、QED 與 Lipinski-related properties 之間取得比較好的平衡。簡單來說,DiffSBDD 已經能生成「放得進 pocket 的分子」,而 PMDM 則更進一步朝向生成「結構更自然、性質也更像真實候選藥物的分子」。
值得注意的是,DiffSBDD 在某些較大 macro-ring 的比例上可能更高,這很可能反映其圖連接與長程交互作用建模方式不同,而不必然代表絕對優勢或劣勢。這是一個很好的分析角度:PMDM 偏向更穩定、分布更接近真實資料的 ring statistics;DiffSBDD 則可能保留較強的遠距成環傾向。
DiffGui:把 bond 與 property guidance 正式拉進 diffusion 主體
DiffGui 是一個以目標蛋白口袋為條件的 E(3)-equivariant diffusion model。它的重點在於指出,現有許多 SBDD 分子生成方法雖然能產生與 pocket 相容的配體,但往往忽略了結構合理性與藥物性質,因此容易生成不夠真實、或不夠像候選藥物的 3D 分子。為了解決這個問題,DiffGui 在模型中加入兩個關鍵模組:一是 bond diffusion,用來提升原子與鍵結拓撲的一致性;二是 property guidance,用來在生成過程中直接控制 drug-like properties。
這篇工作的出發點,是為了解決 diffusion-based SBDD 中兩個核心缺點。第一,許多方法先生成原子座標,再事後推定鍵結拓撲,因此容易出現幾何與化學結構不一致的問題。第二,現有模型多半只強調 binding affinity,卻沒有在生成過程中直接控制 QED、SA、LogP 等藥物相關性質,因此生成分子未必真的具有良好的開發潛力。

DiffGui 的第一個核心創新,在於將分子的 joint distribution 拆分為連續與離散兩部分共同建模,並將原子座標、原子類型與鍵結類型同時納入 diffusion framework 中。具體而言,DiffGui 不再僅將 atoms 視為生成過程中的唯一對象,而是將 bonds 也視為生成分子時不可分割的一部分,使模型能同時學習幾何構型與化學拓撲之間的耦合關係。這樣的設計,正是為了回應先前 diffusion-based SBDD 方法中常見的 atom–bond inconsistency 問題,也就是原子座標看似合理,但推回的鍵結拓撲卻可能不正確的情況。在記號上,DiffGui 將一個分子表示為

其中 ai表示第 i 個原子的 atom type,ri 表示其三維座標,而 bij 表示原子 i 與 j 之間的 chemical bond type。進一步地,在給定 protein pocket 條件 p 與分子性質條件 c的情況下,模型希望學習目標分布

也就是說,DiffGui 的任務不是無條件地生成任意分子,而是在蛋白口袋與特定分子性質條件的約束下,生成兼具結構合理性與目標導向特性的候選分子。
在 diffusion framework 中,其前向擴散過程可寫為

而對應的反向生成過程則可表示為

其中,前向過程的目的是逐步對原始分子表示加入噪聲,將真實分子 x0 漸進地擾動為高噪聲狀態 xT;而反向過程則由神經網路參數化的去噪模型 pθ負責,逐步從噪聲中重建出符合 pocket 條件與 property 條件的分子結構。換句話說,DiffGui 所學習的並不是單純的分子資料分布,而是以 target pocket 與 molecular properties 為條件的生成分布。
由於分子中的不同成分具有不同的數學性質,DiffGui 在前向擴散時,會分別對原子座標、原子類型與鍵結類型施加不同形式的噪聲。對於連續變數的原子座標 ri,模型採用 Gaussian diffusion,其形式可寫為

其中 βt 表示第 t步的噪聲強度,I為對應維度的單位矩陣。這表示在每一步擴散中,原子的三維座標都會受到高斯噪聲擾動,逐漸失去原本的幾何資訊。
相對地,atom types 與 bond types 屬於離散變數,因此 DiffGui 對它們使用 categorical diffusion。對於 atom types,其擴散形式可表示為

其中 C 表示 categorical distribution,Ik表示對所有可能 atom types 的均勻分布。這意味著在擴散過程中,原本明確的 atom identity 會逐步被隨機化,直到接近無資訊的離散分布。對 bond types 而言,亦採用相同概念的 categorical corruption,使鍵結類型在 diffusion 過程中逐步模糊化。其核心意義在於:DiffGui 不再把 bonds 當作最後才由座標推回的附屬結果,而是把它們納入整個生成過程中共同建模。
這樣的 joint diffusion 設計具有兩個重要意義。首先,它使模型能同時學習原子幾何與 化學拓撲的聯合分布,而不是將兩者割裂為「先生成座標、再事後補鍵」的兩步驟流程。其次,這也讓 DiffGui 在生成過程中能更自然地維持結構合理性,減少不合理小環、異常稠合環、錯誤鍵型與價數不一致等問題。從方法學的角度來看,DiffGui 的創新不只是把生成對象從 atoms 擴大到 atoms + bonds,而是進一步將 chemical graph 的形成,正式納入 diffusion-based SBDD 的主體框架中。
DiffGui 的第二個核心,在於將 property guidance 直接納入訓練與採樣過程,而非僅在分子生成完成後再進行事後篩選。論文指出,該 property guidance 同時涵蓋 binding affinity 與 drug-like properties,使模型在生成過程中即可朝向較理想的分子性質分布進行調整。為了實現這一點,DiffGui 採用了 classifier-free guidance (CFG) 的策略。在訓練階段,模型會隨機將 property label 置為空條件 ∅,從而同時學習 conditional 與 unconditional 的 denoising 行為。換言之,模型一方面學習在給定 property condition c 時如何進行去噪,另一方面也學習在沒有該條件時的基礎生成分布。
在採樣階段,conditional 與 unconditional 的預測會以線性組合的方式加以融合,其形式可寫為

其中 ϕθ(xt,t,p,c)表示在 pocket 條件 p 與 property condition c 下的去噪預測,而 ϕθ(xt,t,p,∅)則表示不使用 property condition 時的預測;γ為 guidance strength,用以控制生成結果朝目標性質偏移的程度。當 γ增加時,模型會更強烈地朝向指定的分子性質生成,但也可能伴隨多樣性下降或分布偏移的風險。
因此,DiffGui 的 property guidance 並不只是對生成結果做後處理,而是直接改變 reverse diffusion 的生成方向,使模型從一開始就傾向產生同時符合 target pocket 與預期 molecular properties 的候選分子。這使得 DiffGui 不僅能生成具有較高預測親和力的配體,也更有機會同時兼顧 QED、SA、LogP 等藥物相關性質。
在拓撲與化學有效性方面,DiffSBDD 與 PMDM 仍主要生成原子種類與三維座標,而 DiffGui 則進一步把 bond diffusion 納入模型,直接處理原子幾何與鍵結拓撲之間的一致性問題,這也是三者最明顯的方法差異。至於多目標藥物性質控制,DiffSBDD 多仰賴外部約束或後續搜尋,PMDM 則在 QED、Lipinski 與 Vina score 上呈現較好的整體平衡;但真正將 binding affinity、drug-likeness 與理化性質直接寫入 diffusion guidance、使其成為生成核心的一步,則是由 DiffGui 完成的。
從整體研究發展來看,DiffSBDD、PMDM 與 DiffGui 呈現出一條相當清楚的演進路線:AI 在結構式藥物設計中的目標,已經不再只是「根據蛋白口袋生成一個新分子」,而是逐漸朝向更貼近真實藥物開發需求的方向前進。
- Huang, L., Xu, T., Yu, Y., Zhao, P., Chen, X., Han, J., Xie, Z., Li, H., Zhong, W., Wong, K.-C., & Zhang, H. (2024). A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets. Nature Communications, 15, Article 2657.
- Hu, Q., Sun, C., He, H., Xu, J., Liu, D., Zhang, W., Shi, S., Zhang, K., & Li, H. (2025). Target-aware 3D molecular generation based on guided equivariant diffusion. Nature Communications, 16, Article 7928.











