2008 年,辉瑞公布了化学空间在相似性检索和骨架跃迁中的有效性。自此,药企进入化学空间导航的时代。
2022 年,Genentech 公布了化学空间在虚拟筛选中的有效性。自此,药企进入化学空间对接的时代。
以下是基本介绍,后续会议视频经审核通过会在公众号发布
昨晚 Paul Beroza 在 DrugSpace 大会上关于化学空间对接在激酶中的概念性验证 ,将大会热度推向了顶峰,这也宣称了一个新时代的到来。
▎化学空间介绍:
先简单的介绍一下化学空间,化学空间由片段库(分子砌块)和合成协议组成,储存的并非完整的化合物。
这样做可以解决两个常见的基本问题,一是可合成性,原因是分子砌块都是精挑细选,合成协议也是经过严格验证的,所以分子砌块通过合成协议生成的化合物具有极高的可合成性。
二是可检索性,数据库大到一定的程度,计算资源和时间的消耗是巨大的。而伴随数据库大小的激增,片段库的大小却没有很大的变化,可以在短时间内实现化学空间的检索。
目前商业最大的化学空间还是来自于 Enamine,150个反应类型、12.3 万个 Building Blocks 分子砌块组成了 230 亿的化学空间,分子的可合成性高达 80% 以上。
当然这个数据已经是历史了,在刚发布的 infiniSee 4 中,Enamine 的 Real Space 已经增加到 290 亿!!加上药明康德的 120 亿,OTAVA 的 120 亿,商业可获得的化学空间已经突破 500 亿大关。
▎化学空间检索:
单纯说可能没有什么感觉,看一下具体的数据:
Enamine 的 Real Space 就一维的 Smiles 格式,大小就高达 4千兆!以葛兰素史克的化学空间为例,枚举后达到了 400000000000000000 GB!!!
以百兆光纤 100 MB/s 进行下载需要多长时间?!这还仅仅是下载,加载?遍历?处理?分析?
只有一个词可以形容,horrible!!!
500 亿规模的化学空间在 infiniSee 中有多大?不到 100 MB!!infiniSee 检索 500 亿的化学空间需要多长时间?常规办公电脑 10 分钟以内!!
现在检索化学空间的技术已经完全成熟了,基于 FTrees 的检索方法已经完美的运用于各大药企。具体可以参照:Pfizer 和 Boehringer Ingelheim 的报道。
▎化学空间对接:
有能力完成化学空间的检索后,我们一直在思考一个有趣的问题,是否有可能进行化学空间的对接?
百亿的化学空间就对应的百亿级别化合物库的筛选,万亿的化学空间对应的就是万亿数据库的筛选,这对于新型化学型的发现无疑具有巨大的吸引力!!!!!
海量的宝库就分布在化学空间中,但是我们却无法触及。。。。。。既然常规对接超大规模数据库的思路不行,那我们就采用 FBDD 的思路,从片段开始,先对接片段,在片段的基础上进行延申。
这个思路其实就是 FlexX——一种基于片段增量的对接算法。事实证明我们是对的。
在筛选中,很多化合物其实都是无效的。对片段的而言也是如此,我们只需要将有效的片段推进到下一步,扼杀掉无效的片段,那么最终的化合物数量就会大大减少。
用激酶做验证的好处在于机制明确,作用方式也明确。
如果片段和铰链区不能形成氢键,直接舍去。蓝色的是下一个片段连接的部位,如果片段的位置不合适,指向有冲突等,直接舍去。多种过滤方法,最后片段的数量就大大减少。
最终的结果:
Pyrazole 化学型:
其他化学型也很丰富:
Poseview 展示的二维相互作用:
X-ray 验证:
和 V-SYNTHES 的比较:
和 Full Docking 的比较:
Btw: SeeSAR 目前版本还不能完成化学空间对接,仅作为服务。