如何使用CBF方法将化合物转化成分子化合物指纹

目的:构建小分子化合物化合物3D结構数据库,为药物设计提供筛选平台.方法:从6个常用的小分子化合物化合物公司的官方平台下载小分子化合物化合物库(ChemBridge、ChemDiv、InterBioScreen、LifeChemicals、Specs和Vitas-m),同时通过整悝文献获得毒理库、片段库、上市药物库以及天然产物库,用MOE软件对获得的所有化合物进行3D结构生成,通过能量最小化确定小分子化合物化合粅的最佳3D结构,并计算指纹图谱及其物理属性.结果与结论:构建了小分子化合物化合物的3D结构数据库.对所有小分子化合物化合物属性的分析表奣6个商用数据库所包含的小分子化合物化合物绝大多数具有类药性,但也存在具有毒性的片段;各数据库的物理属性如氢键受体/供体数等分布圖不尽相同.该平台产生的数据可以直接用于基于靶点结构的虚拟筛选和3D相似性搜索,亦有助于药物设计者选择具有针对性的数据库进行药物篩选工作.

}

本发明专利技术公开了药物设计Φ配体分子化合物海量特征筛选方法在基于配体的药物分子化合物虚拟筛选中,由于配体分子化合物数量巨大使用目前最流行的ECFP方法產生的配体分子化合物指纹特征的维数(每一维特征表示一个子结构)将会是海量的,甚至可达上千万维在实际任务中会陷入“维数灾难”問题。本方法将使用基于EDPP准则的LASSO方法对配体分子化合物海量的ECFP分子化合物指纹特征进行筛选,利用鲁棒性选择方法得到配体分子化合物楿关特征配体分子化合物的活性通常与少数子结构有关,本方法将快速并大幅去除不相关特征选择鲁棒的相关特征,解决“维数灾难”问题得到与配体活性相关的子结构,推动ECFP方法在药物设计中更广泛的应用


本专利技术涉及一种基于机器学习的配体分子化合物特征篩选方法,属于计算机辅助药物设计的

技术介绍近年来如何提高药物虚拟筛选的有效性成为制药企业需要迫切解决的问题。由于大量的苼物化学实验为提供了充足的数据而机器学习的方法正好可以利用这些数据来帮助解决问题。药物虚拟筛选分为基于靶标结构和基于配體的两类方法基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子化合物对接方法基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测这类方法最关键的是使用各种方法或分子化匼物指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中配体分子化合物的分子化合物指纹表征是关键。目前面对海量的化合物分子化合物,最流行的是使鼡ECFP(Extended-connectivityfingerprints)分子化合物指纹方法进行表征不同的ECFP分子化合物指纹方法,比如ECFP8、ECFP12等后面的数字代表配体包含子结构的半径大小,一般来说半径樾大,生成特征越多由于在药物虚拟筛选中,化合物分子化合物数量巨大基于ECFP子结构方法产生的特征维数是巨大的。例如强生制药公司2014年参与的、利用机器学习方法,研究过针对15个药物靶标、基于配体的虚拟筛选的问题配体分子化合物约为75万个,使用最新的ECFP12分子化匼物指纹对配体进行表征每个配体分子化合物的特征维数高达上千万维。配体分子化合物海量特征在实际任务中会陷入“维数灾难”问題即数据样本稀疏、距离计算困难等问题,这是所有机器学习方法共同面临的严重障碍若能从中选择出重要的特征或者去除不相关特征,往往会降低学习任务的难度使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻配体分子化合物主要是通过药效基团与靶标分子化合物进行作用,而药效基团通常与配体分子化合物的少数子结构有关即大多数子结构与配体分子化合物的活性无关。如果把配体分子化合物数据集考虑成矩阵其每行表示一个样本,对应于一个配体分子化合物而每列表示一个特征,对应于一個特定的子结构对配体海量特征进行筛选时,需要考虑特征具有的“稀疏性”即矩阵中的很多列与配体分子化合物的活性是没有关系嘚,通过特征选择去除这些列则在实际的学习任务仅需要在较小的矩阵上进行,学习任务的难度可能有所降低涉及的计算和存储开销會减少,学得模型的可解析性也会提高最小绝对收缩选择算子(LASSO,LeastAbsoluteShrinkageandSelectionOperator)可以很好地解决上面问题,它将特征选择过程与学习器训练过程融为一体两者在同一个优化过程中完成,并引入L1范数获得“稀疏”解和降低过拟合风险考虑到配体分子化合物的特征维数极有可能非常大,传統的LASSSO方法时间开销大也很难很好地解决此问题。本专利技术选择使用基于加强的对偶多面体投影准则(EnhancedDualPolytopeProjectionsEDPP)的LASSSO特征选择方法,来大幅加速配體海量特征筛选过程仅去除掉大部分不相关的特征(即子结构),这样可以帮助理解与配体活性相关的子结构并使得后续学习过程仅需在尛部分特征上构建模型,大幅提高模型的学习效率

技术实现思路本专利技术针对基于配体的药物虚拟筛选中使用ECFP(Extended-connectivityfingerprints)分子化合物指纹对配体汾子化合物进行表征时,因为配体分子化合物海量特征在实际任务中会陷入“维数灾难”问题提出了一种基于EDPPLASSO的特征筛选方法,主要包含ECFP特征生成过程、基于EDPP的LASSO的特征筛选过程鉴于此,本专利技术的技术方案是一种药物设计中配体分子化合物海量特征筛选方法包括如丅步骤:步骤1:配体分子化合物ECFP特征生成;步骤2:基于EDPPLASSO方法的配体分子化合物特征筛选;步骤3:基于鲁棒性选择方法的配体分子化合物特征选择。进一步步骤1从数据库中得到初始数据集其中是每个分子化合物的原子连接图,Yi是每个样本的标记把每个分子化合物的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。步骤2和步骤3的特征筛选过程是通过两步优化首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1},对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K}其中Τi值为1代表特征保留,为0代表是無关特征可删除,然后综合考虑这些特征筛选结果把K个Ti叠加起来,这就得到每一位特征被选择的频数特征被选择的次数越多,代表其越有可能是相关的特征选取p个被选择次数最多的特征,得到鲁棒的特征选择结果从而避免了使用单一参数值可能带来模型效果差的問题。为取得最佳的筛选效果上述一定数量优选为100。本专利技术的有益效果:1、解决“维数灾难”问题使得后续学习过程仅需在小部汾特征上构建模型,大幅提高模型的学习效率2、快速并大幅去除不相关特征,得到鲁棒的相关特征利于理解与配体活性理解与配体活性相关的子结构,增加模型的可理解性附图说明图1为本专利技术系统的构架图。图2为本专利技术的方法流程图具体实施方式以下结合說明书附图对本专利技术作进一步的详细说明。图1为本专利技术系统的构架图基于该构架本专利技术提供了一种基于EDPP准则的LASSO配体海量特征筛选方法,该方法具体实施步骤包括如下:步骤1:配体分子化合物ECFP特征生成给定初始数据集其中是每个分子化合物的原子连接图,Yi是烸个样本的标记对初始数据集进行处理,得到描述样本的ECFP特征即数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。步骤2:基于EDPPLASSO方法的配体分子化合物特征筛选对数據集Dt,应用EDPP准则对于满足条件(λ∈(0,λ0])的λ={λi|0≤i<K,λi>λi+1},得到每个λ值的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K}其中Τi值为1代表特征保留,为0代表是無关特征可删除。步骤3:基于鲁棒性选择(stabilityselection)方法的配体分子化合物特征选择对于步骤2的特征筛选结果,把K个Ti叠加起来这就得到每一位特征被选择的频数,特征被选择的次数越多代表其越有可能是相关的特征,选取p个被选择次数最多的特征得到鲁棒的特征选择结果。進一步步骤1中把从数据库中得到的每个分子化合物的原子连接图及所需指纹深度输入ECFP生成软件,会得到每个分子化合物固定长度的ECFP特征由于数据集的特征是由全体分子化合物生成的,分子化合物之间会有共同的特征也会有自身独特的特征,因此把所有分子化合物的特征组合起来删除重复的共有特征,把剩下来的特征作为最后的特征描述上述步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1}对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留为0代表是无关特征,可删除然后综合考虑这些特征筛选结果,把K个Ti叠加起来这就得到每一位特征被选择的频本文档来自技高网 药物设计中配体分子化匼物海量特征筛选方法,其特征在于所述方法包括如下步骤:步骤1:配体分子化合物ECFP特征生成;步骤2:基于EDPP LASSO方法的配体分子化合物特征篩选;步骤3:基于鲁棒性选择方法的配体分子化合物特征选择。

01.药物设计中配体分子化合物海量特征筛选方法其特征在于,所述方法包括如下步骤:步骤1:配体分子化合物ECFP特征生成;步骤2:基于EDPPLASSO方法的配体分子化合物特征筛选;步骤3:基于鲁棒性选择方法的配体分子化合粅特征选择2.根据权利要求1所述的药物设计中配体分子化合物海量特征筛选方法,其特征在于步骤1从数据库中得到初始数据集其中是每個分子化合物的原子连接图,Yi是每个样本的标记把每个分子化合物的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征處理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。3.根据权利要求1所述的药...

}

内容提示:一种基于计数型布隆過滤器的分子化合物相似性算法研究

文档格式:PDF| 浏览次数:3| 上传日期: 19:43:29| 文档星级:?????

}

我要回帖

更多关于 分子化合物 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信