ENAC-43000和ENAC-43300区别

 上海达芯铝业经营铝合金,进口EN EN AC 43200铝板,进口EN EN AC 43200铝棒,进口EN EN AC 43200铝管,进口EN EN AC 43200六角铝棒,纯铝板名称符号牌号四位数字体系和四位字符体系牌号个数字表示铝及铝合金的类别其含义如下:

(1)1XXX系列工业纯铝;

(8)8XXX系列其它。

铝材的分类 : 铝制品分类: 轧延材 、 铸造材、 轧延材 、非热处理型合金、 纯铝合金 (1000 系列) 、铝锰合金 (3000 系列)、 铝矽合金 (4000 系列) 、铝镁合金 (5000 系列) 、热处理型合金、 铝铜镁合金 (2000 系列) 、铝镁硅合金 (6000 系列)、 铝锌镁合金 (7000 系列)、 铸造材、 非热处理型合金 、纯铝合金 、铝硅合金

鹏达金属生产铝材牌号主要有:


鉯上型号铝棒(管.排.线.带.板.六角铝棒.角铝)鹏达金属有限公司

鹏达金属有限公司 经营进口铝材 国标铝材 西南铝业,东轻铝业,山西关铝,经销鋁板铝棒牌号合金铝板,纯铝板,铸造铝合金超硬铝,锻铝硬铝,防锈铝工业纯铝创瑞经营多种“铝板”“铝棒”“铝管”,竭诚为您提供的的售前、售中和售后服务提供“铝板”“铝棒”“铝管”技术咨询等服务。有:


铝板/铝棒/铝排/铝线/铝管/铝带规格价格优廉,鈳提供原厂金属SGS环保报告,金属质量证明书龙兴金属特别规格可以根据客户要求定做,欢迎新老客户来电咨询!

N4-甲基胞嘧啶(4mC)修饰代表一种新型的表观遗传调控它涉及各种细胞过程,包括DNA复制细胞周期和基因表达等。除了对4mC位点的实验鉴定外在基因组中对计算机中4mC位点的計算机预测已成为一种替代且有希望的方法。系统地评估了八种常规机器学习算法的预测能力以及先前在六个物种中常用的12种特征类型使用代表性的基准数据集,研究了特征选择和堆叠方法对模型构建的贡献发现特征优化和适当的强化学习可以改善性能。收集了六个物種基因组中新添加的4mC位点并开发了一种新型的基于深度学习的4mC位点预测因子,即Deep4mC Deep4mC应用具有四个代表性特征的卷积神经网络,对于样本數量较少的物种使用自举方法扩展了深度学习框架。结果表明Deep4mC可以在所有物种中的曲线下平均面积(AUC)值大于0.9的情况下获得较高的精度囷鲁棒的性能相比之下,与这六个物种中的先前工具相比Deep4mC的AUC值从10.14%提高到46.21%。建立了一个用户友好的Web服务器(https://bioinfo.uth.edu/Deep4mC)用于预测基因组中假定的4mC位点。

  • 对DNA N4-甲基胞嘧啶(4mC)位置预测的现有工具进行了全面评估特别是在特征工程和分类算法构建方面。
  • 两步特征选择策略和堆栈框架可以增强特征表示并有助于提高4mC站点预测的性能。
  • 开发了一种新型的基于深度学习的4mC站点预测器即Deep4mC,其中集成了具有注意力机制嘚卷积神经网络

基因组测序技术的飞速发展使得高分辨率检测DNA化学修饰的功能性影响成为可能通过DNA甲基转移酶催化,甲基碱基修饰例洳N4-甲基胞嘧啶(4mC),5-甲基胞嘧啶(5mC)和N6甲基腺嘌呤(6mA)在不同物种的基因组中占DNA修饰的很大一部分。表观遗传修饰极大地扩展了各种生粅学过程中基因组组织和调控的多样性在真核基因组中,DNA 5mC修饰已被广泛探索以证明5mC的动态调节在调节染色质结构和基因表达中起着关鍵作用。尽管以前主要将6mA修饰视为原核生物的修饰但最近的研究也揭示了6mA修饰在真核生物基因组中的分布和调控功能。除了5mC和6mA的DNA修饰外据报道4mC是有效的表观遗传修饰,可保护其自身DNA不受限制性酶介导的降解作用通过在DNA的胞嘧啶第4位添加一个甲基,4mC修饰在DNA复制细胞周期和基因表达水平的调节中起着重要作用,并参与基因组的稳定重组和进化。到目前为止对4mC修饰的识别和对它的作用的理解仍然受到限制,尤其是在实验产生的数据非常有限的情况下因此,强烈需要开发一种能够有效识别或预测基因组中4mC位点的方法
已经开发了几种鼡于鉴定4mC位点的实验方法。在2010年第三代测序的主流平台,单分子实时测序(SMRT)成为一种流行的方法具有长读测序和检测DNA修饰的优势。此后SMRT已被广泛应用于从多个细菌基因组中未知DNA序列中检测到的4mC位点。后来Yu等人引言了一种称为4mC-Tet辅助亚硫酸氢盐测序的下一代测序方法,可以快速经济高效地检测细菌物种中的全基因组4mC基因座。 Rathi等人应用转录激活因子样效应子方法揭示了DNA序列中的4mC位点随着实验性4mC研究數量的增加,已知4mC站点的收集和整合逐渐成为共享和挖掘这些数据的重要研究课题 Ye等人根据公开的156种SMRT测序数据集,开发了MethSMRT数据库MethSMRT是第┅个承载DNA 6mA和4mC甲基基因组的资源。后来建立了DNAmod数据库来注释所有经过修饰的修饰DNA碱基(包括4mC)的化学性质和结构,这使研究人员能够检查鉯前的研究和鉴定方法最近,Liu等人使用SMRT测序数据集发布了MDR数据库用于为蔷薇科家族管理DNA 6mA和4mC修饰。
虽然这些高质量的数据集尽管仍然有限但为通过计算方法识别DNA序列中潜在的4mC位点提供了机会,类似于CpG甲基化和6mA修饰的预测作者首先总结了4mC站点计算预测的当前进展,并在此基础上开发了一种新型的基于深度学习的特定于物种的4mC站点预测器,即Deep4mC

工作包括三个部分(图1):(i)从六个生物中编译出两个4mC站點基准数据集; (ii)使用12种类型的序列和理化性质特征(参见下文)将基准数据中的DNA序列转换为数学向量,然后评估这些特征多种机器學习算法和两种模型构建方法;(iii)通过具有注意机制的深层CNN开发Deep4mC。

为了促进公平比较并建立强大的预测模型从六个物种(包括拟南芥,秀丽隐杆线虫黑腹果蝇(melanogaster),大肠杆菌皮克宁氏菌(pickeringii)和(subterraneus)汇编了两个4mC站点的基准数据集。基准数据1首先由Chen等人处理从MethSMRT数据库Φ获得,该数据库包含6163种通过实验鉴定的4mC位点:六个物种:拟南芥中1978个线虫中1554个,黑腹果蝇中的1769个大肠杆菌中388个,Pickeringii中569个subterraneus中的905个。该數据集已在当前可用的预测工具中广泛使用并经过预处理以去除具有高度相似性的序列。从MethSMRT数据库中重新收集了相同六个物种的基准数據2每个4mC位点由一个41个碱基对(bp)的DNA片段表示,分别在4mC位点的上游和下游具有20碱基对(bp)的侧翼区域作者遵循Chen等人的方法执行了两个严格的过滤程序,以确保基准数据集的可靠性首先,根据甲基化组分析技术说明要求所有4mC位点的修饰置信度得分(QV)为30或更高。其次排除了序列相似性超过其他70%的4mC位点。使用CDHIT软件计算相似度得分经过这些质量检查步骤后,获得了具有实验意义的非冗余数据集具有285851個4mC站点。阳性数据集中的拟南芥、秀丽线虫黑色素瘤、大肠杆菌、Pickeringii和地下G.subnerneus中m4C位点的数量分别为111927、60662、90333、2067、5727和15135对于具有超过50000 4mC位点的三个物种(拟南芥,秀丽隐杆线虫和黑腹果蝇)随机选择与阳性样品(Ps)数量相同的阴性样本(Ns)来构建平衡数据集。值得注意的是SMRT测序技术未检测到N。对于其余的物种随机选择的阴性样本(Ns)是阳性样品(Ps)数量的五倍。在每个物种中已编译的数据集分为训练数据集(占總样本的90%)和独立数据集(占总样本的10%)。这些收集和处理的基准数据集可以从下载

根据序列和理化特性设计和测试了总共12种类型嘚特征。

累积核苷酸频率(ANF)特征编码系统表示核苷酸密度和DNA片段中每个核苷酸的分布首先定义DNA 4mC序列,即DCS(mn),以代表每个4mC片段其Φ胞嘧啶上游有m个核苷酸,下游有n个核苷酸在本文的情况下,每个4mC段都表示为DCS(2020)。根据以下公式计算DCS(2020)中每个位置的密度:
其Φnj代表第j个位置的核苷酸,q∈{AC,GT}。以“ CACAGTCG”的序列为例当l=3时,第l个位置的核苷酸为C该位置的密度计算为:
可以类似地计算所有41个位置的密度。

二进制提供DNA片段中核苷酸的位置特异性组成例如DCS(20,20)每个核苷酸由一个四位数的二进制向量编码。对于DCS(2020),长度为164嘚数字矢量编码为:

K间隔核酸对(CKSNAP)特征的组成表示在DCS(2020)片段中彼此相距K步的核苷酸对的组成。作者使用K = 01,23,45。在计算之后計算了两个核苷酸分别位于i和i + K + 1位置的核苷酸对的频率,其中i = 1…,(l ? K ? 1)和l = 41例如,K=4步远的核苷酸CG代表以下情况:ACGTACGTACGT其中C位于第2的位置,G位于第7位因为与K无关,人类基因组中共有16个可能的核苷酸对(即“ AA”“ AC”,“ AG”“ AT”,“ CA”“ CC”,“ CT”“ CG” ,“ GA”“ GC”,“ GG”“ GT”,“ TA”“ TC”,“ TG”和“ TT”)因此我们针对K = 0,1 2、3、4和5,以及来自CKSNAP编码的总共16×6 = 96个特征例如,对于K = 0如下计算特征向量:

Nair等人计算出核苷酸中离域电子的能量为EIIP。将四个EIIP值设置为A:0.1260C:0.1340,G:0.0806和T:0.1335 EIIP编码直接使用代表DNA序列中核苷酸的EIIP值。因此每个DCS(20,20)i的特征在于41维数字矢量为:

核酸组成(NAC)反映了4mC位点周围序列片段的核苷酸频率在这项研究中,NAC特征编码表示DCS中每种类型核苷酸的频率(20、20)四个天然核苷酸(“ A”,“ C”“ G”和“ T”)的频率可以计算为:
其中N(i)表示核苷酸类型的数目,N表示DCS的长度(2020)。

二核苷酸组成(DNC)特征编码表示DCS(20、20)中连续二核苷酸对的组成 DNC功能编码中有16个描述符,它们可以定义为:
其中Nij表示由核苷酸类型i和j表示的二核苷酸的數目

三核苷酸组成(TNC)特征编码[29,30]表示DCS(2020)中连续三核苷酸对的组成组成。 TNC功能编码中有64个描述符例如(“ AAA”,“ AAC”“ AAG”,“ AAT”…,“ TTT”)64可以将其定义为:
其中Nijk由核苷酸类型i,j和k表示的三核苷酸的数目

增强的核酸组成(ENAC)编码基于固定长度的序列窗口(在此研究中窗口大小设置为5)计算连续NAC,该序列从5’端连续滑动到3’端每个核苷酸序列,通常可用于编码相等长度的核苷酸序列 ENAC编码的維数由两个参数确定,包括序列长度和滑动窗口大小可以计算为(序列长度-窗口大小+ 1)×4。因此DCS(20,20)对应于4×(41-5 + 1)滑动窗口其EAAC编碼的矢量尺寸为4×37 其中N为窗口大小,n等于序列长度-窗口大小+ 1

Kmer编码计算出DCS(20,20)中k个相邻核苷酸的出现频率通常用于增强子识别和调控序列预测领域(2)。 Kmer(k = 4)描述符可以定义为:
其中Ni类型ID的数目表示DCS的长度(2020)。

反向互补Kmer(RCKmer)编码是Kmer描述符的一种变体它计算DCS(20,20)Φ反向互补k邻近核苷酸的出现频率例如,有16种类型的2聚体(即“AA”“AC”,“AG”“AT”,“CA”“CC”,“ CT”“CG”,“GA”“GC”,“GG”“GT”,“TA”“TC”,“TG”和“TT”)其中,“ TT”是对“ AA”的反向称赞因此,RCKmer方法中只有10种类型的2聚体(即“ AA”“ AC”,“ AG”“ AT”,“ CA”“ CC”,“ CG”“ GA”,“ GC’和’TA’)即可删除反向互补的Kmers。

DNA序列中有四种不同类型的核苷酸每种核苷酸具有不同的化学结构和结匼特性,而根据化学特性所有类型的核苷酸可分为三大类:
结合这些化学特征,以下等式用于表示DNA序列中的第i个核苷酸:
根据化学性质'A’可以编码为(1,11),'C’可以编码为(01,0)'G’可以编码为(1,00),'T’可以编码为(0 0、1)。

伪二核苷酸组成(PseDNC)特征编码可以將局部序列顺序和全局序列顺序信息覆盖到DCS(2020)的特征向量中。 PseDNC编码定义如下:
其中fk(k = 12,…16)反映了DCS(20,20)中二核苷酸的归一化出現频率λ代表沿着DCS(20,20)的相关性的最高计数等级w (0-1)是权重因子,θj(j = 12,…λ)是j层相关因子,定义如下:
其中μ表示理化指标的数目。这项工作考虑了六个物理化学指标,包括上升,滚动,移动,滑动,倾斜和扭曲。 Cu(RiRi+1)是二核苷酸RiRi+1在位置i的第u个理化指标的数徝Cu(RjRj+1)表示二核苷酸RjRj+1在位置j的对应值。

5.2 通过递归特征消除的两步特征选择策略

特征选择是消除噪声特征并提高性能的关键步骤在这项研究中,作者执行了两步特征选择过程以识别最突出的特征向量在第一步中,进行了统计测试(用于定量??特征的t检验和用于分类特征的卡方检验)以识别与目标标签相关联的特征。因此该过程生成了特征等级的索引,以指示其分类重要性在第二步中,采用递归特征消除方法通过每个循环递归消除少量最弱特征来确定最佳特征表示更具体地说,为了确定最佳组每次将排名指数从较低等级到较高等级的批次(批次大小= 10)消除,其中重要性最低的特征将被逐渐修剪选择其余功能可在10倍CV上反复重建基于SVM的预测模型。最后以AUC值衡量的具有最佳性能的特征子集被选作构建预测模型的最佳特征子集。

5.3 堆叠框架的开发

堆栈框架从对八种经典机器学习算法的全面评估开始然后是将来自每个分类器的预测进行集成的整体方法。八个分类器包括AdaBoost(AB)决策树(DT),梯度提升(GB)K近邻(KNN),逻辑回归(LR)隨机森林(RF),随机梯度下降(SGD)和支持向量机(SVM)作者使用12种类型的特征训练了每种分类算法,并根据10倍CV计算了AUC值以评估性能重复此过程10次,以确保结果的可靠性此外,对于每种分类算法使用scikit-learn v0.21.3的RandomizedSearchCV进行超参数优化,以获得最佳模型作者为每种测试算法获得了每种粅种的最佳特征子集。获得了六个测试算法的预测模型包括AB,GBLR,RFSGD和SVM,而KNN和DT这两个算法由于性能相对较差而从进一步的分析中删除
茬第二部分中,作者实现了一个堆栈框架以改进模型的构建。这六种算法的输出(即预测的概率)被视为经过五轮学习的这些机器学习算法的输入选择具有最佳性能(AUC值)的模型作为最终预测模型。计算了灵敏度(Sn)特异性(Sp)和马修斯相关系数(MCC)的三个测量值,鉯评估预测性能定义了三个测量值,如下所示:
进行了4倍6倍,8倍和10倍CV这项研究还计算了接收器的工作特性iiik曲线(ROC)和AUC值。

近年来莋为一种前沿技术,深度学习已广泛用于许多应用中例如自然语言处理,图像识别和许多生物信息学研究深度学习的框架基本上是由哆个非线性层组成的人工神经网络。在生物信息学领域基于深度学习的方法,包括CNN已成功地用于预测蛋白质的磷酸化位点,RNA修饰位点囷病毒整合位点 CNN通常包含多个部分,包括输入层卷积层,完全连接层和输出层在这项工作中,我们设计了带有输入层几个卷积层,注意层和输出层的模型我们使用整流线性单位(ReLU)作为激活函数:
其中x表示神经元的加权和。
具体来说输入层接受带有标签和代表性特征的训练数据集,并采用卷积层进行特征提取和表示注意层被包括在内,以捕捉DCS的潜在重要性(2020)。注意层将最后一个卷积层的特征表示作为输入并计算出分数,表明神经网络是否应更多关注该位置处的特征随后,将由卷积层捕获的特征向量和注意力得分进行積分并将其输入到LR分类器中,以获取表示4mC站点概率的输出得分可以将其定义如下:
其中y表示从卷积特征向量和注意力得分的组合中得絀的S形节点的输入。预测得分在0到1之间代表DCS(20,20)成为4mC站点的可能性
对于具有不平衡的Ps和Ns的物种,作者通过自举方法扩展了我们的体系结构首先,从基准数据集中选择相同数量的Ps和Ns以基于此平衡数据集构建一个模型。为了充分训练所有Ns将根据PS将所有Ns划分为t个区间。执行自举迭代(t = 5)生成一个分类器重复该过程五次以产生五个分类器。当预测一个查询站点的4mC时五个分类器计算的平均输出将作为朂终预测。

6.1 对4mC DNA站点的计算机模拟:当前进展

列举了当前4mC位点的计算鉴定的方法当前方法已经采用了序列和理化特性的多种特征以及分类算法。然而目前尚不清楚在不同物种中哪些功能最有用,哪些机器学习算法最突出因此,非常需要对特征贡献以及不同分类器对不同特征的预测能力进行系统分析这样的研究将为将来的DNA 4mC位点的生物信息学研究提供实用指南。

6.2 基于多种机器学习算法的12个特征的成对评估

為了评估单个特征对4mC位点预测的贡献首先对不同物种中的4mC修饰位点进行了序列偏好分析。在不同物种的4mC修饰的序列模式中发现了很大的差异然后,对12个功能部件进行编码包括九个基于序列的功能部件(ANF,二进制CKSNAP,DNCENAC,KmerNAC ,TNC和RCKmer)以及三种基于物理化学性质的特征(EIIPNCP囷PseDNC)。使用八种分类算法(即SVMRF,LRAB,SGDDT,KNN和GB)成对评估所有功能尽管不同特征的性能因不同物种的分类器而异,但对不同特征的研究結果表明所有AUC值均大于0.5,这表明所有序列和理化特征对于4mC位点的预测都是有效的和有益的
此外,还研究了八种分类算法的预测能力(圖2)根据结果,SVM代表最强大的分类器在不同物种的12种特征中,平均AUC值为0.7662其他算法(即LR,SGDRF和GB)也表现良好,平均AUC值分别为0.7582、0.7578、0.7570和0.7531洏KNN和DT算法表现最差。此外每种分类算法的单个特征的AUC值都是基于10倍CV进行计算和说明的(图2)。结果表明在拟南芥中,NCP二进制,ENAC和EIIP编碼在多种分类算法中均具有较高的性能秀丽线虫黑色素瘤,大肠埃希氏菌和地下亚种平均AUC值分别为0.8445、0.8421、0.8035和0.7922。其他功能(例如TNCCKSNAP,RCKmerKmer,PseDNC囷DNC)的性能竞争力较弱平均AUC值介于0.6746(NAC)至0.7360(TNC)之间。在这五个物种中ANF编码的平均AUC值最低(0.5968)。对于Pickeringii除ANF外,所有功能在多种分类算法Φ均表现良好综上所述,作者的结果表明12种类型的序列和理化特征都具有信息意义,而SVM是4mC站点预测最强大的分类算法

6.3 两步特征选择筞略有助于提高性能

不同的特征不平等地影响了模型性能,从而导致机器学习中不可避免地要进行特征优化为此,作者通过4mC的递归特征消除方法执行了两步特征选择对于每个物种的预测对于每个特征向量,作者计算了卡方统计量以评估其与目标标签的关联然后,通过減少卡方值对所有特征进行排名依次修剪排名较低端的特征。
图3显示了10倍CV的AUC值随特征选择轮而变化的情况最佳性能由每条曲线中的红點突出显示。每个物种的最佳特征数分别为拟南芥中的313个秀丽隐杆线虫的253个,黑腹果蝇的313个大肠埃希氏菌的6个,大肠杆菌中的153个地丅G的233个。作者发现了所有物种的特征优化的共同趋势即模型的性能在开始时就急剧增加,达到性能的最高点然后逐渐降低。这些结果表明递归特征消除策略可以有效地提高性能更具体地说,以大肠杆菌为例使用t分布的随机邻居嵌入方法探索数据分布。如图3所示与使用所有特征的分布(图3G)相比,在特征选择后(图3H)可以更好地区分正(4mC位置)和负(非4mC位置)数据点。通过执行递归特征消除过程特征空间趋于相对稳定,其中特征空间中的Ps和Ns之间的区别更加清晰

6.4 堆叠策略提升了性能

在堆叠框架中,仅考虑了6种机器学习算法即RF,LRAB,GBSGD和SVM,因为它们对12种特征编码具有高性能而KNN和DT的分类器则被丢弃。基于最佳特征组将从六个模型输出的预测概率视为第二个特征向量,并再次输入到六个不同的分类器中以开发其对应的五轮堆叠模型。选择性能最佳(AUC值)的模型作为构建Deep4mC的最终预测模型
与原始模型相比,作者发现除了在大肠杆菌中使用SVM分类器之外堆叠模型还可以改善性能(图4)。特别是对于RF分类器堆叠模型使AUC值提高了3–7%。对于SVM分类器性能改进不如RF大,但对最终模型的构建也有一定贡献
在堆叠框架中,模型的性能并不总是随着学习次数的增加而增加作者发现,尽管不断优化模型的参数(因为要素输入不同)但大多数堆叠模型都是第二次达到峰值,然后逐渐下降此外,作者通过SVM算法对单个特征进行单独训练比较了堆叠模型并观察到堆栈模型提高了这些物种中所有基准数据集的预测性能(图5)。综上所述与最佳基准模型相比,堆栈模型提高了性能表明堆栈策略可以结合多个预测变量的优势,从而提高性能

在上述审查和评估的基础上,作者開发了一种新的基于深度学习的DNA 4mC站点预测因子即Deep4mC,它具有注意力机制从序列档案编码的四个代表性特征(包括二进制,ENACEIIP和NCP)被用作輸入。然后跟随两个没有池化功能的卷积层以执行特征提取和表示。添加了一个注意层以连接最后的卷积层和输出层使用Hyperas软件包,使鼡树结构的Parzen估计器方法对每种物种的Deep4mC超参数进行了优化具体来说,使用单独的训练和验证集执行了100次评估补充表6中显示了跨不同物种嘚最佳参数。
为了评估Deep4mC的准确性和鲁棒性作者对每种物种的训练数据集进行了4倍,6倍8倍和10倍CV(图6),发现Deep4mC达到了高性能:所有六个物種的多个CV的平均AUC值均大于0.9范围为0.9005至0.9722(图6)。对于大肠杆菌CV的4倍,6倍8倍和10倍的AUC值分别为0.9736、0.9728、0.9697和0.9726。此外秀丽隐杆线虫中多个CV的平均AUC值為0.9526,n倍CV在黑腹果蝇(0.9468)皮克灵芝(0.9235)和地下茶(0.9285)中也产生了相似的结果。 Deep4mC的不同CV结果高度一致表明其前景看好准确性和强大的计算模型。
为了进一步展示Deep4mC的优越性我们使用独立的数据集将Deep4mC与先前报道的4mC站点预测变量进行了比较。最近已报道了两种新颖的预测因子,包括4mcPred-IFL [52]和Meta-4mCpred [53]其性能优于其他工具。但是无法访问4mcPredIFL的Web服务器。因此我们仅将Deep4mC与Meta-4mCpred进行了比较。我们将独立数据集提交给Meta-4mCpred的在线服务并下載了它们的预测结果。然后我们将Meta-4mCpred输出与我们的Deep4mC进行了比较,两者均基于相同的数据如图6G和H所示,与Meta-6mCpred对这6个物种的结果相比Deep4mC的AUC值从10.14(大肠杆菌)大幅度提高到46.21%(地下亚种)。更重要的是使用每个物种中的独立数据集,我们计算了Sp(请参阅材料和方法)以调查假阳性问题我们发现,与每种物种中的Meta-4mCpred相比Deep4mC的Sp值较高(表明假阳性率较低)(图6I)。如上所述比较证明了Deep4mC的鲁棒性和优越性。

在这项研究中作者首先对用于预测DNA 4mC修饰位点的最新计算工具进行了全面评估。基于广泛用于所有先前工具的基准数据集编码了12个特征,包括9个基于序列的特征和3个基于理化性质的特征为了评估各个特征的贡献和各种机器学习算法的预测能力,所有特征均由八种分类算法中的每┅种进行评估并且使用10倍CV计算AUC值。结果表明序列和理化特征对于4mC位点的预测都是有效和有益的,并且NCP二进制,ENAC和EIIP这四个特征编码在這些物种的多种分类算法中均具有较高的性能对于分类算法,SVM可以在各种物种的12种特征中显示最强大的分类器其次是LR,SGDRF和AB。多个要素包含大量尺寸但是对于模型性能而言,它们并不是同等重要的因此,作者还探讨了两步特征选择方法是否可以提高模型准确性实驗结果表明,递归特征消除有助于特征表示并有效提高了性能。根据每个物种的最佳特征子集进一步引入了一个堆栈框架,该框架结匼了来自六种先进的机器学习算法的预测概率作为新的特征向量来训练新模型。结果表明该堆叠策略可以结合多个预测变量的强度,從而提高性能
除了上述审查和调查外,作者还收集了六个物种基因组中大量新增的4mC位点并开发了一种新颖的在线工具Deep4mC,用于识别不同基因组中的4mC位点多重CV和与先前工具的比较结果证明了Deep4mC的强大功能和优越性。为了更好地服务于更广泛的生物医学研究社区已实现了Deep4mC的茬线Web服务器,并可从免费访问为了将来对DNA 4mC位点进行预测,应保留包括Deep4mC在内的当前可用工具以促进研究。此外将不断收集新物种中新發现的DNA 4mC位点,以构建新颖的计算模型以更好地预测和验证计算方法。然而由于较少的实验研究,目前的预测方法仍然存在局限性仅栲虑序列信息和化学性质。当这些4mC位点的数据可用时应考虑更多信息,例如结构信息和基因表达信息尽管已经鉴定出稳定的DNA 4mC位点流,泹是大多数这些位点及其底物的生物学或调控功能仍然未知因此,将计算预测和实验验证相结合将为未来4mC角色的功能研究提供更多有见哋的线索

我要回帖

 

随机推荐