糖基化位点预测论文-杨雪梅

糖基化位点预测论文-杨雪梅

导读:本文包含了糖基化位点预测论文开题报告文献综述及选题提纲参考文献,主要关键词:蛋白质,糖基化位点,玻尔兹曼

糖基化位点预测论文文献综述

杨雪梅[1](2018)在《基于深度玻尔兹曼机的蛋白质O-糖基化位点的预测》一文中研究指出用深度学习(DL)的方法对蛋白质O-糖基化位点进行了预测。首先用SMOTE方法处理非平衡数据集,对较少一类的样本用"近亲繁殖"的方法产生新的样本,弥补"欠采样"或"过采样"造成的预测误差;然后用深度学习中的深度玻尔兹曼机神经网络(DBM)进行分类(预测),并用多数投票法对结果进行集成。实验结果表明,DBM是预测O-糖基化位点的行之有效的方法。(本文来源于《内江科技》期刊2018年12期)

杨雪梅[2](2018)在《基于改进PCA的蛋白质O-糖基化位点的预测》一文中研究指出提出了改进的主成分分析(IPCA)的方法,结合支持向量机(SVM)对蛋白质O-糖基化位点进行预测。IPCA克服了传统主成分分析(PCA)寻找全局主要成分的不足,对类内样本进行加权,在保护局部结构的前提下,消除了变量之间的相关性,提取出具有局部特征的主要成分。然后,在特征空间中用SVM进行分类(预测)。实验结果表明,IPCA+SVM方法是预测糖基化位点行之有效的方法。(本文来源于《价值工程》期刊2018年36期)

杨雪梅[3](2016)在《蛋白质糖基化位点的因子分析及KNN预测》一文中研究指出为了分析糖基化蛋白质序列的结构特点并提高蛋白质O-糖基化位点的预测准确率,首先用因子分析的方法得到了训练样本的公因子,进一步得到了训练样本的因子得分以及变换矩阵;对测试样本首先用变换矩阵进行变换得到测试样本的因子得分,用K-最近邻(KNN)方法对因子得分进行分类。实验样本用稀疏编码方式编码,窗口长度为21。实验结果表明,与直接用KNN对原始观测数据进行预测的方法相比,通过因子分析变换对因子得分进行预测的结果更好。(本文来源于《内江科技》期刊2016年09期)

向妍,陈渊,谭泗桥,袁哲明[4](2016)在《基于叁类特征融合的O-糖基化位点预测》一文中研究指出糖基化是蛋白质翻译后的主要修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题.以迄今最大的人O-糖基化位点Steentoft数据集为基础,本文首次提出了基于位置的卡方差表特征χ~2-pos,融合伪氨基酸序列进化信息Pse PSSM以及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票,独立测试准确率、Matthew相关系数及ROC曲线下面积,分别达到了89.62%、0.79、0.96,明显优于文献报道结果.χ~2-pos、Pse PSSM与Undirected-CKSAAP叁种特征的融合在蛋白质糖基化、磷酸化等位点预测中有广泛应用前景.(本文来源于《生物化学与生物物理进展》期刊2016年07期)

李富义[5](2016)在《人类蛋白质糖基化位点预测的数据挖掘技术研究》一文中研究指出蛋白质糖基化是真核细胞内的一种很重要的翻译后修饰类型,在调节蛋白质功能等生物过程中起着非常重要的作用,据统计人体中有超过一半的蛋白质具有糖基化现象。但是由于蛋白质糖基化的多样性、动态性,通过蛋白组学实验的方式确定糖基化位点比较耗时、费力,并且成本高昂,因此借助机器学习和数据挖掘的相关技术对蛋白质的序列和结构信息进行挖掘和分析,从而准确的从中识别出糖基化位点具有十分重要的意义。本论文以蛋白质糖基化位点的预测为研究对象,针对目前蛋白质糖基化预测研究存在的不足,通过机器学习和数据挖掘的技术,分别提出针对人类蛋白质序列数据和人类蛋白质结构数据的糖基化位点预测方法GlycoMine和GlycoMine~(Struct),以及正例未标注学习算法PAnDE用于蛋白质糖基化位点的预测。主要成果如下:(1)人类蛋白质序列糖基化位点预测方法GlycoMine。该方法搜集整理蛋白质序列糖基化数据集并进行去同源等数据预处理,计算并提取蛋白质功能特征、功能注释、序列模式特征和预测二级结构特征对样本向量化,并提出两步特征选择算法进行特征选择,结合随机森林算法得到最优特征子集并量化特征对于模型性能的贡献,同时构建最优的预测模型GlycoMine,通过与现有方法的对比实验和两个案例分析证明,GlycoMine对C-linked,N-linked和O-linked叁类蛋白质糖基化位点的预测性能均高于其他现有方法,AUC值平均提高10%左右,并开发了GlycoMine的在线预测软件平台。(2)人类蛋白质结构糖基化位点预测方法GlycoMine~(Struct)。该方法将GlycoMine的序列糖基化数据映射到蛋白质结构数据库PDB中得到对应的结构数据,进行预处理后计算并分别使用结构窗口和滑动窗口的方法提取蛋白质结构特征和序列特征,利用两步特征选择算法选择最优特征子集,并结合随机森林算法构建GlycoMine~(Struct)预测模型,通过对比实验和两个案例分析证明,蛋白质结构特征对于糖基化位点预测具有更重要的作用,相比于现有唯一的蛋白质结构糖基化位点预测工具NglycPred,GlycoMine~(Struct)具有更好的预测性能,平均AUC值提高了14.5%。在独立测试集上对N-linked和O-linked糖基化位点预测的AUC值分别达到了0.941和0.922,并开发了GlycoMine~(Struct)的在线预测软件平台。(3)正例未标注学习算法PAnDE。GlycoMine和GlycoMine~(Struct)以及现有的糖基化预测方法在选取负例样本时都具有一定的局限性。为了解决这一问题,本文依据完全随机选择假设,通过进一步弱化PNB和PAODE算法的条件独立性假设,提出正例未标注学习算法PAnDE,并使用该算法进行糖基化位点预测。在蛋白质序列糖基化数据集和蛋白质结构糖基化数据集,以及20个UCI数据集上的对比实验结果表明,由于进一步弱化了条件独立性假设,PAnDE算法比现有的PU学习算法PAODE算法和PNB算法具有更优异的分类性能。(本文来源于《西北农林科技大学》期刊2016-05-01)

杨雪梅,苏祯[6](2013)在《基于KPCA及SVM的蛋白质O-糖基化位点的预测》一文中研究指出为了提高蛋白质O-糖基化位点的预测准确率,提出了把核主成分分析(KPCA)与支持向量机(SVM)相结合的方法。实验样本用稀疏编码方式编码,窗口长度为21。首先,用核主成分分析提取了样本的核主成分(特征);然后,在特征空间中用改进的支持向量机(ISVM)进行分类(预测)。在使用支持向量机分类时,设置了一个边界系数αc来减少运算的复杂度。实验结果表明,使用KPCA+ISVM的方法预测的效果优于PCA+SVM的预测效果。预测准确率为87%。更进一步,用不同长度的样本做实验(w=5,7,9,11,21,31,41,51),使用多数投票法综合各子分类器的优势。结果表明,组合分类器的预测准确率优于子分类器的预测准确率,预测准确率为88%。(本文来源于《科学技术与工程》期刊2013年25期)

杨雪梅[7](2012)在《结合ICA和SVM进行蛋白质氧链糖基化位点的预测》一文中研究指出为了提高蛋白质氧链糖基化位点的预测准确率,提出了把独立成分分析和支持向量机相结合的方法。实验样本(蛋白质序列)用稀疏编码方式编码,窗口长度为w=21,对于训练样本和待测样本,首先用独立成分分析法(ICA)提取了120个独立成分(特征),把这些独立成分作为支持向量机的输入,在特征空间用支持向量机(SVM)进行预测(分类)。实验结果表明,ICA+SVM的方法比PCA+SVM和SVM的好。预测准确率为88%。更进一步,用同一个蛋白质序列在不同窗口长度下的样本做实验,结果表明,窗口长度越长,预测准确率越高。(本文来源于《计算机与数字工程》期刊2012年08期)

王楚正,谭晓风,陈延伟[8](2011)在《基于PCA和ICA的糖基化位点的预测和分析》一文中研究指出为了提高糖基化位点的识别率,提出主成分分析(PCA)和独立成分分析(ICA)相结合的新方法对O-糖基化位点进行预测和分析。以窗口长度为51的蛋白质序列为研究对象,采用稀疏编码方案,首先利用PCA算法对蛋白质序列进行去相关预处理,以降低原始蛋白质序列的维数。然后利用ICA算法进行训练,提取特征向量构建子空间。测试序列投影到每一类子空间,计算测试序列和每类子空间重构序列的距离,根据距离大小确定所属的类。实验表明,提出的新方法有较高的预测性能。(本文来源于《计算机与应用化学》期刊2011年05期)

王楚正,谭晓凤,陈延伟[9](2011)在《基于BP神经网络的O-糖基化位点的预测和模式分析》一文中研究指出糖基化是真核生物中最重要的蛋白质翻译后修饰过程之一,借助计算智能技术对糖基化位点进行预测和分析在蛋白质组学中具有十分重要的意义。对BP神经网络结构及其训练算法进行研究的基础上,提出了一种改进传统BP学习算法缺陷的动量梯度下降算法,运用改进的BP神经网络对O-糖基化位点进行预测和分析。实验表明特征向量的维数(蛋白质序列编码长度)是影响预测性能的最主要因素,当窗口大小在一定范围时有较好的预测效果。(本文来源于《制造业自动化》期刊2011年02期)

杨雪梅,李世鹏[10](2010)在《基于核Fisher判别分析的蛋白质氧链糖基化位点的预测》一文中研究指出以各种窗口长度的蛋白质样本序列为研究对象,实验样本用稀疏编码方式编码,使用核Fisher判别分析(KFDA)的方法来预测蛋白质氧链糖基化位点。首先通过非线性映射(由核函数隐含定义)将样本映射到特征空间,然后在特征空间中用Fisher判别分析进行分类。进一步,用多数投票策略对各种窗口下的分类器进行组合以综合多个窗口的优势。实验结果表明,使用组合KFDA的方法预测的效果优于FDA和PCA以及单个KFDA分类器的预测效果,预测准确率为86.5%。(本文来源于《计算机应用》期刊2010年11期)

糖基化位点预测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

提出了改进的主成分分析(IPCA)的方法,结合支持向量机(SVM)对蛋白质O-糖基化位点进行预测。IPCA克服了传统主成分分析(PCA)寻找全局主要成分的不足,对类内样本进行加权,在保护局部结构的前提下,消除了变量之间的相关性,提取出具有局部特征的主要成分。然后,在特征空间中用SVM进行分类(预测)。实验结果表明,IPCA+SVM方法是预测糖基化位点行之有效的方法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

糖基化位点预测论文参考文献

[1].杨雪梅.基于深度玻尔兹曼机的蛋白质O-糖基化位点的预测[J].内江科技.2018

[2].杨雪梅.基于改进PCA的蛋白质O-糖基化位点的预测[J].价值工程.2018

[3].杨雪梅.蛋白质糖基化位点的因子分析及KNN预测[J].内江科技.2016

[4].向妍,陈渊,谭泗桥,袁哲明.基于叁类特征融合的O-糖基化位点预测[J].生物化学与生物物理进展.2016

[5].李富义.人类蛋白质糖基化位点预测的数据挖掘技术研究[D].西北农林科技大学.2016

[6].杨雪梅,苏祯.基于KPCA及SVM的蛋白质O-糖基化位点的预测[J].科学技术与工程.2013

[7].杨雪梅.结合ICA和SVM进行蛋白质氧链糖基化位点的预测[J].计算机与数字工程.2012

[8].王楚正,谭晓风,陈延伟.基于PCA和ICA的糖基化位点的预测和分析[J].计算机与应用化学.2011

[9].王楚正,谭晓凤,陈延伟.基于BP神经网络的O-糖基化位点的预测和模式分析[J].制造业自动化.2011

[10].杨雪梅,李世鹏.基于核Fisher判别分析的蛋白质氧链糖基化位点的预测[J].计算机应用.2010

标签:;  ;  ;  

糖基化位点预测论文-杨雪梅
下载Doc文档

猜你喜欢