先生,这次我见你,主要是有一篇论文想请你指正,我构建了一种计算机模拟的方法,来对蛋白质的定向进化进行模拟。
这种方法仅需要利用蛋白质物理化学的特征和序列信息,就能够实现蛋白质定向进化的模拟。
我选择的研究对象是蛋白质DHR8,通过计算机模拟,让它进化出有结合DNA或者RNA的能力。
在模拟进化之前,我先对序列多样性与结合核酸的情况,去构建了一个包含30个五肽重复蛋白的评估库。
五肽重复蛋白是经过证实的RNA结合蛋白,它的结合位点很清晰,已经被系统表征。
这样一来我评估库中的每一个PPR都会具备两个明确的结合位点,我们以每个结合位点为中心,将长度为13个氨基酸的短序列作为一个评估窗口,这样的话它一共会有60个评估窗口。
对于每一个评估窗口的短序列,我们利用现成数据库中的544个描述氨基酸的物理化学性质的指标来表示氨基酸,因此,每一个位点的氨基酸就会是一个544×1的矩阵,十三个这样的矩阵合并用以表示一个长度为13的肽段序列。
对于一个评估窗口的544×13矩阵,我对K-means++算法进行了优化,然后用优化后的算法进行聚类,将544个行向量聚类为50类,在可视化方面,每一类则代表一个波形,对于每一类,我们可以利用该类所包含矩阵子集的每一列算术平均值来产生该类的标志性波形。”
陈元光把打印好的论文递给莱维特之后,简单介绍了一下他的思路。
莱维特的重要工作方向中就包含蛋白质模拟,通过计算分析蛋白质序列去预测蛋白质结构,专注于同源建模。
陈元光写的论文和他的方向高度一致,而且体现的思想和算法的优化都有非常高的价值。
刚开始莱维特还有些不以为然,因为他知道对方还是大四学生,他觉得对方拿出来的论文不过是为了找话题写的论文,充其量是篇概括的不错的综述。
结果没想到一上来就放大招,无论是设计的计算规则,还是说对经典聚类算法K-means++的优化,都充满了思考。
“很棒的工作。”莱维特点评了一句后,和陈元光围绕论文中的一些细节问题进行讨论。
而郭伟则陷入了怀疑人生的状态,我是谁,我在哪?