专业提示:使用机器学习分析蛋白质结构,将它们分类为凝胶化和乳化的强候选者。

识别新型蛋白质凝胶剂和乳化剂是一项耗时的任务。即使是最优秀的研究人员也需要数周的时间来进行比较蛋白质所需的实验,而且由于几乎无限的蛋白质来源,应该使用工具来确定最佳的候选蛋白质。

在之前的专业技巧中,我们讨论了构建生物信息学模型,并建议它们可以自动扫描特征,包括影响凝胶和乳化的表面疏水性和氢键。

在这篇文章中,我们提出了不同的机器学习算法,用于根据生物信息学信息选择最佳的蛋白质进行乳化和凝胶化。这可以帮助你的团队识别潜在的鸡蛋替代品,或其他功能成分,用更少的实验时间。

生物信息学模型包含大量的信息。因此,一旦提取了所有重要的特征,如氨基酸组成、表面特征和二级结构,就很难识别凝胶和乳液的有用特征。

通过在.csv文件中组织提取的数据,可以实现Python的Scikit-learn来快速查找关键变量。随机森林回归机器学习算法是找到与凝胶和乳化相关的变量的最快和最简单的算法之一。在蛋白质模型中识别出这些特征后,可以使用分类器将它们划分为不同功能的候选。

有许多流行的分类器,包括随机森林,判别分析和人工神经网络。这些技术都可以应用于Scikit,根据蛋白质的相似属性将其分为不同的类别。

例如,如果目标是复制卵清蛋白(鸡蛋中约55%的蛋白质)形成的凝胶,在蛋白质数据集中发现类似的结构可能表明类似的凝胶机制。

然而,也有可能根据凝胶中基本的生物信息学特征进行分类,如随机森林模型中所确定的那样。通过这种方式分组,可以快速识别出最好的成胶剂。

在我们的工作中,我们发现,通过根据蛋白质的疏水性、正负氨基酸的比例和分子量对蛋白质进行分组,这是预测蛋白质形成的乳剂强度的一个很好的起点。

哈里森·赫尔米克(Harrison Helmick)是普渡大学的博士生。连接上LinkedIn看看他的其他烘焙技巧BakeSci.com

他的研究得到了约瑟夫Kokini安德里亚Liceaga,阿伦Bhunia