上海阿趣生物科技有限公司

13

手机商铺

qrcode
商家活跃:
产品热度:
  • NaN
  • 0
  • 1
  • 0
  • 3
氨基酸代谢组学案例分析
¥600 - 800

上海阿趣生物科技有限公司

入驻年限:13

  • 联系人:

    官方电话

  • 所在地区:

    上海

  • 业务范围:

    技术服务、耗材、实验室仪器 / 设备

  • 经营模式:

    代理商 生产厂商

在线沟通

公司新闻/正文

干货连载 | SIMCA16 OPLS回归分析"一点通"

3320 人阅读发布时间:2021-01-15 15:57

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,它是一种预测性的建模技术。OPLS是一种多因变量对多自变量的回归建模方法,其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,从而模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显。

 

OPLS回归分析是功能代谢组学研究的重要工具,建立组学多元变量数据与功能、质量、等级等宏观数据,或时间、浓度等实验条件之间的关联,从而实现筛选重要变量、建立评价标准和考察工艺过程等目的。通过模型质量,反映数据组与目标参数相关程度;通过建立实际值与预测值的散点图,反映回归模型的预测能力;通过VIP值,S-Plot等变量分析工具,从众多变量中筛选出影响比较大的变量,作为后期优化、考察的对象;通过使用SIMCA中的预测功能,对预测集数据及新检测样品的目标值进行预测分析。功能如此强大,是不是迫不及待要练练手呢?!!!

 

首先我们来学习下在SIMCA16中OPLS回归分析如何操作吧!!!

 

本案例是为了找到病人的众多临床参数中与关注的临床指标的密切相关指标。该案例共收集了57名病人,在他们入院时对他们进行了测量,与健康有关的参数共计9项,测量的指标如下图所示。

新闻图片1

1.数据的导入和预处理

新闻图片2
新闻图片3
当样本中的缺失值过多时,样本本身就缺乏了统计学意义,并且极有可能成为异常样本点,因此本案例对缺失值大于50%的样本数据进行去除处理。
新闻图片4
新闻图片5
新闻图片6

2.创建模型

通过OPLS得分图和载荷图相结合的方式,对其进行解读可得到更多的信息。两者相结合可以看出哪些样本与Y变量相关性较强,哪些样本相关性较弱。
 

新闻图片7
新闻图片8

进行OPLS模型的构建首先需要设置Y变量。

新闻图片9
新闻图片10

Scale方式选择ctr或par有助于S-plot图形成S形这有利于数据的筛选。

新闻图片11
新闻图片12
新闻图片13
新闻图片14
得分散点图和DModx图可考察样本中是否有异常样本点,当样本点距离95%置信区间过远和远远大于红线时可以去除该样本。
新闻图片15

载荷图结合其柱形图可直观考察其他X变量和Y变量的相关性程度。

3.模型诊断

新闻图片16
新闻图片17
关于Y值和预测Y值的回归分析,可考察是否有异常样本点,以及模型的拟合程度。
新闻图片18

模型合格的最低标准R2>0.3,Q2>0.5。随着主成分个数增加,会逐渐出现过度拟合的现象。

4.关键参数筛选

对关键X变量进行筛选,主要有三种方式VIP值排序、Loading图 P值以及S-plot图。

新闻图片19
新闻图片20
新闻图片21
新闻图片22


接下来让我们看一看在文献中的常规的具体应用!!!

 

(1)常规数据分析

 

宏观数据或实验条件与代谢物数据之间的关联。对于功能、质量、等级等宏观数据或者时间、浓度等实验条件对于代谢物影响这类实验中,我们关注的是在不同自变量参数条件下有着显著变化的代谢物。OPLS-DA适用于两两之间的分析。可能这个时候,研究者不得不寻求其他的解决方案,比如说做ANOVA分析等。然而这些分析方法都是对代谢物进行逐一考察,缺乏整体层面上对代谢物重要性程度的考量,因此不能进一步告诉研究人员这些随自变量变化的代谢物中哪种代谢物更为关键。而OPLS回归分析,不仅适用于多个自变量参数设置这类场景,同时给出了代谢物的权重信息,因此可以筛选出不同自变量参数条件下最为重要的代谢物。

 

(2)数据挖掘

 

a.药效:从成分复杂的样本中寻找最关键的生物活性物质、快速解析物质功能;Mandrone Manuela等人[1]将胶原酶抑制活性设为参数Y,各种芳香族化合物设为变量X,通过OPLS回归分析中散点图,VIP值柱状图,寻找到了单宁类化合物是与胶原酶抑制活性最相关的物质。

新闻图片23
新闻图片24
 

b.质量评价:筛选出影响质量、感官等的关键代谢物,获得评级和优化的线索;Yujing Zhang等人[2]在文章中将抗氧化能力设为参数Y。并将24个样本作为训练集建立了抗氧化能力和代谢物的OPLS回归模型,又将7个样本作为验证集测试,发现回归模型具有较好的对抗氧化能力的预测能力。

新闻图片25
新闻图片26
新闻图片27


c.生产:分析不同产量、质量生产过程,明确关键生产条件和优化策略。Katsuaki Nitta等人[3]将丁醇产量设置为变量Y和 大肠杆菌内代谢物设置为变量X,并进行OPLS回归分析,其中乙酰辅酶A的回归系数最大,蛋氨酸的回归系数最小,然后基于这两种代谢物对大肠杆菌丁醇产量进行优化。
新闻图片28
d.临床诊断:分析发病过程中趋势性变化的代谢物,获得潜在的诊断标志物或治疗靶点;M. Kuboniwa等人[4]将临床参数PISA设置为变量Y,代谢物数据设置为X变量,并建立OPLS回归模型。通过VIP值和回归系数筛选到8种显著的差异代谢物。然后进一步通过ROC分析,确定5-氧代脯氨酸、组氨酸和尸胺为最优的诊断标志物。

新闻图片29
新闻图片30

新闻图片31
新闻图片32
 

今天SIMCA16关于OPLS回归分析小技能就分享到这里啦,OPLS回归分析对于功能相关的差异变量的筛选在食品、医疗、药物研发等领域的应用相当广泛,这里就不一一列举了。下期我们将进入分类分析PCA-Class的精彩世界,敬请期待。我们下期再见。

参考文献:

1. Mandrone, Manuela. Medicinal Plants from Ancient Tradition as a Source for Matrix Proteases Inhibitors. Study of Correlation between Biological Activity and Phytochemical Profile. Alma Mater Studiorum Università di Bologna.2016. DOI 10.6092/unibo/amsdottorato/7613.

2. Yujing Z , Chao W , Fangliang Y , et al. UHPLC-ESI-Q-TOF-MS/MS analysis, antioxidant activity combined fingerprints for quality consistency evaluation of compound liquorice tablets[J]. RSC Advances, 2018, 8(49):27661-27673.

3. Nitta K , Lavi A W A , Pontrelli S , et al. Orthogonal partial least squares /projections to latent structures regression-based metabolomics approach for identification of gene targets for improvement of 1-butanol production in Escherichia coli[J]. Journal of Bioscience & Bioengineering, 2017:S 13891 72317303079.

4. Kuboniwa M , Sakanaka A , Hashino E , et al. Prediction of Periodontal Inflammation via Metabolic Profiling of Saliva[J]. Journal of Dental Research, 2016:1381.

 

 

上一篇

文献分享 | 非靶代谢组学联合感官分析展现与感官品质相关的植物代谢特征

下一篇

干货连载 | SIMCA16全新火山图保姆级绘制教程!!!

更多资讯

我的询价