1、数据预处理
• 应用wavelet平滑和基线处理
• 信噪比>=5
• 归一化方法:TIC(总离子流)
• 选用蛋白峰量化指标:峰强度
2、差异蛋白峰筛选
依据不同的分组,根据数据的实际情况,采用统计学方法(T test/ANOVA或者Wilcoxon test/Kruskal-Wallis test)筛选出差异显著的蛋白峰,并提供图形展示。
①3D样本展示图

②平均谱图展示

③平均值标准差图形

3、样品分布图
以统计差异最显著蛋白峰****Da(X轴)和****Da (Y轴)建立坐标系的样品分布图(坐标值代表相应蛋白丰度),展示A组与B组样品分布情况,从重叠区域情况评价这两个蛋白的分组能力。

4、疾病预测模型的构建
利用遗传算法,神经网络,快速分类等机器学习语言进行模型的构建,将部分数据用来构建分类模型,然后部分数据作为测试数据集(独立样本)来验证模型的准确性。
|
|
模型判断
为对照
|
模型判断
为疾病
|
|
对照(36)
|
36
|
0
|
|
疾病(37)
|
1
|
36
|
|