多组学科研分析

发布时间:2021-08-06  栏目:人工智能, 医学  评论:1 Comment

主要包含:
– 影像组学
– 基因组学
– 病理组学

基因组学(Geonomics)是一门研究基因组(Genome)的科学。
我们每个人都是由上万亿个细胞构成的,每个细胞中都包含一套完整的生命密码,也就是DNA,而基因组就是指一个细胞中包含的所有的DNA。我们的DNA分布于23对(46条)染色体(Chromosome)上,其中一半来自父亲,一半来自母亲。
基因组学的目的是对一个生物体所有基因进行集体表征和量化,并研究它们之间的相互关系及对生物体的影响。

使用多组学数据预测肿瘤的发生、转移或预后等临床结局,可对临床诊断提供参考。可选的多组学数据特征包括超声特征、临床病理特征、基因表达水平/基因型特征。文献调研表明,采用超声特征与基因表达特征联合诊断良性与恶性的甲状腺癌,在多个独立验证中,Accuracy达到77.8~88.6%,而单采用超声特征的模型Accuracy为74.6~84.3%,单采用基因表达特征的模型Accuracy为70.8~81.4%;采用临床病理特征与基因型特征联合预测乳腺癌患者的淋巴结转移,在外部验证中,模型AUC达到0.917,Accuracy达到0.826,而单采用临床病理特征的模型AUC为0.814,Accuracy为0.696。

一般的分析流程包括特征选择、机器学习模型训练、模型验证与评估这几个模块。

SNP(single nucleotide polymorphism),即单核苷酸多态性,是由于单个核苷酸改变而导致的核酸序列多态。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。SNP在人类基因组中的发生频率比较高,大约平均每1000个碱基中就有一个多态位点。有些SNP位点还会影响基因的功能,导致生物性状改变甚至致病。

多基因风险评分(polygenic risk score,PRS)

常用的R语言工具包:
https://topepo.github.io/caret/

R库WGCNA,其译为加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。

质控+过滤:
常规的质控和过滤数据是fastqc+trimmomatic,据说fastp更快,而且一次完成质控过滤和出图。
fastp的github:https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FOpenGene%2Ffastp
fastp的出版地址:https://links.jianshu.com/go?to=https%3A%2F%2Fdoi.org%2F10.1093%2Fbioinformatics%2Fbty560

FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,其官网为:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

NGS 原始数据过滤对后续分析至关重要,去除一些无用的序列也可以提高后续分析的准确率和效率。Trimmomatic 是一个功能强大的数据过滤软件。

Trimmomatic 发表的文章至今已被引用了 2810 次,是一个广受欢迎的 Illumina 平台数据过滤工具。其他平台的数据例如 Iron torrent ,PGM 测序数据可以用 fastx_toolkit 、NGSQC toolkit 来过滤。

Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。
更多Trimmomatic信息:
http://www.usadellab.org/cms/index.php?page=trimmomatic

数据处理:
Sentieon:https://www.insvast.com/sentieon

MutationalPatterns是一个bioconductor上的R包,可以用于肿瘤突变频谱的分析。

GATK:
https://github.com/broadinstitute/gatk/releases

SingleR包:https://bioconductor.org/packages/3.11/bioc/html/SingleR.html
SingleR是一个用于对单细胞RNA-seq测序(scRNA-seq)数据进行细胞类型自动注释的R包(Aran et al.2019)。它通过给定的具有已知类型标签的细胞样本作为参考数据集,对测试数据集中与参考集相似的细胞进行标记注释。

深度学习应用于基因组学:解密人类遗传密码
https://github.com/ThitherShore/DLforGenomics

大家对 “ 多组学科研分析 ” 发表过 1 次评论 Response

  1. Pika Says:

    给杨老师补充一点:现在国内很多组学的单因素研究,比如最近这两年比较出名的,南京医科大附院和GE影像研究院合作的那篇基于CT的影像组学甲状腺结节良恶性鉴别研究,灵敏度88%,诊断准确率91%,模型AUC 0.92。所以多因素联合模型的研究可以朝着更高的水平进发,嘿嘿

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai