分享一个鉴定同源lncRNA基因的方法

您是不是想找：物种起源物种战争2内购破解版下载物种战争物种战争2启示录物种英语物种起源漫画完整免费观看物种生态位不包括哪一种物种丰富度是指什么?物种起源作者物种是什么意思

文章链接为：《Computational prediction and experimental
validation identify functionally conserved
lncRNAs from zebrafish to human》

Github：https://github.com/huangwenze/lncHOME_analysis/tree/main

1. 从转录本数据鉴定出lncRNA的注释

对于小鼠和人的数据， human：(GENCODE v25) 和 mouse：(GENCODE vM10)。剩下的6个脊椎动物 cow, opossum, chicken, lizard, frog and zebrafish 则是在NCBI上下载转录组序列，进行转录本组装，鉴定lncRNA，鉴定的步骤为：

利用 FastQC 生成质量报告。
利用 Trimmomatic 过滤低质量的reads
利用STAR 的 TwoPass Mode （参数为 --sjdbFileChrStartEnd）将reads进行mapping并生成 bam 文件
利用 StringTie 进行转录本组装，用 Cufflink 进行注释文件的 merge
选择 length (≥200 nt), expression level (FPKM > 0.5) and protein-coding potential (CPAT v3.0.0 (ref. 32), CPAT score >0.5)length (≥200 nt), expression level (FPKM > 0.5) and protein-coding potential (CPAT v3.0.0, CPAT score >0.5) 的基因定义为 lncRNA

最后，作者从Ensembl, NCBI, NONCODE, DeepBase and the Ulitsky laboratory 这几个数据库中下载对应物种的lncRNA注释，然后和上面鉴定出来的lncRNA注释merge到一起，组成 final lncRNA 的注释

2. 选择序列相似性高的lncRNA序列对

对于两个序列的protein-coding 和 lncRNA 序列，作者利用序列相似性来初步判断它们是否同源（BLAST v2.12.0 bl2seq ，E value < 10−4, hit length >50 nt，overall sequence identity >50%)

并且定义两个物种基因数量保守的相似性为：

其中：x 为物种 1 中 protein-coding （或者 lncRNA）genes的数量；y为物种 2 中 protein-coding （或者 lncRNA）genes的数量；n 代表两个物种共有的 protein-coding （或者 lncRNA）genes的数量

3. 由protein-coding gene 的同源性预测 lncRNA基因的同源性

作者从 OrthoDB 中下载对应物种的protein-coding gene的信息，并且以某个基因为原点，向上下游各拓展到 1Mbp，在这 1Mbp 的范围内（不包括基因）利用双序列比对的方法寻找 Genomic anchors

这个 Genomic anchors 的计算方式是通过ucsc的chain file来实现的，具体两个物种或者两个版本的基因组的chain file的解释参见：https://www.zxzyl.com/archives/838/

个人感觉

Genomic anchors代表的是ungapped的区域

如何生成 chain 文件？可以参考：

使用liftover创建注释Chain文件（基因组坐标转换）
使用transanno制作不同基因组版本坐标映射的chain 文件？

理解 Genomic anchors 后，作者在某基因1Mbp的范围内划分upstream和downstream

如上图所示：

设 mu1 代表物种1在upstream区域内对应点的个数
设 mu2 代表物种2在upstream区域内对应点的个数
设 mu 代表物种2在upstream区域内Genomic anchors的个数（连线的点）
设 md1 代表物种1在downstream区域内对应点的个数
设 md2 代表物种2在downstream区域内对应点的个数
设 md 代表物种2在downstream区域内Genomic anchors的个数（连线的点）
设 mf1 代表物种1在upstream+downstream区域内对应点的个数
设 mf2 代表物种2在upstream+downstream区域内对应点的个数
设 mf 代表物种2在upstream+downstream区域内Genomic anchors的个数（连线的点）

对于upstream和downstream的区域如上图b所示，定义proportion score mu为：

proportion score mu 和 proportion score mf 的定义类似
因此，作者利用 OrthoDB protein-coding的同源基因，按照上述图b方法，计算mu1，mu2，md1，md2，mf1，mf2，proportion score mu，proportion score md，proportion score mf 这几个特征。
正负样本区分如下：

利用随机森林训练模型，然后用鉴定出来的lncRNA去进行预测，判断lncRNA基因对是否同源