RNA-Seq
RNA-Seq分析流程
比对和组装定量和标准化差异分析差异分析
基因表达量数据类型CountsRPM/CPMRPKMFPKM/FPKM-UQTPM
基因表达量数据转换
原始Counts数据
基因长度信息(外显子长度之和)
如按照protein-coding基因计算mapped reads计算,还需提供基因的分类信息
分子互作
蛋白-DNA
也称转录因子模式,所有转录因子都包含一段 DNA结合域,结构域能够识别和结合基因启动子特征DNA序列(motif) ,进而影响靶基因从 DNA 转录产生 RNA 的过程,效应结果是 RNA量的多少变化,如果这个RNA是可以编码蛋白的mRNA,那么最终就会造成靶基因蛋白量的上调或者下调。
转录因子上的氨基酸序列和结构结合的 DNA 序列是有一定规律的,这种规律是预测转录因子调控靶基因的理论基础。
启动子是一段DNA序列, 启动子里含有 RNA 聚合酶的特异性结合序列,同时可以跟转录因子结合控制基因的转录活性。
相关数据库
转录因子转录因子预测原理研究思路预测数据库转录因子验证实验纯生信:
根据测序结果筛选出的关键基因,探索能否找到潜在的转录因子调控这些基因
可以同时引入与转录因子和靶基因结合的非编码RNA,构建调节网络
或者识别出的差异表达基存在转录因子,可以以这个转录因子为中心,构建调节网络
基于转录因子本身的的表达水平、突变状态、甲基化水平、做转录因子与表型的生信分析
生信+实验:
基于序列保守性对互作关系进行预筛选,然后再通过EMSA、ChIP等实验验证 ...
WGCNA
WGCNA 入门背景知识简介原理基本分析流程计算步骤
权重(weghted):基因之间不仅仅是相关与否,还记录着它们的相关性数值,数值就是基因之间的联系的权重(相关性)。
模块(module):表达模式相似的基因分为一类,这样的一类基因成为模块。
Eigengene:基因和样本构成的矩阵。
邻接矩阵(Adjacency Matrix):是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵;在WGCNA分析里面指的是基因与基因之间的相关性系数矩阵。 如果用了阈值来判断基因相关与否,那么这个邻近矩阵就是0/1矩阵,只记录基因相关与否。但是WGCNA没有用阈值来卡基因的相关性,而是记录了所有基因之间的相关性。
拓扑重叠矩阵(TOM,Topological Overlap Matrix):WGNA认为基因之间的简单的相关性不足以计算共表达,所以它利用邻近矩阵,又计算了一个新的邻近矩阵。一般来说,TOM就是WGCNA分析的最终结果,后续的只是对TOM的下游注释。
WGCNA(Weighted Gene Co-expres ...
生物数据库基因ID
小苏碎碎念:
科研分析中经常会遇到各种各样的基因ID类型,了解各种命名的来源和规则有助于我们在不同的数据库之间进行转换和使用。同时因各种各样的数据库越来越多,本文档也会持续完善和更新~~~🍊。
背景知识
NCBI:National Center for Biotechnology Information, 即美国国家生物技术信息中心,是一个机构名称,不是数据库。
Entrez 是一个归属于 NCBI 的综合性的生物信息数据检索引擎系统,这个搜索引擎整合了包含核酸、蛋白质、基因、基因组、GEO 等在内的很多常用数据库。
HGNC: HUGO Gene Nomenclature Committee, 即人类基因命名委员会。人类大多基因的命名,是有HGNC完成的。
小鼠(mouse)的基因命名来源于MGNC;大鼠(rat)基因命名来源于RGNC;斑马鱼(zebrafish)基因命名来源于ZFIN
Ensembl 基因组数据库项目,是 1999 年启动的,来应对当时即将完成的人类基因组计划的一个科学项目,是科研人员用于检索基因组信息的最常用数据库之一。
refseq参考序列数据库,是NC ...
定量引物设计
查找基因进入NCBI官网
查找序列
查找基因ID
引物设计打开Prime-BLAST
根据需求填写参数
结果筛选
tidyverse:处理关系数据
文档使用数据源说明
文档中举例除了使用自建数据外,我们需要使用 nycflights13。这个数据包含了 2013 年从纽约市出发的所有 336 776次航班的信息。该数据来自于美国交通统计局, 可以使用?nycflights13 查看其说明文档。包括flights, airports, planes, weather, airline五个数据框。 文档中如出现此类数据对象,不再另行说明。flights: 包含航班信息airlines:可以根据航空公司的缩写码查到公司全名。airports:给出了每个机场的信息,通过 faa 机场编码进行标识。planes:给出了每架飞机的信息,通过 tailnum 进行标识。weather:给出了纽约机场每小时的天气状况。R包使用:12library(tidyverse)library(nycflights13)
相关概念
键:用于连接每对数据表对变量称为键,键是能唯一标识观测的变量(或变量集合)
主键:唯一标识其所在数据框的观测
外 ...
GEO数据库
GEO数据库 写在前面的话
GEO 数据库是 NCBI 网站下的子数据库,主要收录基于芯片和测序技术的数据,来源于全球众多研究者的上传数据。GEO数据库一直是进行生信挖掘的重要数据库,了解GEO数据库的数据形式,组织类型及下载方式进行数据挖掘的必备技能。
数据存储格式SOFT 格式SOFT (Simple Omnibus in Text Format)格式,是一种紧凑、简单、基于行的 ASCII(美国信息交换标准代码)文本格式, 包含实验数据和注释数据。
MINiML 格式MINiML (MIAME Notation in Markup Language, pronounced minimal)格式,与 SOFT 格式文件的包含信息完全相同,仅格式不同,为 XML 格式。 XML(eXtensible Markup Language)又称为可扩展标记语言,极其简单,使其易于在任何应用程序中读写数据。MIAME 和 MINSEQE 分别是芯片和测序数据上传的标准指南,指出上传的芯片或测序数据最起码应包含的数据内容。
Series Matrix filesSeries Matrix fil ...
R绘图-热图
差异基因热图绘制所需数据代码结果展示DESeq2或edgeR差异表达分析后数据12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879## Create heat map from a differential expression count table.## Load the library.suppressPackageStartupMessages(library(gplots))# The name of the file that contains the counts.count_file = "results.csv"# The name of the output file.output_file = "heatmap.pdf"# Inform the user.print("# ...
clusterProfiler包
分析简介GO富集分析KEGG富集分析
输入数据:富集分析基因列表输出数据:富集结果输出结果:go.RData1234567891011121314151617181920212223242526272829303132333435363738394041424344# load packages -----------------------------------------------------------library(clusterProfiler)library(org.Bt.eg.db)library(readxl)# load data ---------------------------------------------------------------rna <- read_xlsx("gene.xlsx")SYMBOL <- unique(rna$geneSymbol)rna <- data.frame(SYMBOL)# Id transition ------------------------------------ ...
基因ID转换
写在前面的话:
基因ID在不同的生信软件和数据库中有不同的命名规则。因此,将基因ID进行转换是必备的生信技能。此文章主要介绍几个常用的基因ID转换网站及R包转换工具
BioMart工具
BioMart 是 Ensembl 网站提供的一个 web 工具。他的主要功能是进行基因功能的注释和跨数据库注释,还有就是基因ID的转换。
选择数据库和数据集
输入ID类型及基因集
限制一次500个ID转换
选择输出基因ID类型
注:查看数据基因ID信息
输出结果
BioDBnet
biological DataBase network,一个集成了大量生物数据库的应用程序,比如Gene, UniProt, Ensembl, GO等,由ABCC进行维护。它实际上包括多个应用程序,如dbWork,dbFind等。主要功能包括基因ID转换,基因功能注释,基因信息查找,还可以将基因ID转换成其他物种的同源基因ID等。
选择输入和输出ID类型
输入物种Taxon ID
输入数据集并提交结果
结果查看
BioDBnet其他工具dbWalk
适用于需要转换为多种ID类型
dbFind
自动识别输 ...