Preparation
python
linux
R
R in action
Practics
建立合适的目录存放每步生成的文件;
留存每步分析的脚本。
mission 1
使用 FastQC 对 fastq 文件进行质控
数据路径:
OM-mRNA-dujuanhua-P20161221
任务要求:
- 将数据链接到当前工作目录。
- 使用 FastQC 软件对数据进行数据质控分析。
- 生成数据质控统计表,包含样品数据量,Q30,GC含量,duplication信息。
- 样品GC含量分布图,duplication 比例图绘制。
mission 2
使用 kallisto 对各样品进行定量分析
分析物种:
中文名:家鸡
英文名:chicken
拉丁文名:Gallus gallus
任务要求:
- 基本数据格式学习, fastq, fasta, gtf。
- 数据库学习 ensembl。
- 根据分析物种下载分析需要的注释文件。
- 建立 kallisto 定量的 index 文件。
- 使用 kallisto 对所有样品进行定量。
- 对每个样品的定量结果进行合并作图:
- 样品表达盒形图,密度图。
- 计算两两样品间的 pearson correlation 并制作热图。
- 样品表达 PCA 图。
mission 3
使用 edgeR 进行差异分析
任务要求:
- 学习 tximport, edgeR。
- 使用 tximport 整合 kallisto 定量结果,并将转录本的表达量转换为基因的表达量。
- 使用 edgeR 进行差异分析。
- 对差异分析结果进行作图:
- 差异分析火山图, MA 图。
- 差异基因聚类热图。
- 差异基因聚类折线图。
mission 4
差异表达基因富集分析
任务要求:
- 学习 goseq, topGO, KOBAS, pathview 软件并在服务器上配置。
- 使用 biomart 数据库下载分析物种的 GO 注释 (biomaRt可以对biomart数据进行批量下载)。
- 使用 goseq 软件对差异基因进行 GO 富集分析并作图。
- 使用 topGO 软件绘制 GO 有向无环图。
- 使用 KOBAS 软件对差异基因进行 KEGG 富集分析并作图。
- 使用 pathview 软件下载 KEGG Pathway 通路图。
mission 5
使用 STAR 进行 RNAseq mapping
任务要求:
- 理解 RNAseq mapping 过程 (可参考此ppt)。
- 在家目录下建立目录,并在该目录下配置 STAR 软件。
- 使用 STAR 软件进行比对分析:
- 建立参考基因组比对索引文件。
- 进行比对。
- 整理比对结果并作图、
mission 6
使用 Rseqc 进行 RNAseq 数据质控
- 使用 geneBody_coverage.py 分析样品 RNA 完整性。
- 使用 inner_distance.py 分析测序的插入片段长度。
Advanced analysis
SNP
Alternative splicing
Co-expression
Novel transcript assembly
to be continued
Useful Tools
Biopython
python 模块,处理各种生物数据。
HTSeq
python 模块,可以使用 bam 文件对基因进行定量。其中 GFF_Reader 模块可以很方便的处理 gtf 文件。
cufflinks
经典的转录组拼接软件。目前已经被 StringTie 替代。其中 cuffcompare 和 gffread 等组件能够进行快速的 gtf 比较,序列提取等功能。
bedtools
强大的基因区域分析工具。
to be continued
Websites
to be continued