A simple guide for learning bioinformatics

Preparation

python

learn-python-the-hard-way

linux

鸟哥的linux私房菜

R

R in action

Practics

建立合适的目录存放每步生成的文件;
留存每步分析的脚本。

mission 1

使用 FastQC 对 fastq 文件进行质控

数据路径:

OM-mRNA-dujuanhua-P20161221

任务要求:

  1. 将数据链接到当前工作目录。
  2. 使用 FastQC 软件对数据进行数据质控分析。
  3. 生成数据质控统计表,包含样品数据量,Q30,GC含量,duplication信息。
  4. 样品GC含量分布图,duplication 比例图绘制。

mission 2

使用 kallisto 对各样品进行定量分析

分析物种:

中文名:家鸡
英文名:chicken
拉丁文名:Gallus gallus

任务要求:

  1. 基本数据格式学习, fastq, fasta, gtf
  2. 数据库学习 ensembl
  3. 根据分析物种下载分析需要的注释文件。
  4. 建立 kallisto 定量的 index 文件。
  5. 使用 kallisto 对所有样品进行定量。
  6. 对每个样品的定量结果进行合并作图:
    • 样品表达盒形图,密度图。
    • 计算两两样品间的 pearson correlation 并制作热图。
    • 样品表达 PCA 图。

mission 3

使用 edgeR 进行差异分析

任务要求:

  1. 学习 tximport, edgeR。
  2. 使用 tximport 整合 kallisto 定量结果,并将转录本的表达量转换为基因的表达量。
  3. 使用 edgeR 进行差异分析。
  4. 对差异分析结果进行作图:
    • 差异分析火山图, MA 图。
    • 差异基因聚类热图。
    • 差异基因聚类折线图。

mission 4

差异表达基因富集分析

任务要求:

  1. 学习 goseq, topGO, KOBAS, pathview 软件并在服务器上配置。
  2. 使用 biomart 数据库下载分析物种的 GO 注释 (biomaRt可以对biomart数据进行批量下载)。
  3. 使用 goseq 软件对差异基因进行 GO 富集分析并作图。
  4. 使用 topGO 软件绘制 GO 有向无环图。
  5. 使用 KOBAS 软件对差异基因进行 KEGG 富集分析并作图。
  6. 使用 pathview 软件下载 KEGG Pathway 通路图。

mission 5

使用 STAR 进行 RNAseq mapping

任务要求:

  1. 理解 RNAseq mapping 过程 (可参考此ppt)。
  2. 在家目录下建立目录,并在该目录下配置 STAR 软件。
  3. 使用 STAR 软件进行比对分析:
    • 建立参考基因组比对索引文件。
    • 进行比对。
  4. 整理比对结果并作图、

mission 6

使用 Rseqc 进行 RNAseq 数据质控

  1. 使用 geneBody_coverage.py 分析样品 RNA 完整性。
  2. 使用 inner_distance.py 分析测序的插入片段长度。

Advanced analysis

SNP

Alternative splicing

Co-expression

Novel transcript assembly

to be continued

Useful Tools

Biopython

python 模块,处理各种生物数据。

HTSeq

python 模块,可以使用 bam 文件对基因进行定量。其中 GFF_Reader 模块可以很方便的处理 gtf 文件。

经典的转录组拼接软件。目前已经被 StringTie 替代。其中 cuffcompare 和 gffread 等组件能够进行快速的 gtf 比较,序列提取等功能。

bedtools

强大的基因区域分析工具。

to be continued

Websites

to be continued