推荐设备MORE

长春网站建设难—今年最新中

长春网站建设难—今年最新中

疑难问题

一个ChIP

日期:2021-02-04
我要分享
生信小白团 留言板留言参加探讨,或是关心同名的手机微信微信公众号biotrainee
请不必立即复制我的编码,必须自身了解,随后搞出来,思索我来甚么那样敲代码。 手机软件请用全新版,特别是在是samtools等被我储存在系统软件自然环境自变量的,考虑到到阅读者诸多,一一样的手机软件我还会内置版本号信息内容的! 我用2个钟头,不意味着你是2个钟头就学好,一些朋友体现学了2个礼拜才 学好,这很一切正常,没问题,不必天马行空2个钟头就做到我的水准。 它是一个系列产品贴子,你可以以首先看: 一个表述集成ic数据信息解决案例 一个RNA-seq实战演练-非常简易-2钟头拿下! WES(七)看de novo基因变异状况 【直播间】我的遗传基因组22:用IGV查询实际某一结构域是不是基因变异 pubmed/ RYBP plex 1 (PRC1)的组分: 数据信息都会:geo/query/acc.cgi?acc=GSE42466 因此用脚本制作在ftp里边大批量免费下载就可以: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311 1

免费下载详细地址非常容易获得啦! for ((i=204;i =209;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;done ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done 照片遗失~~~~~ 由于我用fastqc看过看数据信息品质,编码以下: ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10 发觉3端品质有点儿难题,我也用了-3 5 --local主要参数, 最先用bowtie2手机软件把测序获得的fastq文档核对到mm10参照遗传基因组上边 ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620204.fastq| samtools sort -O bam -o ring1B.bam ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620205.fastq| samtools sort -O bam -o cbx7.bam ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620206.fastq| samtools sort -O bam -o suz12.bam ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620207.fastq| samtools sort -O bam -o RYBP.bam ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620208.fastq| samtools sort -O bam -o IgGold.bam ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620209.fastq| samtools sort -O bam -o IgG.bam 3 接下去必须对bam文档开展简易过虑,包含未核对的和multiple核对的,可是我较为懒,就立即用MACS2手机软件来call peaks啦! nohup ~/.local/bin/macs2 callpeak -c ../IgGold.bam -t ../suz12.bam -m 10 30 -p 1e-5 -f BAM -g mm -n suz12 2 suz12.masc2.log nohup ~/.local/bin/macs2 callpeak -c ../IgGold.bam -t ../ring1B.bam -m 10 30 -p 1e-5 -f BAM -g mm -n ring1B 2 ring1B.masc2.log nohup ~/.local/bin/macs2 callpeak -c ../IgG.bam -t ../cbx7.bam -m 10 30 -p 1e-5 -f BAM -g mm -n cbx7 2 cbx7.masc2.log nohup ~/.local/bin/macs2 callpeak -c ../IgG.bam -t ../RYBP.bam -m 10 30 -p 1e-5 -f BAM -g mm -n RYBP 2 RYBP.masc2.log 4 大伙儿能看到RYBP这一CHIP-seq我基本上无法得到peaks,就算是换了一个control,除非是我不会用一切control!我用IGV看过看,这一RYBP确实很怪异,我猜疑是创作者提交数据信息错误了! 并且创作者在GEO给的PEAKS数量以下: 2754 GSE42466_Cbx7_peaks_10.txt
6982 GSE42466_Ring1b_peaks_10.txt
6872 GSE42466_RYBP_peaks_5.txt
8054 GSE42466_Suz12_peaks_10.txt
echo $sample bamCoverage -b $id -o $sample.bw ## 这儿有一个主要参数,-p 10 --normalizeUsingRPKM computeMatrix reference-point --referencePoint TSS -b 10000 -a 10000 -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed -S $sample.bw --skipZeros -o matrix1_${sample}_TSS.gz --outFileSortedRegions regions1_${sample}_genes.bed plotHeatmap -m matrix1_${sample}_TSS.gz -out ${sample}.png 5 随后融合全部的chipseq的bam文档,画遗传基因的TSS周边的profile和heatmap图 computeMatrix reference-point -p 10 --referencePoint TSS -b 2000 -a 2000 -S ../*bw -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed --skipZeros -o tmp4.mat.gz plotHeatmap -m tmp4.mat.gz -out tmp4.merge.png plotProfile --dpi 720 -m tmp4.mat.gz -out tmp4.profile.pdf --plotFileFormat pdf --perGroup plotHeatmap --dpi 720 -m tmp4.mat.gz -out tmp4.merge.pdf --plotFileFormat pdf 最终融合全部的chipseq的bam文档,画遗传基因的genebody周边的profile和heatmap图 computeMatrix scale-regions -p 10 -S ../*bw -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed -b 3000 -a 3000 -m 5000 --skipZeros -o tmp5.mat.gz plotHeatmap -m tmp5.mat.gz -out tmp5.merge.png plotProfile --dpi 720 -m tmp5.mat.gz -out tmp5.profile.pdf --plotFileFormat pdf --perGroup plotHeatmap --dpi 720 -m tmp5.mat.gz -out tmp5.merge.pdf --plotFileFormat pdf 下边是輸出的图的事例,我只放了tss周边的! 6 图中能看到RYBP的peaks的中点在TSS处,而其他peaks都会TSS中下游一点点。 用Sequential ChIP (re-ChIP)试验确实能看到RYBP和CBX7的peaks有重叠。 7 本文一直翻来翻去说 这种CHIP-seq试验的peaks的交叉式状况: PRC1的组分出现异常繁杂,包含 Cbx (Cbx2, Cbx4, Cbx6, Cbx7, or Cbx8); Ring1A or Ring1B; PHC (PHC1, PHC2, or PHC3); PCGF (PCGF1, PCGF2, PCGF3, PCGF4, PCGF5, or PCGF6); and RYBP or YAF2.
在其中,a Ring1A/B E3 ligase subunit that monoubiquitinates histone H2A at lysine 119 (H2AK119ub)
但并不是说都务必要有,只是他们的组成,产生了各种各样各种各样的PRC1,可是都统一称为PRC1。
例如在mouse的ESCs里边,就会有二种PRC1,他们的 Cbx7 or RYBP 不是将会并存的!大家能够把他们各自称为, Cbx7-PRC1, RYBP-PRC1Cbx7 的作用是把 Ring1B 征募到染色质上边,是务必的。它融合的遗传基因多参加 mitment of ESCs.
RYBP 能够提高PRC1的酶特异性,它融合大遗传基因多参加,regulation of metabolism and cell-cycle progression
RYBP 融合的遗传基因要比 CBX7 融合的遗传基因表述量高。 由于CBX7融合的同时,会征募PRC2这一抑止marker。
而PRC2 deposits the histone H3 lysine 27 trimethyl repressive mark (H3K24me3) through the Ezh1/2 histone methyltransferase enzymes.怎样叙述他们这种peaks的交叉式状况呢?
We observed an overlap of RYBP peaks (3,918 in total) with 14%, 42%, and 37% of Cbx7, Ring1B, and Suz12 peaks, respectively
Moreover, although more than 90% of Cbx7 peaks contained Ring1B and Suz12, 20% were also bound by RYBP
虽然RYBP and Cbx7 在大部分分状况下全是相互之间抵触的,可是也在少一部分遗传基因组地区存有共精准定位的状况。Ring1B / Suz12的peaks状况能够被 Cbx7 和 RYBP 的peaks状况表明:
RYBP and Cbx7 都是有的地区,拥有高Ring1B/Suz12
Cbx7 but not RYBP的地区,Ring1B/Suz12会略微低一点
RYBP but not Cbx7的地区,Ring1B/Suz12会更低一点
RYBP and Cbx7 也没有的地区,Ring1B/Suz12就至少!RYBP的peaks的中点在TSS处,而其他peaks都会TSS中下游一点点。
用Sequential ChIP (re-ChIP)试验确实能看到RYBP和CBX7的peaks有重叠。并且RYBP也有一些peaks是其他PRC1所沒有的,表明它能够单独于PRC1充分发挥功效H2AK119ub 与 Ring1B/Suz12成正比,可是与RYBP仅有25.7%交叉式,与CBX7拥有72%交叉式,因此能够把 PRC1 target genes分为3类:
a first set with Cbx7/Ring1B/H2AK119ub; ~~~~GO/KEGG剖析,
a second that contains RYBP and lower levels of Ring1B/H2AK119ub
a third set cobound by RYBP/Cbx7/Ring1B and that also contains H2AK119ub.

随后这种全部的gene list都可以以拿来做GO/KEGG剖析,看一下不是是有哪些biological meaning !
genes co-occupied by Ring1B/Cbx7/RYBP and H2AK119ub are involved in system development.
genes containing RYBP/Ring1B/H2AK119ub, but not Cbx7, have a strong association with the M phase of the meiotic cycle and cellular metabolism
genes with Cbx7/Ring1B/H2AK119ub are involved in developmental processes and mesoderm specification,
those containing RYBP/Cbx7/Ring1B/H2AK119ub predominantly represent the ectodermal fate and, to a lesser extent, mesoderm and endoderm fates

超出700的遗传基因有 RYBP/Cbx7/Ring1B的peaks,因此创作者敲除Cbx7 看一下 RYBP的peaks是不是能变化,可是沒有做CHIP-seq,仅仅干了ChIP-qPCR

下边这一结果太重要:
Overall, our ChIP-seq analysis allowed us to identify five types of genes according to the occupancy of PRC1 and PRC2: those with
(1) Ring1B/Cbx7/RYBP and Suz12 (725 genes);
(2) Ring1B/Cbx7/Suz12, but not RYBP (1,527 genes);
(3) Ring1B/RYBP/Suz12, but not Cbx7 (861 genes);
(4) only Ring1B and Suz12 (1,694 genes); or
(5) RYBP but b proteins (1,674)