JBrowseでbamファイルを表示する
インストールしたJBrowseにゲノムデータを表示させる
表示させるのは
レファレンスにするヒトのゲノムデータと
GRCh38_latest_genomic.fna
ref_GRCh38.p12_top_level.gff3
HeLaのRNAseqのデータから作ったbamファイル
こっちが実験データの代わりになる
sort_SRR6799791.bam
sort_SRR6799791.bam.bai
の四種類
bamファイルの作り方は後ほど記録する
JBrowseへの登録はこっちに説明があるので
ここからやったことを記録してく
JBrowse Configuration Guide - GMOD
JBrowse FAQ - GMOD
まずはレファレンスデータの登録
jbrowseのprepare-refseqs.plを使う
bin/prepare-refseqs.pl --fasta <fasta file> [options]
実際に入力したのはこれ
$ cd /var/www/html/jbrowse $ bin/prepare-refseqs.pl --fasta ~/usr/data/db/GRCh38_latest_genomic.fna --out HeLa_SRR6799791_dev --trackLabel GRCh38_latest_genomic --seqType dna
"--out"オプションで表示する実験データにレファレンスを出力する
"--trackLabel"はJBrowse上での表示ラベル
"--seqType"はよくわからないけどゲノムデータなのでDNAにした
outオプションで指定したディレクトリに
seqというディレクトリが作られてその内部にも
大量のディレクトリとファイルが作られてく
結構時間が掛かる
wslを使っている場合はwindows defenderからのアクセスを切っておくほうが良い
ほっとくと書き込むファイル全部をスキャンしようとする
mecobalamin.hatenablog.com
次にgff3ファイルの登録
flatfile-to-json.plを使う
bin/flatfile-to-json.pl --[gff|gbk|bed] <flat file> --tracklabel <track name> [options]
入力したコマンドはこちら
$ bin/flatfile-to-json.pl --gff ~/usr/data/db/ref_GRCh38.p12_top_level.gff3 --trackType CanvasFeatures --out HeLa_SRR6799791_dev --trackLabel ref_GRCh38
bamとbam.baiの登録もスクリプトを使う
スクリプト名はadd-bam-track.pl
baiファイルはbamと同じディレクトリに入れておけば
自動で認識してくれる
bamとbam.baiはbamという名前のディレクトリに入れて
HeLa_SRR6799791_dev以下に保存する
add-bam-track.plはHeLa_SRR6799791_devの場所で実行する
$ cd HeLa_SRR6799791_dev $ ../bin/add-bam-track.pl --label HeLa_SRR6799791 --bam_url bam/sort_SRR6799791.bam --in trackList.json
これでとりあえず作業は終了
前回volvoxのデータを表示したようにwslでapache2を起動する
mecobalamin.hatenablog.com
windows側のブラウザから以下のアドレスにアクセスする
http://localhost/jbrowse/index.html?data=HeLa_SRR6799791_dev
こんな感じで表示される
上段の黄色っぽく表示されているのがヒトゲノムデータ
下段の赤・青で表示されているのがRNAseqの結果
あまり一致していないようにみえる。。。
ヒトゲノムのコード領域と培養細胞で実際に転写されている領域は結構違うものなのか。。。?
そのあたり良くわからないけど、まぁ、とりあえず表示はできた