Article Outline
Illumina FASTQ 格式的序列識別行元素及其描述的整理
@<instrument>
:讀取識別行的開頭,樂器 ID 或序列 ID。<run num>
:設備上的運行號碼。<flowcell ID>
:流動單元 ID。<lane>
:序列化讀取的車道號碼。<tile>
:序列化讀取的磁磚號碼。<x>
:DNA 集群的 X 座標。<y>
:DNA 集群的 Y 座標。<UMI>
:如果使用了唯一分子標識符(UMI),則此欄位會被使用。<read>
:讀取號碼(單讀取為 1,成對端為 2)。<filtered>
:如果讀取通過過濾則為 Y,未通過則為 N。<control num>
:控制位數為 0(無控制位開啟)或偶數。<index>
:樣本號碼或讀取索引。
- 第一行開始於一個 '@' 字符,後跟序列的唯一識別碼。
- 第二行包含生物序列(通常是 DNA 序列)。
- 第三行是一個 '+' 字符,可能後跟與第一行相同的序列識別碼。
- 第四行包含每個序列字符的品質分數,用 ASCII 字符表示。
下面是一個 FASTQ 格式的範例:
@M00704:227:000000000-A4D1Y:1:1101:15649:1363 1:N:0:1
CAGTGTGTAGAGGGAAGGAGAGGGTTAGAGGAGCTAGTGTG
+
CCCFFFFFHHHHHJJJJJJJIJJJJIJJJJIJJJJIJHHHH
解釋:
- 第一行是標識行,包含樂器(M00704)、運行號碼(227)、流動單元 ID(000000000-A4D1Y)、車道號(1)、磁磚號(1101)、集群的 X 座標(15649)和 Y 座標(1363),以及其他元數據(如 1:N:0:1,表示讀取編號、過濾狀態、控制編號和索引)。
- 第二行是 DNA 序列。
- 第三行是一個 '+' 符號。
- 第四行表示相對應第二行中每個基的品質分數。
下載
brew install sratoolkit
fasterq-dump --verbose SRR030834
cat SRR030834.fastq | echo $((`wc -l`/4))