Hsieh-Ting Lin (林協霆)

Illumina FASTQ 格式的序列識別行元素及其描述的整理

Author

Hsieh-Ting Lin (林協霆)

Published

2024/05/02

Updated

2024/06/03

Article Outline

Illumina FASTQ 格式的序列識別行元素及其描述的整理

@<instrument>：讀取識別行的開頭，樂器 ID 或序列 ID。
<run num>：設備上的運行號碼。
<flowcell ID>：流動單元 ID。
<lane>：序列化讀取的車道號碼。
<tile>：序列化讀取的磁磚號碼。
<x>：DNA 集群的 X 座標。
<y>：DNA 集群的 Y 座標。
<UMI>：如果使用了唯一分子標識符（UMI），則此欄位會被使用。
<read>：讀取號碼（單讀取為 1，成對端為 2）。
<filtered>：如果讀取通過過濾則為 Y，未通過則為 N。
<control num>：控制位數為 0（無控制位開啟）或偶數。
<index>：樣本號碼或讀取索引。

第一行開始於一個 '@' 字符，後跟序列的唯一識別碼。
第二行包含生物序列（通常是 DNA 序列）。
第三行是一個 '+' 字符，可能後跟與第一行相同的序列識別碼。
第四行包含每個序列字符的品質分數，用 ASCII 字符表示。

下面是一個 FASTQ 格式的範例：

@M00704:227:000000000-A4D1Y:1:1101:15649:1363 1:N:0:1
CAGTGTGTAGAGGGAAGGAGAGGGTTAGAGGAGCTAGTGTG
+
CCCFFFFFHHHHHJJJJJJJIJJJJIJJJJIJJJJIJHHHH

解釋：

第一行是標識行，包含樂器（M00704）、運行號碼（227）、流動單元 ID（000000000-A4D1Y）、車道號（1）、磁磚號（1101）、集群的 X 座標（15649）和 Y 座標（1363），以及其他元數據（如 1:N:0:1，表示讀取編號、過濾狀態、控制編號和索引）。
第二行是 DNA 序列。
第三行是一個 '+' 符號。
第四行表示相對應第二行中每個基的品質分數。

下載

brew install sratoolkit

fasterq-dump --verbose SRR030834
cat SRR030834.fastq | echo $((`wc -l`/4))