HOME/Articles/

Illumina FASTQ 格式的序列識別行元素及其描述的整理

Article Outline

Illumina FASTQ 格式的序列識別行元素及其描述的整理

  • @<instrument>:讀取識別行的開頭,樂器 ID 或序列 ID。
  • <run num>:設備上的運行號碼。
  • <flowcell ID>:流動單元 ID。
  • <lane>:序列化讀取的車道號碼。
  • <tile>:序列化讀取的磁磚號碼。
  • <x>:DNA 集群的 X 座標。
  • <y>:DNA 集群的 Y 座標。
  • <UMI>:如果使用了唯一分子標識符(UMI),則此欄位會被使用。
  • <read>:讀取號碼(單讀取為 1,成對端為 2)。
  • <filtered>:如果讀取通過過濾則為 Y,未通過則為 N。
  • <control num>:控制位數為 0(無控制位開啟)或偶數。
  • <index>:樣本號碼或讀取索引。
  1. 第一行開始於一個 '@' 字符,後跟序列的唯一識別碼。
  2. 第二行包含生物序列(通常是 DNA 序列)。
  3. 第三行是一個 '+' 字符,可能後跟與第一行相同的序列識別碼。
  4. 第四行包含每個序列字符的品質分數,用 ASCII 字符表示。

下面是一個 FASTQ 格式的範例:

@M00704:227:000000000-A4D1Y:1:1101:15649:1363 1:N:0:1
CAGTGTGTAGAGGGAAGGAGAGGGTTAGAGGAGCTAGTGTG
+
CCCFFFFFHHHHHJJJJJJJIJJJJIJJJJIJJJJIJHHHH

解釋:

  • 第一行是標識行,包含樂器(M00704)、運行號碼(227)、流動單元 ID(000000000-A4D1Y)、車道號(1)、磁磚號(1101)、集群的 X 座標(15649)和 Y 座標(1363),以及其他元數據(如 1:N:0:1,表示讀取編號、過濾狀態、控制編號和索引)。
  • 第二行是 DNA 序列。
  • 第三行是一個 '+' 符號。
  • 第四行表示相對應第二行中每個基的品質分數。

下載

brew install sratoolkit

fasterq-dump --verbose SRR030834
cat SRR030834.fastq | echo $((`wc -l`/4))