最近(2019/08)因為公司專案需求,因此稍微 Survey 一下 Ensembl 這個網站,不過 Survey 方向只會專注在專案需求上,並不會全面的 Survey 。
在 Survey 過程中最痛苦的大概是看懂並搞懂那些那些專有名詞,我的生物程度只停留在高三,而且還有退化的趨勢阿(( 崩潰
Ensembl Intro.
Ensembl Logo(圖片來源: ensembl)
Ensembl 其實是一項開始於 1999 年的生物資訊學的研究計劃,由是一個由歐洲生物資訊研究所(European Bioinformatics Institute, EMBL)和維康基金桑格研究院(Wellcome Trust Sanger Institute)所推動。其目標是其致力於統整基因注釋(Annotation)和定序資料的整合,並讓研究人員可以透過網路來取得所需資料。
而網站則開始於 2000 年,原是一個真核生物注釋項目,主要側重在脊椎動物;但隨著時間推移,Ensembl 資料庫也包含了越來越多的基因體資料,同時,它的可用資料的範圍也擴展到了比較基因體學、變異位點…等方面。
Ensembl 可支援將基因體變異、基因體大範圍重組(e.g. chromothripsis, chromoplexy)以視覺化方式呈現、檢視基因在染色體上的注釋、探索某個基因同源性(Homology)和進化樹、檢視比對到基因上的 mRNA 或蛋白的序列位置及 Variant Effect Predictor…等功能。
截至目前為止,Ensembl 發布的最新資料庫版號為 97。但它有持續更新,需要可以自行上官網查詢。
- 2023/01/05:我今天看好像已經到 Release 108 (Oct 2022)。
其他資料庫
除外 Ensembl 資料庫外,還有 NCBI(National Center for Biotechnology information)所提供的 GenBank 以及 UCSC 與其他資料庫,e.g. UniProt,前三者(在某些文章中)並列目前三大資料庫。
如果對三者的介紹有興趣可以看看這篇:〈NCBI, UCSC, Ensembl, Uniprot, 一次学完统统不要钱〉,要不要錢我是不知道啦,反正我的 WeChat 救不回來了,反正它前面公開的部分有稍微說到三個的資料庫差異,我只需要先對它們有個概念就好。
Ensembl 資料庫網站操作
在 Ensembl 資料庫網站想進行資料查詢,可藉由物種、基因名稱、基因位置與疾病名稱…等。這邊挑了兩種不同類型的搜尋結果做紀錄。
用物種搜尋
-
從主頁輸入搜尋物種 “Human”,搜尋需要一點時間,出來結果第一個條目就是智人了。
-
點擊搜尋結果,可以看到人類基因體的主頁。
-
點選 View karyotype 可以看到 Whole genome。
-
點擊任意一條基因 → Jump to region view → Chromosome summary,可以看到每一條基因的資訊。
用基因名稱搜尋
Ensembl ID
不過搜尋的時候看到那堆 ID、敘述…等,不禁讓人眼花撩亂,而且聽說不同的資料庫還都有不同的規則…這已經不是眼花撩亂而是頭痛欲裂了吧!不過也只能咬牙看下去了 QAQ
-
先看看頁面中最顯眼的 Gene: BRCA2
BRCA2 是由 HGNC(HUGO Gene Nomenclature Committee,人類基因命名委員會)對基因進行命名描述的一個 HGNC Symbol,又稱為縮寫標識符,具有唯一性。人類基因命名委員會,顧名思義就是為人類基因進行命名的。由於 HUGO 是國際權威的權威機構,因此多數資料庫都會引入它的命名與 ID ,方便跨資料庫進行搜尋。
- 再看看 HGNC Symbol 右方的 ENSG00000139618
這跟下方的 Ensembl version 是同一組編碼。是給 HGNC Symbol 在 Ensembl 中的一個編號,由五個部分所組成:- ENS
用來闡明這是一個 Ensembl ID。 - 物種前綴
用來表示這是啥物種,如果有需要可以看對照表 → Species prefixes。值得一提的是,如果物種是人類,這欄位會是空的。 - 功能前綴
用來註明這是一個基因、外顯子或是蛋白質家族…等。對照表 Feature prefixes 在這。 - 唯一的 11 碼數字
- 版本號
在小數點之後的數字是版號,為了維持 stable,Ensembl ID 儘量不會變動,因此在基因資料發生一些小的改動時會去變動最後的版號。不過,如果整個基因整體模式都變動的話,還是會重新分配一個 ID。
- ENS
-
往下看到 Description
這行其實有兩項資訊。前面的 BRCA2 DNA repair associated ,其實是 HGNC 批准的全基因名稱,對應於上面的 HGNC Symbol。而後面的 HGNC:1101,則是 HGNC 分配的基因編號。雖然 HGNC Symbol 的可讀性較高,但在資料處理時一般會說建議使用 HGNC ID 作為唯一標識符。因為有時候 HGNC 會對一些已經命名過的基因進行重新審查和命名,以確保新的基因命名在描述基因功能方面更加的準確,但 HGNC ID 卻是固定不變的。
- 最後看 Gene Synonyms 的部分
前面 HGNC 會對一些已經命名過的基因重新命名,而此時舊有的名稱就會被當作同義詞來使用。
剩下的資訊就比較好懂了,如基因位置,就不贅述的。好吧,其實沒比較好懂…不過至少知道它是只基因上的座標 XDDD
Variant Effect Predictor (VEP)
不過這次 Survey 的主要目標是關於 annotation 的步驟。在 Ensembl 中有提供一套注釋與分析工具 - Variant Effect Predictor(簡稱 VEP),它可以對測試結果產生的變異進行注釋,包括 SNPs、Indel 等,每個注釋用來預測可能受到影響的轉錄。此外所輸出的結果也可以根據資料庫內容與需求,對變異進行過濾與排序,並列出最具致病性的或是全部的效應。
VEP 注釋流程(圖片來源: GeneDock 文档)
此外,在找尋資料的過程中,發現關於 annotation tool 中有三套被反覆提及,分別是 Annovar、SnpEff 與 Ensembl 的 VEP,這三套都是做變異注釋的工具:
- 〈突变注释工具SnpEff,Annovar,VEP,oncotator比较分析〉
- 文章好像掛,可以直接拿標題去搜尋可以看到有人轉載。
- 〈變異註釋軟件SnpEff, VEP, Annovar的比較(上)〉
- 不是我不貼下,而是我真的找不到下。
這邊接下來記錄一下 VEP 安裝方式。
Installation VEP
在 Ensembl 中有分 Web interface 與 Command line tool,兩種使用方式,小資料量用前者,大資料量用後者。
VEP 的資料輸入與輸出可以直接支援 VCF 格式,但輸入的 VCF 應提供 identifier(不提供也可以執行,就只是會跑掉而已)
In order to parse this correctly, VEP needs to convert such variants into Ensembl-type coordinates, and it does this by removing the additional base and adjusting the coordinates accordingly. This means that if an identifier is not supplied for a variant (in the 3rd column of the VCF), then the identifier constructed and the position reported in VEP’s output file will differ from the input.
init
1 |
|
Clone the Git repository
1 |
|
Requirements
1 |
|
Installation
1 |
|
Run
1 |
|
執行完的後 VEP 會為它的 VCF 輸出在每個 row 後面加上 CSQ field。
關於事前 Survey 的目的
D大提出關於 VCF annotation 可以歸納出幾項是需要進一步了解的。
-
通常 VCF annotation 步驟的用意是什麼?
annotation 主要是注釋 VCF,每個注釋用來預測可能受到影響的轉錄(transcription)。根據配置會列出最具致病性的或是全部的效應。VEP 會用於:
- 變異的位置、轉錄物的上游
- 受變異影響的基因與轉錄本
- 變異對於蛋白質序列與調控區域的影響
- 變異與 frequareucy data(?)
-
會使用到哪些工具與資料庫?
在 VEP 中用到的資料庫有:GENCODE、dbSNP、Loop Genomics、ESP、ExAC、COSMIC、HGMD public、clinvar、PolyPhen、SIFT。其他用於注釋的工具有 Annovar、VEP、SnpEff 與 oncotator,其中 oncotator 主要是用於癌症特異性變異位點的注釋,而 SnpEff 主要是面向臨床和精準醫療的。
-
經過 annotation 步驟後, 檔案格式內容是什麼?
input 可支援 VCF、 VCF Structural variants…等,不過要注意 unbalanced variant。output 則是可以選擇 VCF 或 json,VCF 輸出文件內容會保持不變,但會增加 CSQ field。
-
通常生技領域在做完 vcf annotation, 後續會如何應用? 是交給專業醫生去看? 還是有相關分析工具可以協助產生報告?
報告部分跑完就會產生一份 HTML 檔 其中對於 vcf annotation 有完整的資料統計。
小結
這是過了一陣子才整理的資料,總比不上 Survey 立刻整理來的詳細,而且我記得我有跑數據,偏偏找不到數據了。不過沒魚蝦也好,好歹也是留個紀錄。
參考資料
- 協同撰寫。Ensembl。檢自 維基百科 (2019-08-28)。
- Lin Ting-Wei (2016-02-24)。Ensembl API(一):簡介。檢自 我們的基因體時代 Our “Gene”ration (2019-08-28)。
- Sam (2019-01-16)。【3.2】 一级核酸数据库-Ensemble。檢自 sam’s note (2019-08-28)。
- 子非鱼 (2017-08-02)。NCBI, UCSC, Ensembl, Uniprot, 一次学完统统不要钱。檢自 解螺旋·临床医生科研成长平台 (2019-08-28)。
- 生信技能樹 (2018-10-25)。超精華生信ID總結,想踏入生信大門的你-值得擁有。檢自 台部落 (2019-08-28)。
- 我爱小徐子 (2018-09-08)。使用Ensembl数据库获取人类染色体图谱,并输出fasta。檢自 知乎 (2019-08-28)。
- Kai (2017-05-30)。NCBI/Ensembl ID的转换。檢自 生信笔记 (2019-08-28)。
- Ensembl ID / Ensembl Stable ID。檢自 Ensembl (2019-08-28)。
- Liu Xuanzhu (2017-10-16)。VEP–强大的变异注释工具。檢自 GeneDock 文档 (2019-08-28)。
- 生信杂谈 (2017-09-26)。突变注释工具SnpEff,Annovar,VEP,oncotator比较分析。檢自 簡書 (2019-08-28)。
- GCBI知識庫 (2019-04-14)。變異註釋軟件SnpEff, VEP, Annovar的比較 (上)。檢自 微文庫 (2019-08-28)。
- Annotation & Prediction。檢自 Ensembl (2019-08-28)。
- Ensembl Variant Effect Predictor (VEP)。檢自 Ensembl (2019-08-28)。
- Variant Effect Predictor - Data formats。檢自 Ensembl (2019-08-28)。
- Variant Effect Predictor - Tutorial。檢自 Ensembl (2019-08-28)。
- Variant Effect Predictor - Download and install。檢自 Ensembl (2019-08-28)。
- Variant Effect Predictor - Annotation sources。檢自 Ensembl (2019-08-28)。
- Variation File Format - Definition and supported options。檢自 EnsemblMetazoa (2019-08-28)。
- Annotating VCF Files。檢自 Jannovar documentation (2019-08-28)。