介紹
DNA序列數(shù)據(jù)庫是集合所有已知核酸的核苷酸序列,單核苷酸多態(tài)性、結(jié)構(gòu)、性質(zhì)以及相關(guān)描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫?;蚝突蚪M的資料也包含在DNA序列數(shù)據(jù)庫中。
1、核酸序列數(shù)據(jù)庫
國際三大核酸序列數(shù)據(jù)庫:GenBank, EBML, DDBJ
RefSeq: The Reference Sequence Database
dbEST: Expressed Sequences Tags數(shù)據(jù)庫
UniGene等
2、蛋白質(zhì)序列數(shù)據(jù)庫
UniProt (Swiss-prot & TrEMBL, PIR)
3、基因組數(shù)據(jù)庫: Ensembl
常用數(shù)據(jù)庫NCBI主要基因序列數(shù)據(jù)庫GenBank:包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻著作和生物學注釋。其數(shù)據(jù)直接來源于測序工作者提交的序列,為原始數(shù)據(jù)積累的開放數(shù)據(jù)庫,數(shù)據(jù)可能存在重復以及不準確。
UniGene:對核酸序列數(shù)據(jù)庫的數(shù)據(jù)進行適當處理,剔除冗余部分后,同一基因包括表達序列標簽的序列簇,多用于研究基因的轉(zhuǎn)錄圖譜。
RefSeq:提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的序列信息;包括染色體、基因組(細胞器、病毒、質(zhì)粒)、蛋白質(zhì)、RNA等。
Entres-Gene數(shù)據(jù)庫序列來源于Refseq數(shù)據(jù)庫;
詳盡的注釋信息,包括基因在基因組的定位,基因名稱、蛋白質(zhì)名稱,基因結(jié)構(gòu)等;
基因的命名主要來自權(quán)威命名委員會的官方符號以及Refseq記錄中的基因名,由NCBI工作人員進行數(shù)據(jù)收集并注釋。NLM的索引部門對基因功能進行闡述。
沿用人類孟德爾遺傳網(wǎng)(OMIM)中的疾病名稱并與NCBI其他數(shù)據(jù)庫形成交互鏈接。
PROSITE收集了生物學有顯著意義的蛋白質(zhì)位點和序列模式;
根據(jù)這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質(zhì)序列應該屬于哪一個蛋白質(zhì)家族;
序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等。1