PENGAPLIKASIAN GENOM BAKTERI MENGGUNAKAN GENBANK
PENGAPLIKASIAN GENOM BAKTERI
MENGGUNAKAN GENBANK
Kolekium oleh :
Indhina Reihannisha
Jurusan Biologi UIN Syarif Hidayatullah Jakarta
PENDAHULUAN
Genbank adalah salah satu situs yang dapat diakses melalui internet untuk mendukung ilmu molekuler. Situs ini dibuat dan
didistribusikan oleh National Center Biotechnology Information (NCBI). Divisi
dari National Library of Medicine (NLM) yang berlokasi di universitas National
Institute of Health (NIH), USA. NCBI membangun genbank dengan pemasukkan data
sekuens dari individu peneliti melalui EST (Expressed Sequence Taq), GSS
(Genome Survey Sequence), dan WGS (Whole Genome Shotgun). Situs ini memfasilitasi data sekuens nukleotida untuk kepentingan publik.
(Sumber
: http://www.ncbi.mlm.nih.gov)
HASIL DAN PEMBAHASAN
Cara penggunaan genbank dengan sumber genom bakteri
adalah pendaftaran proyek, disequens dalam format FASTA, kemudian dianotasikan,
dan pembuatan submisi. Keterangan header yang ada di dalam data yang dibaca di
GenBank adalah locus, definition, accession, version, keywords, source, organisme,
reference, comment. Keterangan fitur yang ada di dalam data yang dibaca di
GenBank adalah source, gene dan CDS.
1.1.
Pendaftaran
Proyek
Proyek genom
didaftarkan dan diajukan awalan locus_tag registrasi melalui registrasi
BioProject untuk persiapan pemasukkan data ke GenBank. Tiap proyek yang telah
di registrasi ditandai dengan BioProjectID, yang mana akan muncul di semua
entri data yang terkait dengan proyek genom tertentu.
1.2.
Sequens
Format FASTA
Sekuens nukleotida harus berada
dalam format FASTA. Format FASTA ini memiliki baris definisi suatu organisme
dan digunakan untuk membangun catatan. Contoh dari baris definisi adalah (http://www.ncbi.nlm.nih.gov/genbank/genomesubmit).
Contoh Submisi Genom Bakteri.
Gambar
1. Sekuens Format FASTA
1.3.
Anotasi
Jika pemasukkan
genome telah lengkap maka harus di annotasi. Minimum standar untuk genom yang
telah lengkap yaitu struktur RNA : 5S, 16S, 23S - setidaknya satu salinan tiap
panjang yang sesuai ; tRNA - setidaknya satu salinan tiap asam amino. Regulasi
dari anotasi yang pertama adalah fitur gen yang didefinisikan sebagai daerah
yang diambil sebagai kepentingan biologis yang namanya telah didaftarkan. Kedua
adalah locus_tag sistem pengidentifikasian gen yang diberikan pada tiap gen.
Ketiga adalah fitur CDS yang digunakan untuk mendefinisikan daerah pengkodean
protein. Keempat adalah protein_id untuk sebagai pelacak internal di dalam
database (http://www.ncbi.nlm.nih.gov/genbank/genomesubmit).
1.4.
Pembuatan
Submisi
File submisi
dapat digunakan melalui sequin atau tbl2asn. Tbl2asn adalah sebuah program baris perintah yang
secara otomatis menjadi bagian dari proses submisi dan dapat sangat berguna
untuk proyek yang memiliki banyak sekuens. Perbedaan utama diantara sequin
atau tbl2asn adalah sequin adalah program menu yang diatur oleh grafis
interfase sedangkan Tbl2asn adalah
program baris perintah. Sequin mudah digunakan pada genom yang telah lengkap
sedangkan tbl2asn untuk submisi WGS yang belum selesai dan mempunyai banyak contig. Diajukan ke FTP atau Genome Submission Tool.
Gambar 2. Contoh Format tbl2asn
tbl2asn -t template_file -p path_to_files -M n -Z discrep -j "[gcode=11]"
-t specifies the template file (including the path) [required]
-p specifies the path for the table and sequence files ('-p .' is the current directory) [required]
-j specifies the correct genetic code for translation of bacterial proteins [required]
-M n performs some clean-ups and runs validation
-Z discrep outputs the discrepancy report to a file named 'discrep'
Gambar 3. Contoh Format Tabel Sequin
>Feature HTE831
1830 2966 gene
gene dnaN
locus_tag OBB_0002
1830 2966 CDS
product DNA-directed DNA polymerase III beta chain
EC_number 2.7.7.7
protein_id gnl|ncbi|OBB_0002
3219 3440 gene
locus_tag OBB_0003
3219 3440 CDS
product hypothetical protein
protein_id gnl|ncbi|OBB_0003
3443 4552 gene
gene recF
locus_tag OBB_0004
3443 4552 CDS
product RecF
function DNA repair and genetic recombination
protein_id gnl|ncbi|OBB_0004
5109 7034 gene
gene gyrB
locus_tag OBB_0006
5109 7034 CDS
product DNA gyrase subunit B
EC_number 5.99.1.3
protein_id gnl|ncbi|OBB_0006
45081 44806 gene
gene abrB
locus_tag OBB_0045
45081 44806 CDS
product AbrB
protein_id gnl|ncbi|OBB_0045
function transcriptional pleiotropic regulator
64225 64758 gene
locus_tag OBB_0064
64225 64758 CDS
product stage V sporulation protein T
function transcriptional regulator
protein_id gnl|ncbi|OBB_0064
84524 85393 gene
locus_tag OBB_0082
84524 85393 CDS
product chaperonin
product heat shock protein 33
protein_id gnl|ncbi|OBB_0082
89569 91050 gene
locus_tag OBB_0088
89569 91050 CDS
product lysine-tRNA ligase
EC_number 6.1.1.6
protein_id gnl|ncbi|OBB_0088
91493 96462 operon
operon rrnA
91493 93058 gene
gene rrsA
locus_tag OBB_0089
91493 93058 rRNA
product 16S ribosomal RNA
93292 96213 gene
gene rrlA
locus_tag OBB_0090
93292 96213 rRNA
product 23S ribosomal RNA
96347 96462 gene
gene rrfA
locus_tag OBB_0091
96347 96462 rRNA
product 5S ribosomal RNA
96468 96744 operon
operon trnC
96468 96543 gene
gene trnV
locus_tag OBB_0092
96468 96543 tRNA
product tRNA-Val
96545 96620 gene
gene trnT
locus_tag OBB_0093
96545 96620 tRNA
product tRNA-Thr
96669 96744 gene
gene trnK
locus_tag OBB_0094
96669 96744 tRNA
product tRNA-Lys
1914923 1914066 gene
gene folD
locus_tag OBB_1880
1914923 1914066 CDS
product bifunctional methylenetetrahydrofolate
dehydrogenase (NADP+)/methenyltetrahydrofolate cyclohydrolase
EC_number 1.5.1.5
EC_number 3.5.4.9
protein_id gnl|ncbi|OB1880
1.5. Pembacaan
Data di GenBank
Berikut adalah keterangan yang ada di
dalam GenBank FlatFile (Claverrie, 2007)
1.5.1.
Header
1.5.1.1.
Locus : Memberikan informasi tentang
nama locusnya , ukuran dari pasang
basa sekuens nukleotida, DNA/RNA, dan topologinya yaitu linear atau sirkular.
1.5.1.2.
Definition : Memberikan definisi pendek
tentang gen yang berkoresponden untuk
sekuens pemasukan data.
1.5.1.3.
Accession : Pengenal unik dalam berbagai
database
1.5.1.4.
Version : no. ID yang digunakan
1.5.1.5.
Keywords : Kata kunci untuk pencarian
database secara luas.
1.5.1.6.
Source : Nama umum dari organisme
relevan yang sequensnya berasal
1.5.1.7.
Organisme : Memberikan identifikasi
lengkap tentang organisme tersebut
dengan klasifikasi taksonominya.
1.5.1.8.
Reference : Memperkenalkan sesi dimana
kredit untuk determinasi sekuens
diberikan.
1.5.1.9.
Comment : Memperkenalkan baris terakhir
dan dapat berisi tentang info
yang tidak muat pada sesi sebelumnya.
3.5.2. Feature
3.5.2.1.
Source : Mengindikasi asal daerah
spesifik pada sekuens.
3.5.2.2.
Gene : Gene di feature adalah simbol gen
yang spesifik di dalam sekuens dan
terdapat informasi didalamnya juga digunakan untuk mengakses data yang terdapat di database gen NCBI.
3.5.2.3.
CDS (CoDing Segment) : memperkenalkan
tentang sesi kompleks yang
mendeskripsikan gene's Open Reading Frame (ORF).
Gambar 5. GenBank Flatfile Feature
DAFTAR PUSTAKA
Benson, D. 2009. GenBank. Nucleic Acid Research. USA.
Benson, D. 2013. GenBank. Nucleic Acid Research. USA.
Binnewies, T. 2006. Ten Years of Bacterial Genome Sequencing:
Comparative-Genomics-Based Discoveries. Springer-Verlag. Denmark.
Claverie, J. 2007. Bioinformatics For Dummies, 2nd Edition.
Wiley Publishing Inc. Indiana.
Mizrachi, I. 2001. The Genbank Sequence Database. John
Wiley & Sons,Inc. Canada.
Mount,
D. 2001. Bioinformatics Sequence and
Genome Analysis. Cold Spring Harbor Laboratory Press. Tucson.
Comments
Post a Comment