PENGAPLIKASIAN GENOM BAKTERI MENGGUNAKAN GENBANK

PENGAPLIKASIAN GENOM BAKTERI MENGGUNAKAN GENBANK


Kolekium oleh :
Indhina Reihannisha
Jurusan Biologi UIN Syarif Hidayatullah Jakarta


PENDAHULUAN

     Genbank adalah salah satu situs yang dapat diakses melalui internet untuk mendukung ilmu molekuler. Situs ini dibuat dan didistribusikan oleh National Center Biotechnology Information (NCBI). Divisi dari National Library of Medicine (NLM) yang berlokasi di universitas National Institute of Health (NIH), USA. NCBI membangun genbank dengan pemasukkan data sekuens dari individu peneliti melalui EST (Expressed Sequence Taq), GSS (Genome Survey Sequence), dan WGS (Whole Genome Shotgun). Situs ini memfasilitasi data sekuens nukleotida untuk kepentingan publik. 
(Sumber : http://www.ncbi.mlm.nih.gov)

     Bakteri adalah salah satu organisme prokariotik yang mempunyai variasi luas di lingkungan hidup. Keuntungan dari bakteri adalah organisme yang mikroskopis, genomnya tunggal, mempunyai molekul DNA yang melingkar, dan mempunyai ukuran genom sekitar beberapa juta bp (0,6-8,0), genomnya rapi berisi hanya beberapa bagian (70% dapat diartikan menjadi protein). Database genom berisi urutan dan data peta dari keseluruhan genom yang kurang lebih sudah mencapai 1000 jenis atau strain.



                                                         HASIL DAN PEMBAHASAN

        Cara penggunaan genbank dengan sumber genom bakteri adalah pendaftaran proyek, disequens dalam format FASTA, kemudian dianotasikan, dan pembuatan submisi. Keterangan header yang ada di dalam data yang dibaca di GenBank adalah locus, definition, accession, version, keywords, source, organisme, reference, comment. Keterangan fitur yang ada di dalam data yang dibaca di GenBank adalah source, gene dan CDS.

1.1.       Pendaftaran Proyek
Proyek genom didaftarkan dan diajukan awalan locus_tag registrasi melalui registrasi BioProject untuk persiapan pemasukkan data ke GenBank. Tiap proyek yang telah di registrasi ditandai dengan BioProjectID, yang mana akan muncul di semua entri data yang terkait dengan proyek genom tertentu.

1.2.       Sequens Format FASTA
Sekuens nukleotida harus berada dalam format FASTA. Format FASTA ini memiliki baris definisi suatu organisme dan digunakan untuk membangun catatan. Contoh dari baris definisi adalah (http://www.ncbi.nlm.nih.gov/genbank/genomesubmit).

Contoh Submisi Genom Bakteri.
Gambar 1. Sekuens Format FASTA



1.3.       Anotasi
Jika pemasukkan genome telah lengkap maka harus di annotasi. Minimum standar untuk genom yang telah lengkap yaitu struktur RNA : 5S, 16S, 23S - setidaknya satu salinan tiap panjang yang sesuai ; tRNA - setidaknya satu salinan tiap asam amino. Regulasi dari anotasi yang pertama adalah fitur gen yang didefinisikan sebagai daerah yang diambil sebagai kepentingan biologis yang namanya telah didaftarkan. Kedua adalah locus_tag sistem pengidentifikasian gen yang diberikan pada tiap gen. Ketiga adalah fitur CDS yang digunakan untuk mendefinisikan daerah pengkodean protein. Keempat adalah protein_id untuk sebagai pelacak internal di dalam database (http://www.ncbi.nlm.nih.gov/genbank/genomesubmit).

1.4.       Pembuatan Submisi
File submisi dapat digunakan melalui sequin atau tbl2asn. Tbl2asn adalah sebuah program baris perintah yang secara otomatis menjadi bagian dari proses submisi dan dapat sangat berguna untuk proyek yang memiliki banyak sekuens. Perbedaan utama diantara sequin atau tbl2asn adalah sequin adalah program menu yang diatur oleh grafis interfase sedangkan Tbl2asn adalah program baris perintah. Sequin mudah digunakan pada genom yang telah lengkap sedangkan tbl2asn untuk submisi WGS yang belum selesai dan mempunyai banyak contig. Diajukan ke FTP atau Genome Submission Tool.

Gambar 2. Contoh Format  tbl2asn
tbl2asn -t template_file -p path_to_files -M n -Z discrep -j "[gcode=11]"
  -t specifies the template file (including the path) [required]
  -p specifies the path for the table and sequence files ('-p .' is the current directory) [required]
  -j specifies the correct genetic code for translation of bacterial proteins [required]
  -M n performs some clean-ups and runs validation
  -Z discrep outputs the discrepancy report to a file named 'discrep'
               (Sumber : http://www.ncbi.nlm.nih.gov/genbank/genomesubmit-examples)
               
           Gambar 3. Contoh Format Tabel Sequin
>Feature HTE831
1830       2966       gene
                                              gene        dnaN
                                              locus_tag     OBB_0002
1830       2966       CDS
                                              product   DNA-directed DNA polymerase III beta chain
                                              EC_number           2.7.7.7
                                              protein_id              gnl|ncbi|OBB_0002
3219       3440       gene
                                              locus_tag     OBB_0003
3219       3440       CDS
                                              product   hypothetical protein
                                              protein_id              gnl|ncbi|OBB_0003
3443       4552       gene
                                              gene        recF
                                              locus_tag     OBB_0004
3443       4552       CDS
                                              product   RecF
                                              function  DNA repair and genetic recombination
                                              protein_id              gnl|ncbi|OBB_0004
5109       7034       gene
                                              gene        gyrB
                                              locus_tag     OBB_0006
5109       7034       CDS
                                              product   DNA gyrase subunit B
                                              EC_number           5.99.1.3
                                              protein_id              gnl|ncbi|OBB_0006
45081     44806     gene
                                              gene        abrB
                                              locus_tag     OBB_0045
45081     44806     CDS
                                              product   AbrB
                                              protein_id              gnl|ncbi|OBB_0045
                                              function  transcriptional pleiotropic regulator
64225     64758     gene
                                              locus_tag     OBB_0064
64225     64758     CDS
                                              product   stage V sporulation protein T
                                              function  transcriptional regulator
                                              protein_id              gnl|ncbi|OBB_0064
84524     85393     gene
                                              locus_tag     OBB_0082
84524     85393     CDS
                                              product   chaperonin
                                              product   heat shock protein 33
                                              protein_id              gnl|ncbi|OBB_0082
89569     91050     gene
                                              locus_tag     OBB_0088
89569     91050     CDS
                                              product   lysine-tRNA ligase
                                              EC_number           6.1.1.6
                                              protein_id              gnl|ncbi|OBB_0088
91493     96462     operon
                                              operon    rrnA
91493     93058     gene
                                              gene        rrsA
                                              locus_tag     OBB_0089
91493     93058     rRNA
                                              product   16S ribosomal RNA
93292     96213     gene
                                              gene        rrlA
                                              locus_tag     OBB_0090
93292     96213     rRNA
                                              product   23S ribosomal RNA
96347     96462     gene
                                              gene        rrfA
                                              locus_tag     OBB_0091
96347     96462     rRNA
                                              product   5S ribosomal RNA
96468     96744     operon
                                              operon    trnC
96468     96543     gene
                                              gene        trnV
                                              locus_tag     OBB_0092
96468     96543     tRNA
                                              product   tRNA-Val
96545     96620     gene
                                              gene        trnT
                                              locus_tag     OBB_0093
96545     96620     tRNA
                                              product   tRNA-Thr
96669     96744     gene
                                              gene        trnK
                                              locus_tag     OBB_0094
96669     96744     tRNA
                                              product   tRNA-Lys
1914923 1914066 gene
                                              gene        folD
                                              locus_tag     OBB_1880
1914923 1914066 CDS
                                              product   bifunctional methylenetetrahydrofolate dehydrogenase (NADP+)/methenyltetrahydrofolate cyclohydrolase
                                              EC_number           1.5.1.5
                                              EC_number           3.5.4.9
                                              protein_id              gnl|ncbi|OB1880

1.5.   Pembacaan Data di GenBank
Berikut adalah keterangan yang ada di dalam GenBank FlatFile (Claverrie, 2007)
1.5.1.      Header
1.5.1.1.            Locus : Memberikan informasi tentang nama locusnya , ukuran dari pasang basa sekuens nukleotida, DNA/RNA, dan topologinya yaitu   linear atau sirkular.
1.5.1.2.            Definition : Memberikan definisi pendek tentang gen yang berkoresponden untuk sekuens pemasukan data.
1.5.1.3.            Accession : Pengenal unik dalam berbagai database
1.5.1.4.            Version : no. ID yang digunakan
1.5.1.5.            Keywords : Kata kunci untuk pencarian database secara luas.
1.5.1.6.            Source : Nama umum dari organisme relevan yang sequensnya berasal
1.5.1.7.            Organisme : Memberikan identifikasi lengkap tentang organisme tersebut dengan klasifikasi taksonominya.
1.5.1.8.            Reference : Memperkenalkan sesi dimana kredit untuk determinasi sekuens diberikan.
1.5.1.9.            Comment : Memperkenalkan baris terakhir dan dapat berisi tentang info yang tidak muat pada sesi sebelumnya.
Gambar 4. GenBank Flatfile Header




3.5.2.      Feature
3.5.2.1.            Source : Mengindikasi asal daerah spesifik pada sekuens.
3.5.2.2.            Gene : Gene di feature adalah simbol gen yang spesifik di dalam sekuens dan terdapat informasi didalamnya juga digunakan untuk mengakses data yang terdapat di database gen NCBI.
3.5.2.3.            CDS (CoDing Segment) : memperkenalkan tentang sesi kompleks yang mendeskripsikan gene's Open Reading Frame (ORF).

Gambar 5. GenBank Flatfile Feature





  DAFTAR PUSTAKA

Benson, D. 2009. GenBank. Nucleic Acid Research. USA.
Benson, D. 2013. GenBank. Nucleic Acid Research. USA.
Binnewies, T. 2006. Ten Years of Bacterial Genome Sequencing: Comparative-Genomics-Based                 Discoveries. Springer-Verlag. Denmark.
Claverie, J. 2007. Bioinformatics For Dummies, 2nd Edition. Wiley Publishing Inc.        Indiana.
Mizrachi, I. 2001. The Genbank Sequence Database. John Wiley & Sons,Inc. Canada.
Mount, D. 2001. Bioinformatics Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. Tucson.

Comments