quarta-feira, 14 de março de 2012

Get multiples sequence of Genbank


Neste caso em particular, eu precisava obter uma lista de 150 genes de determinados organismos, usando Bioperl.  

Contando com a super ajuda do Rondon (de novo!)


#!/usr/bin/perl

use warnings;
use strict;
use Bio::SeqIO;
use Bio::DB::GenBank;
use Bio::DB::Query::GenBank;

my @genes "PRX1[TITL]", "NUG1[TITL]", "UTP15[TITL]", "YPT1[TITL]", "CDC47[TITL]", "PDI1[TITL]", "URK1[TITL]", "GLR1[TITL]", "TIM50[TITL]", "KIN28[TITL]", "VMA6[TITL]", "PRP46[TITL]", "PRC1[TITL]", "SSB2[TITL]", "SPT15[TITL]", "PGK1[TITL]", "SMC2[TITL]", "BMS1[TITL]", "TEF1[TITL]", "HMT1[TITL]", "SEC23[TITL]", "SUI3[TITL]", "COP1[TITL]", "RAD54[TITL]", "MCM2[TITL]", "AMD1[TITL]", "SEC26[TITL]", "FAA1[TITL]", "VMA5[TITL]", "VPH1[TITL]", "ADE12[TITL]", "CBK1[TITL]", "MSF1[TITL]", "ENO1[TITL]", "PDB1[TITL]", "BMH2[TITL]", "MIS1[TITL]", "ERG10[TITL]", "ARF2[TITL]", "NBP35[TITL]", "SEC17[TITL]", "LCB2[TITL]", "KRR1[TITL]", "ACT1[TITL]", "RPS3[TITL]", "SEC21[TITL]", "MAP1[TITL]", "CDC19[TITL]", "STT3[TITL]", "ATM1[TITL]", "RIP1[TITL]", "PWP2[TITL]", "HAT2[TITL]", "SER33[TITL]", "CCT5[TITL]", "PYC1[TITL]", "FBP26[TITL]", "TDH3[TITL]", "RET1[TITL]", "MTR4[TITL]", "MEF1[TITL]", "GLE2[TITL]", "DBP2[TITL]", "NMT1[TITL]");

my @organisms = ("Saccharomyces cerevisiae S288c [ORGN]");

foreach my $orgn_query (@organisms){
  my $seq_out = Bio::SeqIO -> new  (-format => 'fasta',
   -file => ">$orgn_query.fasta");
  foreach my $nucleotide (@genes){
    my $db_obj = Bio::DB::GenBank->new;
    my $query_obj = Bio::DB::Query::GenBank->new( -db    => 'nucleotide',
 -query => "$orgn_query AND $nucleotide" );
    my $gb_obj = Bio::DB::GenBank->new;
    my $stream_obj = $gb_obj->get_Stream_by_query($query_obj);
while (my $seq_obj = $stream_obj->next_seq) {
 $seq_out -> write_seq($seq_obj);
}
    }
}
exit;