>
- Montagem e anotação do genoma genómico
- mRNA-seq, montagem e anotação do transcriptoma
- Análise da expressão diferencial
- Proteômica da secreção celular salivar
- Enzimas
- Proteases
- Superóxido dismutase (EC 1.15.1.1)
- Anidrase carbónica (EC 4.2.1.1)
- Hialuronidase (EC 3.2.1.35)
- Apyrase (EC 3.6.1.5)
- Adenosina/AMP deaminase (EC:3.5.4.4)
- CAP/CRISP
- Eglin-like
- Cistatina
- PAN domínio
- Alpha-2-macroglobulina (α2M)
- Moléculas envolvidas na adesão
- Ficolin
- F5/8 domínio tipo C
- Receptores de lipoproteínas de baixa densidade uma família
- L lectin tipo R
- vWFA domínio
Montagem e anotação do genoma genómico
Para montar o genoma de H. medicinalis, extraímos ADN de uma sanguessuga adulta. Antes de ser processada, a sanguessuga foi mantida sem alimentação por pelo menos 2 meses. Criamos um conjunto de três bibliotecas de espingardas para realizar o sequenciamento usando três plataformas diferentes (Tabela Suplementar 1). Todos os conjuntos de dados lidos foram combinados, e uma única montagem foi criada pelos SPAdes . A montagem resultante continha 168.624 contigs com um comprimento de contig N50 de 12,9 kb (Tabela Complementar 2).
Análise preliminar (contigs BlastN) revelou a presença de sequências bacterianas na montagem resultante. Portanto, nós conduzimos o descaroçamento para discriminar as contigs de sanguessugas (um caixote de sanguessugas). Construímos uma distribuição de contíguos de acordo com sua abundância de GC, frequências de tetranucleotídeos, e cobertura de leitura. Para aumentar a exatidão de enxugamento, a cobertura de leitura foi determinada pela combinação das leituras de DNA com as leituras correspondentes a um transcriptoma combinado de H. medicinalis (veja abaixo). A discriminação das contições eucarióticas e procarióticas é ilustrada na Fig. 1a/b, Tabela Suplementar 3 e Dados Suplementares 2. Adicionalmente, selecionamos as contigs mitocondriais para montar o genoma mitocondrial sanguessuga .
Os contigs eucarióticos foram submetidos a um procedimento de andaime usando leituras pareadas. Os andaimes foram gerados usando conjuntos de dados Illumina paired-end e mate-pair read pelo SSPACE . Após o andaime, a montagem consistiu de 14.042 sequências com um comprimento de andaime N50 de 98 kb (Tabelas Suplementares 4 e 5). O comprimento do genoma da sanguessuga é estimado em 220-225 Mb. O comprimento total do esboço do genoma montado é de 187,5 Mbp, o que corresponde a 85% do tamanho teórico do genoma da sanguessuga (ver Tabela Suplementar 6). Um total de 14.596 genes codificadores de proteínas foram previstos.
Também, identificamos novos homólogos de genes codificadores de anticoagulantes conhecidos ou proteínas relacionadas a farinha de sangue. Os múltiplos alinhamentos de aminoácidos para cada uma dessas famílias protéicas (Fig. 1, 2 Suplementares) Com base nos dados da sequência do genoma e utilizando sequências de proteínas conhecidas, determinamos a organização desses genes (Tabela Suplementar 7, Fig. 1b). Posições e comprimentos de exons e introns foram previstos usando as respectivas seqüências de cDNA e proteínas como referência. Em alguns casos, os genes estão localizados em andaimes comuns e formam tandems ou clusters Fig. 1b.
mRNA-seq, montagem e anotação do transcriptoma
Para obter amostras de mRNA tecidual específico de três espécies de sanguessugas medicinais, H. medicinalis, H. verbаna, e H. orientalis, isolamos células e músculos salivares das criosecções das partes anteriores do corpo usando microdissecção a laser (Fig. 2a). Em seguida, construímos duas bibliotecas de cDNA com e sem normalização para cada amostra de mRNA usando o primer oligo-dT e as sequenciamos no PGM Ion Torrent (Tabela Suplementar 8). Quatro conjuntos de dados de leitura correspondentes às bibliotecas de cDNA construídas foram utilizados para a montagem de novo conjunto de um transcriptoma combinado para cada espécie de sanguessuga medicinal usando o Trinity RNA assembler (Tabela Suplementar 9). Utilizamos as transcriptomas combinadas para mapear leituras não-normalizadas de tecidos específicos. A leitura do mapeamento foi necessária para realizar análises de expressões diferenciais consecutivas.
Análise da ontologia do gene (GO) das transcrições detectadas foi realizada usando Blast2GO e BlastX. A base de dados ‘nr’ serviu como uma base de dados de referência. A análise GO demonstrou que todas as três espécies de sanguessugas medicinais tinham distribuições de transcrições semelhantes nas categorias GO (Figura Complementar 3). A distribuição taxonômica dos acertos mais próximos de BlastX também foi semelhante (Figura Suplementar 4). A maioria das transcrições identificadas foram encontradas para corresponder a duas espécies de Annelida: 59,8% para H. robusta e 10,7% para C. teleta. Esta análise também confirmou a ausência de contaminação por transcrições não-perfuradas.
A previsão das regiões codificadoras (ou quadros de leitura abertos, ORFs) e a anotação dos dados transcriptômicos foram realizadas usando Transdecoder e Trinotate. Os ORFs foram traduzidos usando o algoritmo BlastP, e as sequências de proteínas foram anotadas pela classificação EuKaryotic Orthologous Groups (KOG) usando a base de dados eggNOG (Figura Complementar 5). A classificação KOG revelou que todas as três espécies de sanguessugas medicinais têm distribuições de transcrição semelhantes nas categorias KOG. Todas as três espécies de sanguessugas medicinais também compartilharam a grande maioria de seus grupos ortológicos (Figura Complementar 6).
Análise da expressão diferencial
Para estimar os níveis relativos de expressão das transcrições identificadas nas células e músculos salivares e para identificar transcrições exclusivas das células salivares, mapeamos as leituras do cDNA tecidual específico sem normalização contra a transcrição combinada de cada espécie de sanguessuga medicinal. Também mapeamos as leituras de cDNA tecidual específicas de H. medicinalis contra o seu genoma. Os genes expressos diferencialmente foram detectados de acordo com um protocolo recente . Para identificar genes que são diferentemente expressos nas células e músculos salivares, foi construído um gráfico de MA individual para cada espécie de sanguessuga medicinal usando seu transcriptoma combinado (Fig. 2b, Figura Complementar 7). Um gráfico adicional de MA foi construído para H. medicinalis usando o seu genoma conjunto (Fig. 2c). Genes com valor q (FDR) < 0,05 foram considerados como diferentemente expressos.
Identificamos 102, 174, e 72 transcrições diferentemente expressas nas células salivares de H. medicinalis, H. orientalis, e H. verbana, respectivamente. Como as três são espécies de sanguessugas medicinais estreitamente relacionadas, as seqüências proteicas das transcrições diferencialmente expressas foram agrupadas em grupos ortológicos para simplificar a análise funcional subseqüente. Identificamos 25 grupos ortológicos diferentemente expressos, compartilhados por três espécies de sanguessugas e 44 grupos ortológicos compartilhados por pelo menos duas espécies de sanguessugas (Fig. 3, Tabelas Suplementares 10-11). A maioria das sequências nos grupos ortológicos identificados correspondem a proteínas hipotéticas anotadas no genoma de H. robusta. A análise dos domínios conservados nos aglomerados ortológicos identificados permitiu a determinação de sequências pertencentes a famílias proteicas conhecidas.
Também analisamos os genes diferencialmente expressos de H. medicinalis usando seu conjunto genômico. As leituras do cDNA para as células salivares, músculos, e tecido neural (as leituras foram obtidas do Arquivo de Leitura Sequencial (SRA)) foram mapeadas para a montagem do genoma. Para o tecido neural, usamos um conjunto de dados de leitura para o gânglio 2 por causa de sua localização nos segmentos pré-orais. A análise diferencial de expressão identificou 42 genes exclusivos das células salivares de H. medicinalis (Tabela Suplementar 12).
Proteômica da secreção celular salivar
Para análise proteômica, coletamos SCSs de três espécies de sanguessugas medicinais, H. medicinalis, H. orientalis e H. verbana, que foram mantidas sem alimentação por pelo menos 2 meses. As SCSs foram coletadas de acordo com um método previamente relatado com algumas modificações (ver Métodos).
O método de preparação da amostra é crítico para o repertório resultante das proteínas identificadas porque a SCS consiste de componentes de baixo e alto peso molecular e contém inibidores de proteinase, complexos de glicoproteínas e lipídios. Estes últimos podem formar complexos com proteínas. Portanto, combinamos vários métodos de preparação de amostras e várias técnicas de espectrometria de massa para cobrir o mais amplo repertório das proteínas da SCS. Conjuntos de dados proteômicos obtidos por diferentes métodos de preparação de amostras e técnicas de espectrometria de massa foram combinados para criar uma lista final das proteínas identificadas para cada espécie de sanguessuga medicinal.
Identificamos 189, 86, 344 proteínas nas SCS de H. medicinalis, H. orientalis, e H. verbana, respectivamente, e as agrupamos em grupos ortológicos, conforme descrito acima. Todas as três espécies de sanguessugas medicinais foram encontradas para compartilhar 39 grupos ortológicos, e 50 grupos ortológicos foram compartilhados por pelo menos duas espécies (Fig. 3, Tabela Suplementar 13). A combinação dos dados transcriptômicos e proteômicos revelou 25 grupos de genes ortológicos expressos exclusivamente nas células salivares (Tabela Suplementar 11). Uma lista de componentes individuais da SCS sanguessuga é dada na Fig. 3. Surpreendentemente, os genes que codificam os anticoagulantes conhecidos da SCS e as proteínas relacionadas às farinhas de sangue não mostraram a expressão diferencial entre as células salivares e os músculos. Para validar este achado, examinamos a expressão da saratina, eglina C, bdellinas, hirustasina, desestabilase, inibidor da metalocarboxipéptidase, apyrase e enzima conversora da angiotensina (ECA) pela PCR em tempo real de bibliotecas adicionais e independentes de cDNA tecidual específicas construídas para células e músculos salivares. Os resultados de PCR em tempo real para hirudina e desestabilase (Figura 8 Suplementar) confirmaram este achado. Isto indica que genes que codificam anticoagulantes e proteínas relacionadas a farinha de sangue estão envolvidos não apenas na alimentação do sangue, mas contribuem para outras funções fisiológicas ainda desconhecidas.
Below, caracterizamos os componentes da SCS classificados em grupos funcionais e descrevemos o seu possível papel na hemostasia. As seqüências de proteínas e seu alinhamento são apresentadas em Figuras Suplementares. 9-24.
Enzimas
Proteases
Os resultados deste estudo mostram que as metaloproteases das famílias М12, M13, e M28 são os principais componentes enzimáticos da SCS. As peptidases M12B (ADAM/reprolisina) são uma grande família de metaloproteinases desintegradas que têm uma ampla gama de funções e estão envolvidas em muitos processos fisiológicos . Estas enzimas são frequentemente encontradas em venenos de cobra enquanto as transcrições são observadas em sialotranscriptomas de várias espécies hemofágicas . Em hemostasia, as proteases secretadas da família М12 podem participar na inibição da adesão plaquetária e no amolecimento do coágulo devido à degradação do fibrinogênio. Estas proteínas exibem atividade proteolítica dependente de metais contra proteínas de matriz extracelular (gelatina, fibrinogênio, fibronectina), afetando assim a regulação da inflamação e respostas imunológicas.
Em mamíferos, as proteases da família M13 estão envolvidas na formação e desenvolvimento do sistema cardiovascular e na regulação de neuropeptídeos no sistema nervoso central. Uma das suas funções mais importantes é a ativação de peptídeos biologicamente ativos, particularmente peptídeos envolvidos na regulação da pressão arterial (angiotensina e bradicinina). Nos mamíferos, a ECA é um componente importante do sistema renina-angiotensina (RAS). A ECA é expressa nos sialotranscriptomas da sanguessuga (Theromyzon tessulatum), do caracol cone (Conidae), do caracol vampiro (Colubraria reticulata), e da espécie diptera (Diptera) .
As sequências identificadas de exopeptidases da família M28 pertencem às carboxipeptidases tipo Q, também conhecidas como dipeptidases lisossómicas ou carboxipeptidase plasmática glutamatosa (PGCP). Estas peptidases mostraram estar envolvidas na regulação do metabolismo dos peptídeos secretados no plasma sanguíneo e no sistema nervoso central dos mamíferos. Estas enzimas parecem servir para desativar certos peptídeos de sinalização no sangue e são componentes do sistema hemoglobinolítico em parasitas hematófagos, desempenhando o papel de exopeptidases digestivas. Notavelmente, as secreções salivares de sanguessugas contêm inibidores de carboxipeptidase, que presumivelmente impedem a digestão inoportuna da refeição de sangue por outros tipos de peptidases .
Superóxido dismutase (EC 1.15.1.1)
Identificamos sequências de enzimas da família das superóxido dismutase secretadas (SODC, tipo Cu/Zn). Esta família de metaloproteínas é principalmente típica das eucariotas e está envolvida na inativação de radicais livres, o que retarda os processos oxidativos. No sangue, o superóxido desmancha a conversão do superóxido em oxigênio molecular e peróxido de hidrogênio e evita a formação de peroxinitritos e radicais hidroxila. Curiosamente, o peroxinitrito pode suprimir a função hemostática através da nitração de procoagulantes chave, enquanto o peróxido de hidrogênio é uma molécula de sinalização chave envolvida na regulação de muitos processos (coagulação, trombose, fibrinólise, angiogênese e proliferação). Nos carrapatos, presume-se que a SODC participa na regulação da colonização do trato intestinal por bactérias, incluindo agentes causadores de doenças. Na SCS, a SODC parece exibir um efeito antibacteriano juntamente com outras proteínas do sistema imunológico inato e previne a oxidação indesejada do sangue durante a alimentação e digestão. Notavelmente, compostos contendo hemoglobina e ferro livre estão envolvidos na formação de radicais livres e na provocação do stress oxidativo .
Anidrase carbónica (EC 4.2.1.1)
Esta enzima é um componente chave do sistema tampão de bicarbonato e está envolvida na regulação dos valores de pH no sangue, no tracto digestivo e em outros tecidos . Em animais hematófagos, esta enzima pode manter condições ideais para a digestão de uma refeição de sangue . A anidrase carbónica parece causar um aumento local da acidose no local da picada, diminuindo a actividade dos factores de coagulação do sangue.
Hialuronidase (EC 3.2.1.35)
Estas enzimas são comuns nos dados proteómicos e transcriptómicos de animais hematófagos e venenosos. As secreções salivares de diferentes espécies de sanguessugas são conhecidas por conterem hialuronidase (heparinase, orgelase). No proteoma e no transcriptoma, encontramos três grupos contendo um domínio da família da glicosil hidrolase 79 (O-glycosyl hydrolases). Esta família inclui as heparinases, que desempenham um papel importante nos tecidos conjuntivos. Em venenos e secreções glandulares salivares, estas enzimas catalisam a hidrólise do ácido hialurônico, resultando na perda da integridade estrutural da matriz extracelular e facilitando assim a penetração de anticoagulantes e outras moléculas ativas mais profundas nos tecidos . Além disso, a heparina de baixo peso molecular produzida pela clivagem por heparinase suprime e inibe a coagulação sanguínea .
Apyrase (EC 3.6.1.5)
Apyrases são nucleotídases envolvidas na degradação enzimática de ATP e ADP para AMP. Apyrases secretas e 5′-nucleases são componentes bem conhecidos e bem caracterizados das secreções das glândulas salivares de animais venenosos e hematófagos, incluindo sanguessugas . As espiras são anticoagulantes porque removem o ADP, um importante indutor de agregação plaquetária nos locais de lesão tecidual .
Adenosina/AMP deaminase (EC:3.5.4.4)
catalisa a desaminação hidrolítica da adenosina para formar inosina. As deaminases de adenosina são bem estudadas e têm sido encontradas na saliva de vários insetos sugadores de sangue. A ADA também é encontrada na secreção da glândula salivar do caracol vampiro C. reticulata, que pertence à Spiralia, assim como sanguessugas . Pensa-se que a ADA tem um papel importante na remoção da adenosina devido ao seu envolvimento em processos de percepção da dor. As proteínas desta família são comumente encontradas em sanguessugas sugadoras de sangue e desempenham um papel fundamental na inibição da coagulação do sangue. Os seus principais alvos são as proteases serinas que participam na hemostasia, tais como o factor Xa, calicreína, plasmina e trombina . Ghilanten, um antistasin de Haementeria ghilianii, demonstrou inibir a agregação plaquetária, e a gigastasina da sanguessuga gigante da Amazônia (Hementaria ghilianii) foi recentemente relatada como inibindo potentemente o complemento C1 . Antistasin de Hementeria officinalis é o homólogo mais próximo das sequências identificadas em nosso estudo.
CAP/CRISP
A superfamília de proteínas secretoras/antigénios 5/patogénese 1 (CAP) rica em cisteína inclui numerosas famílias de proteínas, particularmente a proteína secretora rica em cisteína (CRISP) Fig. 5a. Elas são comumente encontradas nos venenos de cobras e outros répteis, e a maioria delas são toxinas . Em algumas investigações, pensou-se que os CRISP de espécies hematófagas estavam envolvidos em hemostasia (HP1). As sequências identificadas mostram semelhança com sequências proteicas do nemátodo parasitário hematofágico Ancylostoma caninum (ancilóstomo), como o bloqueador do canal de potássio AcK1 e o possível inibidor de agregação plaquetária HPI , assim como com as toxinas triflina (Protobothrops flavoviridis) e natrin-1 (Naja atra) . Entre os genes expressos diferentemente, identificamos seqüências com um novo motivo “rico em Cys” Fig. 5b. Este grupo de proteínas é caracterizado pela presença de um peptídeo de sinal e dois padrões de cisteína CX {5,14}. CX {7} CX {8} СС {2} С e CX {7,17} CX {9} CX {8} СС {2} С.