InterPro

Az InterPro három fő entitást tartalmaz: fehérjéket, szignatúrákat (más néven “módszereket” vagy “modelleket”) és bejegyzéseket. Az UniProtKB-ban szereplő fehérjék egyben az InterPro központi fehérje-entitásai is. Az UniProtKB által a szekvenciák kiadásakor kiszámításra kerülnek az arra vonatkozó információk, hogy mely szignatúrák illeszkednek jelentősen ezekhez a fehérjékhez, és ezeket az eredményeket a nyilvánosság számára hozzáférhetővé teszik (lásd alább). A szignatúrák és a fehérjék egyezései határozzák meg, hogy a szignatúrákat hogyan integrálják az InterPro bejegyzésekbe: az egyező fehérjekészletek összehasonlító átfedését és a szignatúrák egyezéseinek helyét a szekvenciákon a rokonság mutatójaként használják. Csak a megfelelő minőségűnek ítélt szignatúrákat integrálják az InterPro-ba. A 81.0 verzió (2020. augusztus 21-i kiadás) szerint az InterPro bejegyzések az UniProtKB-ban található maradékok 73,9%-át annotálták, további 9,2%-ot pedig integrálásra váró szignatúrákkal annotáltak.

Az UniProtKB maradékok lefedettsége az InterPro bejegyzésekkel az InterPro 81.0 verziójától.

Az InterPro tartalmazza a splice-variánsok és az UniParc és UniMES adatbázisokban szereplő fehérjék adatait is.

InterPro konzorciumi tagadatbázisokSzerkesztés

Az InterPro szignatúrái 13 “tagadatbázisból” származnak, amelyek az alábbiakban vannak felsorolva.

CATH-Gene3D A teljes genomokban található fehérjecsaládok és doménarchitektúrák leírása. A fehérjecsaládok Markov-klaszterező algoritmus segítségével kerülnek kialakításra, majd a szekvenciaazonosság szerinti többszörös összekapcsolásos klaszterezés következik. A megjósolt szerkezet és a szekvencia-domének feltérképezése a CATH és Pfam doméneket reprezentáló rejtett Markov-modell könyvtárak segítségével történik. A fehérjéket több forrásból származó funkcionális annotációval látjuk el. A doménarchitektúrák funkcionális előrejelzése és elemzése a Gene3D weboldalon érhető el. A CDD Conserved Domain Database egy fehérje annotációs forrás, amely az ősi domének és teljes hosszúságú fehérjék annotált többszörös szekvencia-illesztési modelljeinek gyűjteményéből áll. Ezek pozíció-specifikus pontszámmátrixokként (PSSM) állnak rendelkezésre a konzervált domének gyors azonosításához a fehérjeszekvenciákban az RPS-BLAST segítségével. A HAMAP a High-quality Automated and Manual Annotation of microbial Proteomes (mikrobiális proteomok magas színvonalú automatizált és kézi annotációja) rövidítése. A HAMAP-profilokat szakértő kurátorok készítik kézzel, és olyan fehérjéket azonosítanak, amelyek jól konzervált bakteriális, archeális és plasztidok által kódolt (azaz kloroplasztiszok, cianellák, apikoplasztiszok, nem fotoszintetikus plasztidok) fehérjecsaládok vagy alcsaládok részei. MobiDB A MobiDB a fehérjék belső rendellenességeit jegyzetelő adatbázis. PANTHER A PANTHER olyan fehérjecsaládok nagy gyűjteménye, amelyeket emberi szakértelemmel funkcionálisan rokon alcsaládokra osztottak fel. Ezek az alcsaládok modellezik a fehérjecsaládokon belüli specifikus funkciók divergenciáját, lehetővé téve a funkcióval való pontosabb asszociációt (ember által kurált molekuláris funkció és biológiai folyamat osztályozások és útvonaldiagramok), valamint a funkcionális specifitás szempontjából fontos aminosavakra való következtetést. Minden egyes családhoz és alcsaládhoz rejtett Markov-modelleket (HMM) építenek a további fehérjeszekvenciák osztályozásához. Pfam Többszörös szekvenciaillesztések és rejtett Markov-modellek nagy gyűjteménye, amely számos gyakori fehérjetartományt és -családot lefed.

Az InterPro konzorcium 13 tagadatbázisa, amelyeket a szignálszerkesztési módszerük és a biológiai entitás alapján csoportosítottak.

PIRSF A fehérjék osztályozási rendszere a szekvenciadiverzitás több szintjét tartalmazó hálózat a szupercsaládoktól az alcsaládokig, amely a teljes hosszúságú fehérjék és a domének evolúciós kapcsolatát tükrözi. A PIRSF elsődleges osztályozási egysége a homeomorf család, amelynek tagjai homológok (közös ősből fejlődtek ki) és homeomorfok (teljes hosszúságú szekvencia hasonlóság és közös doménarchitektúra). PRINTS A PRINTS a fehérje-ujjlenyomatok gyűjteménye. Az ujjlenyomat konzervált motívumok csoportja, amelyet egy fehérjecsalád jellemzésére használnak; diagnosztikai erejét az UniProt iteratív szkennelésével finomítják. A motívumok általában nem fedik át egymást, hanem a szekvencia mentén elkülönülnek egymástól, bár a 3D-térben egybefüggőek is lehetnek. Az ujjlenyomatok rugalmasabban és erőteljesebben kódolhatják a fehérje redőket és funkcionalitásokat, mint az egyes motívumok, mivel teljes diagnosztikai erejük a motívumszomszédok által biztosított kölcsönös kontextusból ered. PROSITE A PROSITE a fehérjecsaládok és domének adatbázisa. Biológiailag jelentős helyekből, mintázatokból és profilokból áll, amelyek segítenek megbízhatóan azonosítani, hogy egy új szekvencia melyik ismert fehérjecsaládba tartozik (ha van ilyen). SMART Simple Modular Architecture Research Tool Lehetővé teszi a genetikailag mobil domének azonosítását és annotálását, valamint a doménarchitektúrák elemzését. Több mint 800, jelátviteli, extracelluláris és kromatin-asszociált fehérjékben megtalálható doméncsalád detektálható. Ezek a domének széleskörűen annotáltak a fiziológiai eloszlás, a funkcionális osztály, a tercier szerkezetek és a funkcionálisan fontos maradékok tekintetében. SUPERFAMILY A SUPERFAMILY egy olyan rejtett Markov-modellekből álló profilkönyvtár, amely az összes ismert szerkezetű fehérjét reprezentálja. A könyvtár a fehérjék SCOP osztályozásán alapul: minden modell egy SCOP doménnek felel meg, és célja, hogy reprezentálja a teljes SCOP szupercsaládot, amelyhez a domén tartozik. A SUPERFAMILY-t az összes teljesen szekvenált genom szerkezeti hozzárendelésének elvégzésére használták. SFLD Az enzimek hierarchikus osztályozása, amely a szekvencia-szerkezeti jellemzőket meghatározott kémiai képességekhez kapcsolja. TIGRFAMs A TIGRFAMs fehérjecsaládok gyűjteménye, amely kurátori többszörös szekvencia-illesztéseket, rejtett Markov-modelleket (HMM) és annotációt tartalmaz, és amely a szekvencia-homológia alapján funkcionálisan rokon fehérjék azonosítására szolgáló eszköz. Azok a bejegyzések, amelyek “egyenértékűek”, a funkció tekintetében konzervált homológ fehérjéket csoportosítják.

AdattípusokSzerkesztés

Az InterPro hétféle, a konzorcium különböző tagjai által biztosított adattípusból áll:

Az InterPro adattípusai
Adattípus Description Contributing Databases
InterPro Entries Structural. és/vagy funkcionális domének egy vagy több szignatúra segítségével megjósolt fehérjék Mind a 13 tagadatbázis
Tagadatbázisok szignatúrái A tagadatbázisok szignatúrái. Ezek közé tartoznak az InterPro-ba integrált aláírások, és olyanok, amelyek nem Mind a 13 tagadatbázis
Protein Protein szekvenciák UniProtKB (Swiss-Prot és TrEMBL)
Proteom Egyetlen szervezethez tartozó fehérjék gyűjteménye UniProtKB
Szerkezet 3-fehérjék dimenziós szerkezete PDBe
Taxonómia Protein rendszertani információ UniProtKB
Set Evolúciósan rokon családok csoportjai Pfam, CDD
Az InterPro-ban található öt bejegyzéstípust (homológ szupercsalád, család, domén, ismétlődés vagy hely) azonosító ikonok.

InterPro bejegyzéstípusokSzerkesztés

Az InterPro bejegyzések további öt típusra bonthatók:

  • Homológ szupercsalád: Olyan fehérjék csoportja, amelyek közös evolúciós eredetűek, ami a szerkezeti hasonlóságukban látható, még akkor is, ha a szekvenciáik nem nagyon hasonlóak. Ezeket a bejegyzéseket kifejezetten csak két tagadatbázis biztosítja: CATH-Gene3D és SUPERFAMILY.
  • Család: Olyan fehérjék csoportja, amelyek közös evolúciós eredettel rendelkeznek, amelyet szerkezeti hasonlóságok, rokon funkciók vagy szekvencia-homológia alapján határoznak meg.
  • Domain: Egy fehérje egy meghatározott funkcióval, szerkezettel vagy szekvenciával rendelkező, elkülönülő egysége.
  • Ismétlődés: Aminosavak olyan, általában 50 aminosavnál nem hosszabb szekvenciája, amely egy fehérjében többször ismétlődik.
  • Hely: Aminosavak rövid szekvenciája, ahol legalább egy aminosav konzerválódik. Ide tartoznak a transzláció utáni módosítási helyek, konzervált helyek, kötőhelyek és aktív helyek.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.