Database Reference
In-Depth Information
GGWWRGdy.ggkkqLWFPSNYV
IGWLNGynet tgerGDFPGTYV
PNWWEGql . . nnrrGIFPSNYV
DEWWQA rr. . deqi GIVPSK- -
GEWWKAqx. . tgqeGF IPFNFV
GDWWLA rx.
.
sgqtGY IPSNYV
GDWWDAel
.
.
kgrrGKVPSNYL
-DWWEArsl
ssghrG Y VPS NYV
Abbildung 13.16
Ausschnitte aus Aminosauresequenzen von Proteinen einer Familie.
Die Aminosauren werden durch einen standardisierten 1-Letter-Code reprasentiert, “-”
bedeutet ein
gap
in der Sequenz; die Punkte dienen der Auffullung der Tabelle.
d
k−1
d
k
d
k+1
i
k−1
i
k+1
i
k
m
k−1
m
k+1
m
k
Abbildung 13.17
Topologie des Profil-HMM fur eine Familie von Proteinen
den einzelnen Bausteinen und unterschiedliche Langen. Die außeren Spalten der Se-
quenzen (mit Großbuchstaben) sind starker konserviert. Diese Spalten sind fur das
alignment
besonders wichtig, da sie funktionell wichtige Teile identifizieren, doch
auch hier konnen
gaps
eingefugt werden.
Um Proteinfamilien beschreiben zu konnen, erstellt man fur sie geeignete statis-
tische Modelle, sog.
Profile
, die Proteinsequenzen der entsprechenden Familie mit
sehr viel hoherer Wahrscheinlichkeit erzeugen als andere Sequenzen. Ein solches
Modell stellt naturlich auf die Erfassung von Regelmaßigkeiten in den Sequenzen
ab, soll andererseits aber auch Unregelmaßigkeiten (also
gaps
und weniger sequenz-
konservierte Bereiche) geeignet berucksichtigen konnen.
Fur diese Aufgabe haben sich die
Hidden Markov Models, HMM,
der in Ab-
bildung 13.17 gezeigten Bauart hervorragend bewahrt [123, 122]. Die HMM stellen
allgemein einen Formalismus zur Modellierung von Symbolsequenzen dar. Sie wer-
den vielfach bei der Spracherkennung eingesetzt (siehe z. B. [188, 220]), eignen sich
aber auch zur Beschreibung biomolekularer Sequenzen.
Zu diesem Zweck modelliert man ein HMM mit drei verschiedenen Arten von
Zustanden,
states
, in der Abbildung 13.17 durch Quadrate, Rauten und Kreise sym-
bolisiert. In der untersten Reihe befinden sich die
match states
m
k
,diediekonser-
vativen Hauptspalten eines
alignments
reprasentieren. Daruber liegen die
insert
states
i
k
.
Match states
und
insert states
erzeugen Buchstaben, ξ,desAminosau-
renalphabets mit einer bestimmten Wahrscheinlichkeit, P (ξ
|
m
k
)bzw.P (ξ
|
i
k
). Die