1. Ondrej Platek
  2. alignment

Overview

ØE©ENÍ

Øe¹ení úkolu, které budu dále popisovat jsem vygeneroval pomocí pøilo¾eného skriptu "align.py" pøíkazem: $ python align.py > result.log

Zadáním úkolu bylo spoèítat globální a lokální alignment pro DNA sequence. DNA sequence ulo¾ené v souberech H.fasta, I.fasta a J.fasta byly poskytnuté. Zbylé sequence jsem stáhl do souborù sequence h.fasta, r.fasta, m.fasta. V¹echny soubory s DNA obsahují pouze 1 øádku s danou DNA sequencí. S takto naformátovanými soubory pracuje "align.py" skript.

TABULKA zdrojù pro sta¾ené soubory: h.fasta: Homo sapiens insulin (INS), transcript variant 1, mRNA Downloaded from http://www.ncbi.nlm.nih.gov/nuccore/109148525?report=fasta r.fasta: Rattus norvegicus insulin 1 (Ins1), mRNA Downloaded from http://www.ncbi.nlm.nih.gov/nuccore/297374813?report=fasta m.fasta: Mus musculus insulin II (Ins2), transcript variant 1, mRNA Downloaded from http://www.ncbi.nlm.nih.gov/nuccore/297374793?report=fasta

Globální alignment byl spoèítán pro dvì nastavení. S afinnímy parametry (gapopen = -2, gapext = -1) ve funkci "task2" a s parametry (gapopen = gapext = -2) ve funkci "task1ab". Naimplementoval jsem jak afinní variantu, tak neafinní verzi, pøesto¾e poprvé jsem vyøe¹il neaffiní variantu pomocí affiní s gapopen = gapext. Výhoda zvlá¹tního øe¹ení je pøedev¹ím pamì»ová úspora zhruba o polovinu oproti affinímu algoritmu s dvìma tabulkama.

VÝSLEDKY

Tabulka ní¾e ukazuje globální a za lomítkem lokální alignment pro dvojce sequencí. Z tabulky je jasnì vidìt, ¾e sekvence mohou být globálnì pomìrnì stejnì NEpodobné, ale mohou obsahovat velmi dlouhé podobné podsekvence (sekvence {I,H} vs {J,H}).

====== Needleman-Wunsch and Smith-Watermann ====== glob/loc H.fasta I.fasta J.fasta H.fasta skip I.fasta -214/1292 skip J.fasta -206/727 1020/1042 skip

====== Afinne Needleman-Wunsch ====== glob h.fasta m.fasta r.fasta h.fasta skip m.fasta 229 skip r.fasta 215 352 skip

Pro alignmenty se podívejte do souboru "results.log". V sekci "====== Details ... =====" najdete pro ka¾dý pár sekvencí jejich skóre, zaèátek, konec v jednotlivých aligmentù v sequencích a také alignment. Alignment se nachází na dvou po sobì jdoucích øádkách, které jsou velmi dlouhé. Je proto vhodné nastavit textový editor, aby dlouhé øádky nezalamoval. (Ve Vimu pøíkazem :set nowrap). Mezera v alignmentu je naznaèená pomlèkou. Poznámka: Indexy do sequencí, kde se nachází alignment jsou indexovány od 0!