W tym artykule, przyjrzymy się bliżej kodowi genetycznemu, który pozwala sekwencji DNA i RNA zostać "odszyfrowanymi" na aminokwasy białka.. Kodony "Start" kodony "Stop" i ramka odczytu. Tłumaczenie na polski zrealizowane przez Fundację Edukacja dla Przyszłości dzięki wsparciu Fundacji „HASCO-LEK"

Wstęp

Czy kiedykolwiek pisałeś sekretne wiadomości do jednego z Twoich przyjaciół? Jeśli tak, mogłeś używać kodu, aby ukryć treść wiadomości. Na przykład, mogłeś zastępować litery danego słowa liczbami lub symbolami, trzymając się ustalonego zestawu reguł. Aby Twój przyjaciel mógł odszyfrować i zrozumieć wiadomość, potrzebował znać kod i używać ten sam zestaw zasad w odwrotny sposób.
Odszyfrowywanie wiadomości jest także kluczowym etapem w ekspresji genów, w którym informacja z genu jest odczytywana, aby zbudować białko. W tym artykule, przyjrzymy się bliżej kodowi genetycznemu, który pozwala sekwencji DNA i RNA zostać "odszyfrowanymi" na aminokwasy białka.

Tło: Produkcja białka

Geny dostarczają instrukcji do ekspresji białek w dwuetapowym procesie.
  • W transkrypcji sekwencja DNA genu jest "przepisywana " na RNA. U eukariotów, RNA musi przechodzić dodatkowe etapy obróbki, aby stać się informacyjnym RNA, czyli mRNA.
  • W translacji, sekwencja nukleotydów w mRNA jest "przepisywana" na sekwencję aminokwasów w polipeptydzie (łańcuchu białkowym).
Jeśli jest to nowa koncepcja dla Ciebie, możesz chcieć dowiedzieć się więcej dzięki filmowi o transkrypcji i translacji.

Kodony

Komórki odszyfrowują mRNA przez odczytywanie ich nukleotydów w grupach po trzy nazywanych kodonami . Poniżej przedstawiono cechy kodonów:
  • Większość kodonów określa aminokwas
  • Trzy kodony "stop" oznaczają koniec białka
  • Jeden kodon "start", AUG, oznacza początek białka i także koduje aminokwas metioninę
Kodony w mRNA są odczytywane podczas translacji, rozpoczynając od kodonu start i kontynuując aż do osiągnięcia kodonu stop. Kodony mRNA są odczytywane od 5' do 3' i określają kolejność aminokwasów w białku od N-końca (metioniny) do C-końca.
Sekwencja mRNA jest:
5'-AUGAUCUCGUAA-5'
Translacja obejmuje odczytywanie nukleotydów mRNA w grupach po trzy, w których każda z nich określa aminokwas (czy dostarcza sygnał STOP wskazujący, że translacja jest zakończona).
3'-AUG AUC UCG UAA-5'
AUG right arrow Metionina (Start) AUC right arrow Izoleucyna UCG right arrow Seryna UAA right arrow "Stop"
Sekwencja polipeptydu (N-koniec) metionina-izoleucyna-seryna (C-koniec)
Dwa końce nici DNA lub RNA różnią się między sobą. To znaczy, że cząsteczka DNA i RNA mają kierunkowość.
  • Na końcu 5' łańcucha wystaje grupa fosforanowa pierwszego nukleotydu w łańcuchu. Grupa fosforanowa jest przyłączona do węgla 5' pierścienia cukrowego, i to dlatego jest nazywana końcem 5'.
  • Na drugim końcu nazywanym końcem 3', wyeksponowana jest grupa hydroksylowa dodana do łańcucha. Grupa hydroksylowa jest przyłączona do węgla 3' pierścienia cukrowego, i to dlatego jest nazywana końcem 3'.
Wiele procesów, takich jak replikacja DNA i transkrypcja, może tylko mieć miejsce w jednym określonym kierunku zgodnym z kierunkowością nici DNA lub RNA.
Możesz dowiedzieć się więcej w artykule o kwasach nukleinowych.
Polipeptydy (łańcuchy połączonych aminokwasów) mają dwa różne końce:
  • N-koniec z wyeksponowaną grupą aminową
  • C-koniec z wyeksponowaną grupą karboksylową
Podczas translacji, polipeptyd jest tworzony od N-końca do C-końca. Możesz dowiedzieć się więcej o N-końcu i C-końcu z artykułu o białkach i aminokwasach.

Tabela kodu genetycznego

Pełny zestaw zależności pomiędzy kodonami i aminokwasami (czy sygnałami stop) jest nazywany kodem genetycznym. Kod genetyczny jest często podsumowywany w tabeli.
Tabela kodu genetycznego może początkowo wyglądać trochę onieśmielająco. Na szczęście, jest uorganizowana w logiczny sposób i nie jest zbyt trudno jej używać, kiedy zrozumiesz jej budowę.
Aby zobaczyć jak działa tabela kodu genetycznego, przeanalizujmy przykład. Załóżmy, że jesteś zainteresowany kodonem CAG i chcesz wiedzieć, który aminokwas go określa.
  1. Po pierwsze patrzymy na lewą stronę tabeli. Oś po lewej stronie odnosi się do pierwszej litery kodonu, więc znajdujemy C na osi po lewej stronie. To mówi nam o (szerokim) rzędzie tabeli, w której nasz kodon będzie się znajdował.
  2. Następnie, patrzymy na górę tabeli. Górna oś odpowiada drugiej literze kodonu, więc znajdujemy A na górnej osi. To mówi nam o kolumnie tabeli, w której znajduje się nasz kodon.
Rząd i kolumna z etapu 1 i 2 przecinają się w jednym dużym polu w tabeli kodu genetycznego, w których każde zawiera cztery kodony. Jest często najłatwiej spojrzeć po prostu na te cztery kodony i zobaczyć, który z nich jest tym, którego szukamy.
Jeśli chcesz wykorzystać strukturę tabeli do maksimum, możesz użyć trzeciej osi (która znajduje się po prawej stronie tabeli) odpowiadającej przecinającym się dużym polom. Dzięki znalezieniu trzeciego nukleotydu kodonu na tej osi, możesz zidentyfikować dokładnie rząd z polem, w którym znajduje się nasz kodon. Na przykład, jeśli szukamy G na tej osi w naszym powyższym przykładzie, zobaczymy, że CAG koduje kwas glutaminowy (Glu).
Tabela kodu genetycznego. Każda trzyliterowa sekwencja nukleotydów mRNA odpowiada specyficznemu aminokwasowi lub kodonowi stop. UGA, UAA i UAG są kodonami STOP. AUG jest kodonem dla metioniny i jest także kodonem start.
Obraz za: "The genetic code," OpenStax College, Biology (CC BY 3.0).
Zauważ, że wiele aminokwasów jest reprezentowanych w tabeli przez więcej niż jeden kodon. Na przykład, jest sześć różnych sposobów na "zapisanie" leucyny w języku mRNA (zobacz, czy możesz znaleźć wszystkie sześć).
Ważną cechą kodu genetycznego jest to, że jest uniwersalny. To znaczy, że z niewielkimi wyjątkami, praktycznie wszystkie gatunki (od bakterii do Ciebie!) używają przedstawionego powyżej kodu genetycznego do syntezy białek.

Ramka odczytu

Aby wiernie przejść od mRNA do białka, potrzebujemy jeszcze jednego pojęcia: ramki odczytu. Ramka odczytu określa jak sekwencja mRNA jest podzielona na kodony podczas translacji.
Jest to dosyć abstrakcyjne pojęcie, więc spójrzmy na przykład, aby je lepiej zrozumieć. Poniższe mRNA może kodować trzy zupełnie różne białka, w zależności od ramki, w której jest odczytywane:
Sekwencja mRNA: 5'-UCAUGAUCUCGUAAGA-3'
Czytane w Ramce 1:
5'-UCA UGA UCU CGU AAG A-3'
Ser-STOP-Ser-Arg-Lys
Czytane w Ramce 2:
5'-U CAU GAU CUC GUA AGA-3'
His-Asp-Leu-Val-Arg
Czytane w Ramce 3:
5'-UC AUG AUC UCG UAA GA-3'
Met(Start)-Ile-Ser-STOP
Pozycja kodonu start zapewnia to, że Ramka 3 jest wybierana do translacji mRNA.
Zatem, jak komórka wie, które z tych białek zsyntetyzować? Kodon start jest kluczowym sygnałem. Ponieważ translacja rozpoczyna się kodonem start i jest kontynuowana w kolejnych grupach trójek nukleotydów, pozycja kodonu start zapewnia, że mRNA jest odczytywane w prawidłowej ramce (w powyższym przykładzie, w ramce 3).
Mutacje (zmiany w DNA), które wstawiają lub usuwają jeden lub dwa nukleotydy mogą zmienić ramkę odczytu powodując produkcję nieprawidłowego białka "poniżej" miejsca mutacji:
Obraz przedstawia mutację przesunięcia ramki odczytu, w której jest ona zmieniona z powodu delecji dwóch nukleotydów.
Obraz za: "The genetic code: Figure 3," OpenStax College, Biology, CC BY 4.0.

Jak został odkryty kod genetyczny?

Historia o tym, jak został odkryty kod genetyczny, jest całkiem fajna i epicka. Ukryliśmy naszą wersję w poniższym łączu, aby Ci nie przeszkadzać, jeśli się spieszysz. Jednakże jeśli masz trochę czasu, jest ona bardzo interesująca do przeczytania.

Odkrycie kodu

Aby złamać kod genetyczny, badacze potrzebowali dowiedzieć się jak sekwencja nukleotydów w cząsteczce DNA lub RNA może kodować sekwencję aminokwasów w polipeptydzie.
Dlaczego było to trudne? Wyobraźmy sobie bardzo prosty kod, aby zrozumieć tą koncepcję. W tym kodzie każdy nukleotyd w DNA czy RNA mógł kodować jeden aminokwas w białku. Ale ten kod w rzeczywistości nie działał, bo jest 20 aminokwasów powszechnie występujących w przyrodzie i tylko 4 zasady azotowe w DNA lub RNA.
Zatem kod musiał zawierać coś bardziej skomplikowanego niż parowanie jeden do jednego nukleotydów i aminokwasów. Ale co?

Hipoteza tripletu

W połowie lat '50 XX wieku, fizyk George Gamow rozszerzył swoje przewidywanie na to, że kod genetyczny jest prawdopodobnie złożony z trójek nukleotydówstart superscript, 1, end superscript. To jest, zaproponował, że grupa 3 nukleotydów w genie może kodować jeden aminokwas w białku.
Rozumowanie Gamowa było takie, że nawet podwójny kod (2 nukleotydy na aminokwas) nie będą działać, ponieważ pozwoli to tylko na 16 uporządkowanych grup nukleotydów (4, start superscript, 2, end superscript), za mało, aby pokryć 20 standardowych aminokwasów wykorzystywanych do budowy białek. Kod oparty na trypletach nukleotydów, wyglądał jednak obiecująco: dostarczyłby 64 unikalnych sekwencji nukleotydów (4, start superscript, 3, end superscript), więcej niż potrzeba do pokrycia 20 aminokwasów.
Gamow miał inne niezbyt poprawne pomysły na to, jak kod jest odczytywany (np. myślał, że tryplety nakładają się, o czym wiemy obecnie, że nie ma miejsca)start superscript, 1, end superscript. Jednakże jego centralny pomysł - że trójkowy kod miał "minimum", które mogło pokryć wszystkie aminokwasy - okazał się prawidłowy.
There are 16 unique groups of nucleotides if a doublet code is used, and 64 unique groups if a triplet code is used. Why is this the case? Let's take a closer look at the math behind these statements.

Doublet code

Let’s look at the doublet code first. In a doublet code, an ordered group of two nucleotides codes for one amino acid. How many such groups of two nucleotides can we make? We know that there are 4 different possibilities for each of the 2 nucleotides in the doublet (A, T, C, and G, if we use DNA bases).
If we put an A in the first position, then any of the four other nucleotides can occupy the second position, resulting in four combinations (AA, AT, AG, AC) that begin with an A. We can repeat this for T (TT, TA, TC, TG), C (CC, CT, CA, CG), and G (GG, GC, GT, GA). If we count all of these possibilities, we'll find that there are 16 of them in total.
You may find it faster and more foolproof to use a mathematical shortcut to quickly answer this type of question. Because we know there are 4 possible nucleotides for each position in the doublet, and because the order of the two slots matters, we can use the rules of permutations to calculate the number of possible groups as follows:
(4 possibilities for the first slot) dot (4 possibilities for the second slot) equals
4, dot, 4, equals, 16 possible ordered groups

Triplet code

What about the triplet code? In this case, we can use the same mathematical reasoning, but must add an additional slot to our setup. There are now 3 positions to fill, and each can be occupied by any of the four bases (A, T, C, or G). Since there are 4 possible choices for each position, we can multiply as follows:
(4 possibilities for the first slot) dot (4 possibilities for the second slot) dot (4 possibilities for the third slot) equals
4, dot, 4, dot, 4, equals, 64 possible ordered groups

Dopasowanie kodonów do aminokwasów

Hipoteza trypletu Gamowa wydawała się logiczna i została powszechnie zaakceptowana. Jednakże nie została udowodniona eksperymentalnie i badacze nadal nie wiedzieli, które tryplety odpowiadają jakim aminokwasom.
Złamanie kodu genetycznego rozpoczęło się w 1961 roku pracą amerykańskiego biochemika Marshalla Nirenberga. Po raz pierwszy Nirenberg i jego współpracownicy byli w stanie zidentyfikować tryplety nukleotydów, które odpowiadały odpowiednim aminokwasom. Ich sukces opierał się na eksperymentalnych innowacjach:
  • Sposobie na stworzenie sztucznych cząsteczek mRNA ze specyficznymi, znanymi sekwencjami.
  • Systemie przepisywania mRNA na polipeptydy poza komórką (system "bezkomórkowy"). System Nirenberga składał się z cytoplazmy pękniętych komórek E. coli, która zawierała wszystkie składniki potrzebne do translacji.
Początkowo Nirenberg syntetyzował cząsteczkę mRNA składającą się tylko z uracylu (nazywanej poli-U). Kiedy dodał mRNA poli-U do systemu pozakomórkowego, stwierdził, że polipeptydy zawierały wyłącznie aminokwas fenyloalaninę. Ponieważ jedynym trypletem w mRNA poli-U była UUU, Nirenberg stwierdził, że UUU może kodować fenyloalaninęstart superscript, 2, end superscript. Wykorzystując to samo podejście, był w stanie pokazać, że mRNA poli-C było przepisywane na polipeptydy składające się wyłącznie z aminokwasu proliny, sugerując tym, że tryplet CCC może kodować prolinęstart superscript, 2, end superscript.
mRNA sequence: 5'-...UUUUUUUUUUUU...-3' (poly-U mRNA)
UUU right arrow phenylalanine (Phe)
Polypeptide sequence: (N terminus)...Phe-Phe-Phe-Phe...(C terminus)
Inni badacze, tacy jak biochemik Har Gobind Khorana z Uniwersytetu w Wisconsin, rozszerzyli eksperyment Nirenberga poprzez syntezę sztucznych mRNA z bardziej złożonymi sekwencjami. Na przykład, w jednym eksperymencie, Khorana stworzył mRNA poli-UC (UCUCUCUCUC...) i dodał je do systemu bezkomórkowego podobnego do tego u Nirenbergastart superscript, 3, comma, 4, end superscript.
mRNA poli-UC, które było przepisywane na polipeptydy ze zmieniającym się wzorem aminokwasów seryny i leucyny. Ten i inne wyniki potwierdziły, że kod genetyczny opiera się na trypletach, czyli kodonach. Dzisiaj wiemy, że seryna jest kodowana przez kodon UCU, kiedy leucyna jest kodowana przez CUC.
mRNA sequence: 5'-...UCUCUCUCUCUC...-3' (poly-UC mRNA)
UCU right arrow serine (Ser)
CUC right arrow leucine (Leu)
Polypeptide sequence: (N terminus)...Ser-Leu-Ser-Leu...(C terminus)
Do 1965 roku wykorzystując system pozakomórkowy i inne techniki, Nirenberg, Khorana i ich współpracownicy odczytali cały kod genetyczny. To znaczy, zidentyfikowali aminokwasy i sygnały "stop" odpowiadające każdemu z 64 kodonów. Za ich zasługi Nirenberg i Khorana (wraz z innym odkrywcą kody genetycznego Robertem Holleyem) otrzymali nagrodę Nobla w 1968 roku.
Photographs of Nirenberg and Khorana.
Left: Image modified from "Marshall Nirenberg and Heinrich Matthaei," by N. MacVicar (public domain). Right: "Har Gobind Khorana" (public domain).
Zawsze lubiłem sobie wyobrażać, jak fajnie byłoby być jednym z ludzi, którzy odkryli podstawowy molekularny kod życia. Chociaż obecnie znamy kod, jest wiele innych biologicznych tajemnic nadal czekających na rozwiązanie (może przez Ciebie!).

Autorstwo:

Ten artykuł jest zmodyfikowaną wersją "The genetic code," OpenStax College, Biology, CC BY 4.0. Pobierz oryginalny artykuł za darmo z: http://cnx.org/contents/185cbf87-c72e-48f5-b51e-f14f21b5eabd@10.59.
Zmodyfikowany artykuł może być używany zgodnie z licencją CC BY-NC-SA 4.0.

Cytowane prace:

  1. Lorch, M. (16 sierpnia 2012). The most beautiful wrong ideas in science. W Chemistry blog. Źródło: http://www.chemistry-blog.com/2012/08/16/the-most-beautiful-wrong-ideas-in-science/.
  2. Nirenberg, M. (2004). Historical review: Deciphering the genetic code – a personal account. TRENDS in Biochemical Sciences, 29(1), 46-54. http://dx.doi.org/10.1016/j.tibs.2003.11.009.
  3. Gellene, Denise. (14 listopada 2011). H. Gobind Khorana, 89, Nobel-winning scientist, dies. The New York Times. Źródło: http://www.nytimes.com/2011/11/14/us/h-gobind-khorana-1968-nobel-winner-for-rna-research-dies.html?_r=0.
  4. Nobel Media. (2014). Crack the code - how the code was cracked. W Nobelprize.org. Źródło: https://www.nobelprize.org/educational/medicine/gene-code/history.html.

Bibliografia:

Arnaud, M.B., Inglis, D.O., Skrzypek, M.S., Binkley, J., Shah, P., Wymore, F., Binkley, G., Miyasato, S.R., Simison, M., Sherlock, G. (2013). CGD help: Non-standard genetic codes. W Candida genome database. Źródło: http://www.candidagenome.org/help/code_tables.shtml.
Codon. (2014). W Scitable. Źródło: http://www.nature.com/scitable/definition/codon-155.
Gellene, Denise. (14 listopada 2011). H. Gobind Khorana, 89, Nobel-winning scientist, dies. The New York Times. Źródło: http://www.nytimes.com/2011/11/14/us/h-gobind-khorana-1968-nobel-winner-for-rna-research-dies.html?_r=0.
Guevara Vasquez, F. (2013). Cracking the genetic code. W ACCESS - cryptography 2013. Źródło: http://www.math.utah.edu/~fguevara/ACCESS2013/Cracking_the_Code.pdf.
Nirenberg/Khorana: Breaking the genetic code. (n.d.). Źródło: http://www.mhhe.com/biosci/genbio/raven6b/graphics/raven06b/howscientiststhink/14-lab.pdf.
Nirenberg, M. (2004). Historical review: Deciphering the genetic code – a personal account. TRENDS in Biochemical Sciences, 29(1), 46-54. http://dx.doi.org/10.1016/j.tibs.2003.11.009 0.
Nirenberg, M. & Leder, P. (1964). RNA codewords and protein synthesis. Science, 145(3639), 1399-1407. http://dx.doi.org/10.1126/science.145.3639.1399.
Nirenberg, M. W. & Matthaei, J. H. (1961). The dependence of cell-free protein synthesis in E. coli upon naturally occurring or synthetic polyribonucleotides. PNAS, 47(10), 1588-1602. http://dx.doi.org/10.1073/pnas.47.10.1588.
Office of NIH History. (n.d.). The poly-U experiment. W Deciphering the genetic code: Marshall Nirenberg. Źródło: https://history.nih.gov/exhibits/nirenberg/HS4_polyU.htm.
Openstax College, Biology. (29 września 2015). The genetic code. W OpenStax CNX. Źródło: http://cnx.org/contents/GFy_h8cu@9.87:QEibhJMi@8/The-Genetic-Code.
Purves, W. K., Sadava, D. E., Orians, G. H., Heller, H.C. (2004). The genetic code. W Life: The science of biology (7th ed., pp. 239-241). Sunderland, MA: Sinauer Associates.
Raven, P. H., Johnson, G. B., Mason, K. A., Losos, J. B., Singer, S. R. (2014). The genetic code. W Biology (10th ed., AP ed., pp. 282-284). New York, NY: McGraw-Hill.
Reece, J. B., Urry, L. A., Cain, M. L., Wasserman, S. A., Minorsky, P. V., Jackson, R. B. (2011). The genetic code. W Campbell biology (10th ed., pp. 337-340). San Francisco, CA: Pearson.
Söll, D., Ohtsuka, E., Jones, D. S., Lohrmann, R., Hayatsu, H., Nishimura, S., Khorana, H. G. (1965). Studies on polynucleotides, XLIX. Stimulation of the binding of aminoacyl-sRNA's to ribosomes by ribotrinucleotides and a survey of codon assignments for 20 amino acids. PNAS, 54(5), 1378-1385. Źródło: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC219908/.