Я не биолог и не генетик, но возможность поисследовать цифровой код своей молекулы ДНК вызвала жесточайший интерес.
Наверное, все согласятся с фактом, что некоторые мутации генов увеличивают риск развития серьезных заболеваний. Вот показательные примеры.
- Сергей Брин писал в 2008 году о наследственной мутации (G2019S в гене LRRK2), которая увеличивает его предрасположенность к болезни Паркинсона в зрелом возрасте.
- Более известна история Анджелины Джоли о найденной раковой мутации в гене BRCA1.
Расшифровка своей ДНК в раннем возрасте, как минимум, дает нам время (на жалость к себе, нытье окружающим или) предпринять шаги по профилактике заболеваний. Как если бы компьютерная программа находила баги в своем коде и сама заводила тикеты на их исправление.
Открытием для меня оказалось то, что строение генов влияет на уровень оптимизма (привет всем генетическим пессимистам), чувство одиночества, тревожности, реакцию организма на стресс, темперамент и, даже, внимание, на уровень EQ — эмоционального интеллекта (привет тренингам по развитию эмпатии).
Да что уж там — на реакцию организма на кофеин (ген CYP1A2) и предрасположенность к зависимости от алкоголя (гены OXTR3, OPRM1) и никотина (CHRNA3, GABBR2). Важно то, что зная свои генетические предрасположенности — можно более эффективно с ними справляться.
В 2007 году полногеномное секвенирование стоило 1 млн $, в 2011 году Стив Джобс заплатил за анализ 100 000 $, сейчас расшифровать свой генотип стоит несколько сотен долларов (в России сильно дороже). Можно даже заказать домашний карманный секвенатор (устройство, которое преобразует химическую последовательность нуклеотидов молекулы ДНК в текстовую) на eBay, надеюсь, вскоре увидеть и на Яндекс.Маркет. Или найти лабораторию по секвенированию генома, сдать анализ, подождать несколько дней (месяцев в России) и получить результат: и код, и его интерпретацию.
А можно исследовать код молекулы дома на диване за ноутбуком и чашкой кофе. Тем более, не все лаборатории из-за этических соображений откроют полноценную картину предрасположенностей к заболеваниям.
Результат работы секвенатора — исходный код молекулы ДНК в формате FASTQ (в моем случае, или каком-то очень аналогичном в других лабораториях). Это как с помощью двочиного редактора открыть код программы на компьютере. Только вместо «0» и «1» значения представлены четырьмя символами, каждому из которых соответствует свой нуклеотид: A — аденин, T — тимин, G — гуанин и C — цитозин.
Вот кусочек моего исходника:
@ERR020235.37914217 HWIST160_382:5:26:8430:2030/2 CTTCTCAGACTTTCAGGAAGTACAGTGCTACTAATATTCTTGGAGGTTATTATTCTTTCTTCTTGGTGAAGAGGATGTTGAAAGATCCATA + EFDF?EEEEEBDDDBDEE:EB:DDDEDEFDDAE5AEEDF?GGFGEA>A5ACCCCCGFE>;EEEC?==@,;==>B;@A?AC.;><5<:?AAB
Кроме последовательности нуклеотидов файл содержит мета-информацию и оценку качества прочтения каждого нуклеотида в последовательности. Если упростить и убрать мета-данные, получаем простую последовательность нуклеотидов:
CTTCTCAGACTTTCAGGAAGTACAGTGCTACTAATATTCTTGGAGGTTATTATTCTTTCTTCTTGGTGAAGAGGATGTTGAAAGATCCATA
На самом деле, последовательность нуклеотидов в ДНК человека одинакова для всех нас больше чем на 99%, если вы не мутант-киборг — то и для вас тоже. Полный исходный код моей молекулы ДНК — 6 млрд. символов в текстовом фале размером 1.2 Гб. К слову, это больше 1000 томов «Война и мир». Интересно еще и то, что не вся эта длинная последовательность состоит из генов. Большая часть информации — наследственный мусор, который не влияет на формирование белков в организме (по крайней мере, так считается сейчас).
Возвращаюсь к своим исходникам — посмотрите, как этот код визуально напоминает команды процессору написанные на ассемблере.
Это сокращенная форма записи в формате VCF (международный формат хранения генетической информации). Некоторые лаборатории результат секвенирования отдают в таком виде — с отражением только изменений относительно референсного генома человека (индивидуальные полиморфизмы). Наверное, стоит сказать, что есть эталонный код генома человека (на самом деле составленный из ДНК нескольких людей), у которого есть и версия билда, и версия релиза — wow!). Исходник референсного генома можно скачать на сайте национального центра биотехнологий США, последний релиз опубликован под кодовым названием GRCh38. p13 от 28 фев. 2019 года (Genome Reference Consortium Human Build 38 patch release 13).
Будущее, в котором программисты-генетики смогут изменить код молекулы ДНК взрослого человека — далеко, наверное. Но ведь первые шаги в редактировании генов человеческого эмбриона уже сделаны.
Мне будет интересно пообщаться с людьми близкими к молекулярной биологии, генетике или, тем более, биоинформатики. Если такие есть — приглашаю на хороший кофе ☕️.