
SARS-Cov-2 - вирус, вызывающий Covid-19, постепенно изменяет части своего генетического материала, что облегчает его распространение среди населения. Новые штаммы уже зафиксированы в Африке, Америке и Европе. Немного успокаивает то, что существующие вакцины и методы лечения антителами все еще могут быть эффективными против новых штаммов. Но так бывает не всегда.
«Вирусный побег» — это самый неприятный сценарий, при котором он мутирует ровно настолько, чтобы существующие в организме антитела перестали его распознавать. С эволюционной точки зрения вирусные мутации и наша иммунная система постоянно играют в кошки-мышки. Возьмем, например, грипп. Он меняется постоянно, и каждый год медики собирают образцы новой разновидности сезонного гриппа, чтобы потом на их основе сделать новую вакцину. А на следующий год грипп мутирует опять, и эта «игра» продолжается.
Странная идея ученых из Кембриджа
В своей статье, опубликованной в журнале «Science», команда ученых из Кембриджа предложила новый инструмент для предсказания вирусных мутаций. Он основан на методах обработки естественного языка (Natural Language Processing, NLP) - области искусственного интеллекта математической лингвистики, анализирующей человеческую речь.Идея команды заключалась в том, чтобы создать своего рода «вирусный язык», основанный исключительно на его генетических последовательностях. Если дать этому языку достаточно примеров, его можно будет проанализировать с помощью методов NLP, чтобы предсказать, как изменения в вирусном геноме влияют на его взаимодействие с нашей иммунной системой.
Это очень странная идея. Тем не менее, при тестировании на некоторых из наших основных вирусных врагов, таких как:
- грипп (сезонный грипп)
- ВИЧ
- SARS-CoV-2

Неожиданная, но простая аналогия с языком
Язык содержит и грамматику, и семантику. Грамматика неизменна, она устанавливает структуру предложения. А подвижная семантика отвечает за смысл предложения. Можно просто поменять слова при этом сохраняя грамматику нетронутой. Другими словами, вполне возможно произнести грамматически правильную тарабарщину. Вспомните «Варкалось. Хливкие шорьки пырялись по наве, и хрюкотали зелюки, как мюмзики в мове» из «Алисы в Стране Чудес» Льюиса Кэрролла.Вирусы также работают по двум основным признакам. Оба связаны с их взаимодействием с нашей иммунной системой. Любой вирус должен следовать своей собственной «грамматике». Эти фундаментальные последовательности, зафиксированные в его геноме, позволяют ему выжить. Нарушите грамматику с помощью слишком большого количества мутаций или мутаций в критических точках, и вирус больше не сможет проникать в клетку и воспроизводиться и зайдет в эволюционный тупик. То есть он должен сохранять свою «грамматику» нетронутой. Что касается «семантики», то тут у вирусов свобода действий. Представьте себе вирус как говорящего, а нашу иммунную систему - как слушателя. Мутации вирусного генома, которые меняют «слова», но оставляют грамматику нетронутой, могут обмануть иммунного «слушателя» ровно настолько, чтобы он больше не понимал этот язык. А так как грамматика вируса остается, он может воспроизводиться и вызывать хаос, скрытый от защиты иммунной системы.
Как при помощи математической лингвистики предсказать мутации?

Высказав такую гипотезу, ученые решили задействовать для анализа вирусов алгоритмы искусственного интеллекта. В последние годы ИИ стал чрезвычайно эффективным в моделировании как грамматики, так и семантики человеческого языка. Некоторые алгоритмы уже способны производить поразительную человеческую прозу, грамматически правильную и даже в основном посвященную заданной теме. Эти алгоритмы не изучают лингвистику, а изучают обширный корпус текста, составленный из слов, коротких фраз, предложений и абзацев. Даже без предварительной подготовки ИИ способен улавливать закономерности в человеческом языке. Никаких правил — это полностью распознавание образов.
Теперь представьте, что примерный текст — это «нормальный» геном вируса, а мутации - альтернативные новые фразы. Если рассматривать вирус как язык, то такой алгоритм может начать схватывать последовательности, связанные с грамматикой и семантикой вируса, без каких-либо предварительных знаний микробиологии.
Это действительно работает
Ученые применили алгоритмы к некоторым вирусам гриппа, ВИЧ и SARS-CoV-2, чтобы найти генетические мутации, которые позволяют им ускользнуть от иммунного удара. Оценивая каждую область с помощью своего алгоритма, команда обнаружила несколько целевых белковых пятен, которые связаны с более успешными мутациями вирусов, уже ранее выявленными лабораторно. То есть, совершенно незнакомый с микробиологией алгоритм, основываясь исключительно на «языке» вируса, обнаружил его эффективные мутации.Это очень важный результат, и если в дальнейших исследованиях подход ученых из Кембриджа подтвердит свою эффективность, то перед человечеством откроются совершенно новые возможности создания эффективной вакцины против ВИЧ или универсальной вакцины против гриппа. Это также поможет предсказать все возможные варианты мутации нового коронавируса, и, в свою очередь, поможет предотвратить все его новые попытки ускользнуть от защитных сил организма.
Текст: Юлия Долженкова.