Чтобы построить единое генеалогическое древо, исследователи сначала собрали воедино геномные данные из нескольких крупных наборов данных разных проектов. Они включали 3601 высококачественную последовательность генома современных людей, и 8 — древних, в числе которых есть геномы неандертальца и денисовца.
В результате генеалогическая структура представляет собой анализ 27 миллионов фрагментов гаплотипов предков и 231 миллиона родословных, связывающих геномы из этих наборов данных. Также ученые использовали дополнительные 3589 древних образцов более низкого качества для ограничения и датирования взаимосвязей.
Древо, созданное в исследовании, показывает довольно много информации о генеалогии всего человечества. В целом, авторы работы реконструировали человеческую историю максимально точно с учетом имеющихся данных. Однако с большим количеством образцов генома и более сложным программным обеспечением генеалогическое древо могло бы быть еще точнее.
Здесь важно, что в процессе работы были созданы методы, главное преимущество которых — в их потенциальной возможности работать даже с миллионами образцов. Чем больше данных, тем точнее будет результат.
Сейчас члены команды работают над созданием новых алгоритмов машинного обучения, чтобы получить более точные данные о том, где и когда жили наши предки. Теоретически, тот же метод построения древа поможет лучше понять генетические основы болезней человека: можно определить точку происхождения аллелей, связанных с болезнью, а затем реконструировать, как и когда эти варианты генов распространяются в разных популяциях. И, наконец, метод можно использовать для отслеживания истории эволюции других организмов, таких как пчелы или крупный рогатый скот, и даже вирусов.