Размер шрифта

A
A

Межстрочный интервал

A
A

Цвет

A
A
02.04.2020

Учёные ЮФУ создают и анализируют датасеты о COVID-19

02.04.2020

Доцент кафедры информационно-аналитических систем безопасности ЮФУ, руководитель офиса магистерских программ по машинному обучению и технологиям больших данных Алексей Целых рассказывает, чем отвечает на новые вызовы «наука о данных» и что такое датасет.

Что мы знаем о генетике вируса, его происхождении и эволюции? Кто находится в группе риска? Какая терапия и вакцины наиболее эффективны? Что известно о механизмах передачи вируса, инкубационном периоде и устойчивости коронавируса к температуре и поверхностям? Как на темпы распространения вируса влияют погодные условия? В поиск ответов на эти и другие вопросы активно включились учёные и обучающиеся Южного федерального университета.
Сегодня все внимание общественности, академического и научного сообщества приковано к новой коронавирусной инфекции. Сбор, анализ и наглядная визуализация данных позволяют лучше понять пандемию и сделать посильный вклад в экосистему знаний. 
«Датасет или набор данных – это обработанная и структурированная информация, обычно в табличном виде, пригодная для статистического анализа, визуализации и обработки алгоритмами машинного обучения. Мировой объем данных и знаний растет экспоненциально. В старейшем репозитории UCI Machine Learning Repository – 497 датасетов, в популярном у специалистов по изучению данных (Data Scientist) репозитории Kaggle – более 32 тысяч, в распределённом репозитории академического сообщества Dataverse – более 96 тысяч, а в репозитории международной научно-исследовательской платформы Dimensions – почти 1,5 миллиона. Подборка датасетов о коронавирусе от Kaggle удобна тем, что все решения являются воспроизводимыми в «облаке» Kaggle Notebook и Google Colab.

Вы не «изобретаете колесо», а отталкиваетесь от лучших из существующих решений. В несколько кликов мыши можете повторить эксперимент, чтобы подтвердить его эффективность, или применить алгоритм к другому датасету. Вы работаете с исходными данными в режиме реального времени. Вся информация доступна в любой момент, поэтому не нужно ждать очередной выпуск новостей или отчет аналитического агентства. По ссылке обновляются результаты исследований, полученные участниками сообщества Kaggle – скорость появления новых выводов впечатляет»,  – необходимые пояснения дает эксперт.


По словам Алексея Целых, студенты ЮФУ построили визуализацию распространения коронавируса в разрезе Южного федерального округа и тех 62 зарубежных стран, которые представляют географию формирования контингента иностранных обучающихся ЮФУ, а это 2483 человека, ежечасно ждущих новостей с родины.

Эксперт подробно остановился на вопросе важности самоизоляции.

"На основе датасета о передвижении людей по России общественным транспортом (самолеты, ж/д и автобусы) за апрель 2019 года сообщество Open Data Science смоделировало распространение инфекции. В пессимистичном сценарии, если бы в полной мере сохранилось сообщение между городами, Ростов-на-Дону мог перешагнуть порог в тысячу заболевших уже через 30 дней, в десять тысяч заболевших - через 41 день, в сто тысяч заболевших - через 55 дней. При "изолированном" сценарии, когда осуществляются только 10% регулярных перевозок, порог в тысячу заболевших может быть достигнут за 56 дней, а в десять тысяч заболевших - за 76 дней. В списке российских городов Ростов-на-Дону, как важный транспортный узел, занимает восьмое место после Москвы, Ижевска, Кирова, Нижнего Новгорода, Архангельска, Брянска и Санкт-Петербурга", - подчеркнул Алексей Целых.
«Ключевой партнер ЮФУ компания Dimensions в своей деятельности опирается на парадигму больших данных, что позволяет проследить возникающие взаимосвязи между организациями, учёными и артефактами научной деятельности. Репозиторий данных Figshare автоматически пополняется датасетами из дополнительных материалов к научным статьям. Все это позволяет буквально держать руку на пульсе той напряженной работы, которую ведут академические и научные организации и «невидимый колледж» из тысяч учёных со всего мира.

Только за этот год по тематике новой коронавирусной инфекции уже опубликованы 5996 научных статей, 125 датасетов и 848 результатов клинических испытаний. Национальным фондом естественных наук Китая, Национальным научным фондом США и другими научными фондами в короткие сроки открыты 16 научно-исследовательских грантов, по которым получены первые результаты. Самоизоляция у экранов компьютеров создает благодатную почву для аналитики данных и создания собственных датасетов. Включиться в эту работу и найти ключ к победе над коронавирусом может каждый»,- добавил Алексей Целых.

Публикации по коронавирусу на сайте Dimensions

Датасеты по коронавирусу на сайте Figshare

Датасеты по коронавирусу на сайте Kaggle

Краткая ссылка на новость sfedu.ru/news/62583

Дополнительные материалы по теме