В ЮФУ раскрыли пять простых шагов к созданию своего датасета. В репозитории Figshare уже 62 датасета учёных ЮФУ. Все участники челенджа получат призы – устройства для хранения данных.
Большие данные – это «много, много разных данных». Но данные превращаются в информацию только тогда, когда ими заинтересуется человек.
Датасет или набор данных – это предобработанная и структурированная информация, обычно в табличном виде, предназначенная для статистического анализа, визуализации и обработки алгоритмами машинного обучения.
Вот 5 простых шагов к созданию своего датасета:
1. Выбрать источник данных.
Данные могут быть абсолютно любые: социально-экономические данные, результаты анкетирования, "цифровой след" в образовании, карта распространения коронавируса, данные научных экспериментов, физико-географические данные, медицинские и биологические данные, оценки и рейтинги, тексты на естественном языке (новости, сообщения, диалоги, отзывы), транзакции (множество событий, произошедших одновременно), события и инциденты информационной безопасности, социальные графы и транспортные сети, изображения, видео, аудио и т.д.
2. Определить область приложения и тип задачи машинного обучения.
Данные можно использовать для инфографики и визуализации. Прикладная статистика – тоже часть науки о данных. В экономике машинный интеллект решает задачи кредитного скоринга, прогнозирования ухода клиентов, обнаружения мошенничеств, биржевого технического анализа. Алгоритмы машинного обучения применяются для категоризации документов и обнаружения спама, анализа тональности текста, обработки естественного языка и распознавания речи. Последние годы отмечены прорывными достижениями в видеоаналитике и технологиях компьютерного зрения, например для автопилотов и медицинской диагностики.
Распространенные типы задач машинного обучения:
- Обучение с учителем
- Классификация
- Регрессия
- Прогнозирование временных рядов
- Обучение без учителя
- Кластеризация
- Поиск ассоциаций и последовательностей
- Поиск аномалий
- Сокращение размерности
- Заполнение пропущенных значений
- Обучение с подкреплением
3. Подготовить и разметить данные.
Искусственный интеллект сможет по фотографии оценить качество пиццы, распознает преступников в толпе и серьезные заболевания на ранних стадиях, но сначала ему надо показать тысячи примеров, где эту задачу уже решил человек, – другими словами, подготовить данные для машинного обучения. Это и называется разметкой.
Данные можно разметить вручную или использовать специальные инструменты и сервисы. Если данных очень много, а времени нет, на хабре много интересных статей о том, как разметить датасет с изображениями с помощью краудсорсинговой платформы Яндекс.Толока. Здесь же можно размечать чужие данные и даже на этом зарабатывать.
4. Выбрать формат файла данных.
- Таблица
- Excel
- Google Sheets
- CSV
- JSON
- База данных
- Текст
- txt
- docx
- Граф
- Файловый архив (изображения, видео, аудио или коллекция датасетов)
5. Загрузить датасет в репозиторий Figshare.
Репозиторий Figshare – это динамично развивающийся ресурс, основанный на принципах открытых и связных больших данных, расширенного контента и Web 2.0. Искусственный интеллект автоматически свяжет загруженный датасет с научными публикациями и грантами на сайте международной научно-исследовательской платформы Dimensions. Вы сразу станете видимой и составной частью большой цифровой науки.
В репозитории Figshare уже 62 датасета учёных ЮФУ, например:
- Данные инфракрасной термографии лица в ответ на эмоциональные раздражители из статьи Владимира Косоногова с соавторами в журнале PLoS ONE
- Датасет спайк-волновой активности при амилоидозе головного мозга у мышей из статьи Ирины Ищенко с соавторами в журнале Frontiers in Neurology
Для загрузки датасета в репозиторий Figshare нужно:
- Зарегистрироваться и авторизоваться на Figshare.com.
- Подготовить название и описание датасета на английском языке.
- Добавить соавторов по E-Mail или ORCID.
- Точно указать область наук в классификаторе (можно искать по ключевым словам).
- Обязательно включить в ключевые слова SFedU для аффилиации с Южным федеральным университетом.
- Указать источник финансовой поддержки исследования.
- Добавить ссылку на статью или другой связанный материал через DOI.
- Выбрать тип лицензии:
- CC BY 4.0 "С указанием авторства"
- CC0 "Передача в общественное достояние"
При работе с источниками данных внимательно изучайте права на их использование. Открытая цифровая наука не терпит плагиат.
Лицензия CC BY 4.0 "С указанием авторства" позволяет другим людям распространять, редактировать, модифицировать и брать ваше произведение за основу для производных даже на коммерческой основе с указанием вашего авторства. Это самая удобная из всех предлагаемых лицензий. Рекомендуется для максимального распространения и использования лицензированных материалов.
Лицензия CC0 "Передача в общественное достояние" подразумевает отказ владельца от своих авторских прав и передачу произведения в общественное достояние. Произведениями в общественном достоянии может пользоваться любой человек без каких-либо разрешений и лицензионных отчислений.
- Установить отложенную дату публикации (эмбарго), если вы связаны обязательствами с издательством.
- Получить цифровой идентификатор DOI.
- Проверить все поля и нажать «Опубликовать». Ваши данные не должны нарушать ФЗ-152 и Общий регламент Евросоюза о защите персональных данных.
Заинтересовавшись, учёные по данным смогут быстро выгрузить ваш датасет для работы с ним в Colab/Jupyter Notebook.
Публиковать датасет можно либо по результатам исследования, либо в начале творческого пути, тем самым обратить на него внимание учёных по данным, математиков и айтишников. Это отличный способ создать междисциплинарную команду и найти соавторов будущей статьи. Не останавливайтесь на одном датасете, создайте второй, третий... Наука о данных – это доступно и увлекательно, это будущее, которое уже здесь.
Но и это еще не всё. Расскажи о своем датасете в коротком видеочелендже и размести ролик на YouTube или ВКонтакте с хэштегом #ЮФУСоздайСвойДатасет.
Все авторы датасетов получат флешки от офиса образовательных программ по машинному обучению и большим данных ЮФУ, а победители – книги по машинному обучению и внешний жесткий диск 4 Тб с функцией резервного копирования от партнёра акции НИКС Компьютерный Супермаркет Таганрог.
Первый датасет в нашей коллекции – данные о цифровом следе обучающихся Южного федерального университета за первый месяц работы в дистанционном режиме с 13 марта по 12 апреля 2020 года.
Вопросов много: Влияют ли форма обучения и направление подготовки на активность в Teams? Кто более разговорчивый - бакалавры или магистры? Кому чаще пишут в личку? Ростов или Таганрог? Сколько времени проводят в чате филологи? Правда ли, что айтишники чаще других шарят свои экраны? Наконец, можно ли спрогнозировать активность обучающихся по подразделениям на следующую неделю?
Южный федеральный университет в 2020 году объявил набор на магистерскую программу "Машинное обучение и технологии больших данных". По всем вопросам можно обращаться к руководителю офиса образовательных программ, кандидату технических наук, доценту Алексею Целых.
Краткая ссылка на новость sfedu.ru/news/62678

