Размер шрифта

A
A

Межстрочный интервал

A
A

Цвет

A
A
15 апреля 2020 г.

Черновик - Южный федеральный университет объявил челендж "Создай свой датасет"

15 апреля 2020 г.

В ЮФУ раскрыли пять простых шагов к созданию своего датасета. В репозитории Figshare уже 62 датасета учёных ЮФУ. Все участники челенджа получат призы – устройства для хранения данных.

Большие данные – это «много, много разных данных». Но данные превращаются в информацию только тогда, когда ими заинтересуется человек. 

Датасет или набор данных – это предобработанная и структурированная информация, обычно в табличном виде, предназначенная для статистического анализа, визуализации и обработки алгоритмами машинного обучения.

Вот 5 простых шагов к созданию своего датасета:

1. Выбрать источник данных.

Данные могут быть абсолютно любые: социально-экономические данные, результаты анкетирования, "цифровой след" в образовании, карта распространения коронавируса, данные научных экспериментов, физико-географические данные, медицинские и биологические данные, оценки и рейтинги, тексты на естественном языке (новости, сообщения, диалоги, отзывы), транзакции (множество событий, произошедших одновременно), события и инциденты информационной безопасности, социальные графы и транспортные сети, изображения, видео, аудио и т.д.

2. Определить область приложения и тип задачи машинного обучения.

Данные можно использовать для инфографики и визуализации. Прикладная статистика – тоже часть науки о данных. В экономике машинный интеллект решает задачи кредитного скоринга, прогнозирования ухода клиентов, обнаружения мошенничеств, биржевого технического анализа. Алгоритмы машинного обучения применяются для категоризации документов и обнаружения спама, анализа тональности текста, обработки естественного языка и распознавания речи. Последние годы отмечены прорывными достижениями в видеоаналитике и технологиях компьютерного зрения, например для автопилотов и медицинской диагностики. 

Распространенные типы задач машинного обучения:

  • Обучение с учителем
    • Классификация
    • Регрессия
    • Прогнозирование временных рядов
  • Обучение без учителя
    • Кластеризация
    • Поиск ассоциаций и последовательностей
    • Поиск аномалий
    • Сокращение размерности
    • Заполнение пропущенных значений
  • Обучение с подкреплением

3. Подготовить и разметить данные.

Искусственный интеллект сможет по фотографии оценить качество пиццы, распознает преступников в толпе и серьезные заболевания на ранних стадиях, но сначала ему надо показать тысячи примеров, где эту задачу уже решил человек, – другими словами, подготовить данные для машинного обучения. Это и называется разметкой.

Данные можно разметить вручную или использовать специальные инструменты и сервисы. Если данных очень много, а времени нет, на хабре много интересных статей о том, как разметить датасет с изображениями с помощью краудсорсинговой платформы Яндекс.Толока. Здесь же можно размечать чужие данные и даже на этом зарабатывать.

4. Выбрать формат файла данных.

  • Таблица 
    • Excel
    • Google Sheets
    • CSV
    • JSON
  • База данных
  • Текст
    • txt
    • docx
    • pdf
  • Граф
  • Файловый архив (изображения, видео, аудио или коллекция датасетов)

5. Загрузить датасет в репозиторий Figshare.

Репозиторий Figshare – это динамично развивающийся ресурс, основанный на принципах открытых и связных больших данных, расширенного контента и Web 2.0. Искусственный интеллект автоматически свяжет загруженный датасет с научными публикациями и грантами на сайте международной научно-исследовательской платформы Dimensions. Вы сразу станете видимой и составной частью большой цифровой науки.  

В репозитории Figshare уже 62 датасета учёных ЮФУ, например:

  • Данные инфракрасной термографии лица в ответ на эмоциональные раздражители из статьи Владимира Косоногова с соавторами в журнале PLoS ONE
  • Датасет спайк-волновой активности при амилоидозе головного мозга у мышей из статьи Ирины Ищенко с соавторами в журнале Frontiers in Neurology

Для загрузки датасета в репозиторий Figshare нужно:

  • Зарегистрироваться и авторизоваться на Figshare.com.
  • Подготовить название и описание датасета на английском языке.
  • Добавить соавторов по E-Mail или ORCID.
  • Точно указать область наук в классификаторе (можно искать по ключевым словам).

  • Обязательно включить в ключевые слова SFedU для аффилиации с Южным федеральным университетом.

  • Указать источник финансовой поддержки исследования.
  • Добавить ссылку на статью или другой связанный материал через DOI.
  • Выбрать тип лицензии:
    • CC BY 4.0 "С указанием авторства"
    • CC0 "Передача в общественное достояние" 

При работе с источниками данных внимательно изучайте права на их использование. Открытая цифровая наука не терпит плагиат.

Лицензия CC BY 4.0 "С указанием авторства" позволяет другим людям распространять, редактировать, модифицировать и брать ваше произведение за основу для производных даже на коммерческой основе с указанием вашего авторства. Это самая удобная из всех предлагаемых лицензий. Рекомендуется для максимального распространения и использования лицензированных материалов.

Лицензия CC0 "Передача в общественное достояние" подразумевает отказ владельца от своих авторских прав и передачу произведения в общественное достояние. Произведениями в общественном достоянии может пользоваться любой человек без каких-либо разрешений и лицензионных отчислений.

  • Установить отложенную дату публикации (эмбарго), если вы связаны обязательствами с издательством.

Заинтересовавшись, учёные по данным смогут быстро выгрузить ваш датасет для работы с ним в Colab/Jupyter Notebook.

Публиковать датасет можно либо по результатам исследования, либо в начале творческого пути, тем самым обратить на него внимание учёных по данным, математиков и айтишников. Это отличный способ создать междисциплинарную команду и найти соавторов будущей статьи. Не останавливайтесь на одном датасете, создайте второй, третий... Наука о данных – это доступно и увлекательно, это будущее, которое уже здесь. 

Но и это еще не всё. Расскажи о своем датасете в коротком видеочелендже и размести ролик на YouTube или ВКонтакте с хэштегом #ЮФУСоздайСвойДатасет.

Все авторы датасетов получат флешки от офиса образовательных программ по машинному обучению и большим данных ЮФУ, а победители – книги по машинному обучению и внешний жесткий диск 4 Тб с функцией резервного копирования от партнёра акции НИКС Компьютерный Супермаркет Таганрог.

Первый датасет в нашей коллекции – данные о цифровом следе обучающихся Южного федерального университета за первый месяц работы в дистанционном режиме с 13 марта по 12 апреля 2020 года.

Вопросов много: Влияют ли форма обучения и направление подготовки на активность в Teams? Кто более разговорчивый - бакалавры или магистры? Кому чаще пишут в личку? Ростов или Таганрог? Сколько времени проводят в чате филологи? Правда ли, что айтишники чаще других шарят свои экраны? Наконец, можно ли спрогнозировать активность обучающихся по подразделениям на следующую неделю?

Южный федеральный университет в 2020 году объявил набор на магистерскую программу "Машинное обучение и технологии больших данных". По всем вопросам можно обращаться к руководителю офиса образовательных программ, кандидату технических наук, доценту Алексею Целых.

Краткая ссылка на новость sfedu.ru/news/62678

Дополнительные материалы по теме