Перейти к содержанию

Выводы по структуре данных:

Ноутбук с анализом

Общая информация о данных

  • Общее количество изображений в датасете: 21000
  • Количество классов: 15

Средние, минимальные и максимальные размеры изображений

  • Среднее значение ширины - 224px, высоты - около 224px (223.99)
  • Минимальное значение ширины - 224px, высоты - 187px
  • Максимальное значение для ширины и высоты - 224px

Средние значения и отклонения по каналам (R, G, B)

  • Для канала красного цвета: большой разброс среднего значения (от 105 для Papaya до 147 для Tomato). Большое стандартное отклонение для моркови и перца.
  • Для канала зеленого цвета: средние значения для большинства классов находятся около 120. Класс Potato имеет большое стандартное отклонение (18.3)
  • Для канала синего цвета: большой разброс среднего значения (от 55.8 для Papaya до 120 у картофеля). Классы Potato и Capsicum имеют большое стандартное отклонение - 23.4 и 22.5 соответственно.

Среднее значение и стандартное отклонение варьируется от класса к классу.

Метаданные изображений

У некоторых изображений (5186 из 21000) присутствуют EXIF-данные, можно использовать как дополнительные признаки

Баланс классов:

Датасет содержит в себе 15 классов. Каждой категории соответствует 1400 изображений. Датасет хорошо сбалансирован, устранять дисбаланс классов не нужно.

Размер изображений:

Основная часть картинок размером 224 на 224 px, но встречаются картинки другого размера. Изображений другого размера 9шт. Они отличаются от общих только высотой. Данные изображения с высотой другого размера присутствуют в категории Papaya и Bitter_Gourd. Самая подходящая ширина и высота для картинок - 224 * 224px, т.к. почти все изображения имеют данный размер.

Выбросы

Встречаются изображения с размером, отличным от 224*224px, для данных изображений следует изменить размер на подходящий.