Выводы по структуре данных:
Общая информация о данных
- Общее количество изображений в датасете: 21000
- Количество классов: 15
Средние, минимальные и максимальные размеры изображений
- Среднее значение ширины - 224px, высоты - около 224px (223.99)
- Минимальное значение ширины - 224px, высоты - 187px
- Максимальное значение для ширины и высоты - 224px
Средние значения и отклонения по каналам (R, G, B)
- Для канала красного цвета: большой разброс среднего значения (от 105 для Papaya до 147 для Tomato). Большое стандартное отклонение для моркови и перца.
- Для канала зеленого цвета: средние значения для большинства классов находятся около 120. Класс Potato имеет большое стандартное отклонение (18.3)
- Для канала синего цвета: большой разброс среднего значения (от 55.8 для Papaya до 120 у картофеля). Классы Potato и Capsicum имеют большое стандартное отклонение - 23.4 и 22.5 соответственно.
Среднее значение и стандартное отклонение варьируется от класса к классу.
Метаданные изображений
У некоторых изображений (5186 из 21000) присутствуют EXIF-данные, можно использовать как дополнительные признаки
Баланс классов:
Датасет содержит в себе 15 классов. Каждой категории соответствует 1400 изображений. Датасет хорошо сбалансирован, устранять дисбаланс классов не нужно.
Размер изображений:
Основная часть картинок размером 224 на 224 px, но встречаются картинки другого размера. Изображений другого размера 9шт. Они отличаются от общих только высотой. Данные изображения с высотой другого размера присутствуют в категории Papaya и Bitter_Gourd. Самая подходящая ширина и высота для картинок - 224 * 224px, т.к. почти все изображения имеют данный размер.
Выбросы
Встречаются изображения с размером, отличным от 224*224px, для данных изображений следует изменить размер на подходящий.