Выводы на основе проведенного анализа:
1. Общая информация о данных
Датасет с размером изображений 100х100:
- Общее количество изображений в датасете: 94110
- Средние значения: R = 175.33, G = 149.5, B = 130.34
- Стандартные отклонения: R = 66.03, G = 81.57, B = 92.95
Датасет с оригинальным размером изображений:
- Общее количество изображений в датасете: 12455
- Средний размер изображений: 453х531
- Максимальный размер изображений: 950х1061
- Минимальный размер изображений: 96х250
- Средние значения: R = 158.03, G = 132.29, B = 102.46
- Стандартные отклонения: R = 66.03, G = 75.76, B = 85.91
2. Баланс классов:
Датасет с размером изображений 100х100:
- Среднее количество изображений в классе: около 500.
- Больше среднего количества изображений отмечается в классах: Apple Red Yellow 2, Pepper Orange 1, Tomato Heart 1, Cauliflower 1, Melon Piel De Sapo 1, Pear Forelle 1, Apple hit 1, Tomato 2, Pepper Yellow 1, Cherry 2, Cherry Rainier 1, Nut Forest 1, Walnut 1, Peach 2, Pear 2, Pear Red 1, Fig 1, Grape Blue 1, Plum 3, Pear Stone 1, Tomato 1,Tomato 3, Pepper Red 1, Strawberry Wedge 1
- Меньше среднего количества изображений отмечается в классах: Ginger Root 1, Cucumber 1, Mangostan 1, Carrot 1, Zucchini 1, Cucumber 3, Pear 3, Cabbage White 1, Zucchini Dark 1, Pear Kaiser 1, Eggplant long 1. Требуется применение методов для устранения дисбаланса классов.
Датасет с оригинальным размером изображений:
- Среднее количество изображений в классе: около 300.
- Больше среднего количества изображений отмечается в классах: apple_hit_1
- Меньше среднего количества изображений отмечается в классах: carrot_1, zucchini_dark_1, cucumber_3, pear_3, cucucmber_1, eggplant_long_1, zucchini_1, cabbage_white_1. Требуется применение методов для устранения дисбаланса классов.
3. Выбросы:
Датасет с оригинальным размером изображений:
Присутствуют изображения с необычными размерами, например 100х750, 220х950. Выбросы можно посмотреть в функции scatter_size_images()