🥗 Фрукты и Овощи: Разведочный анализ датасета (EDA)
📁 Общая информация
Для анализа используется объединенный датасет изображений фруктов и овощей. Разведочный анализ каждого датасета по отдельности: - EDA Fruits360 - EDA Vegetables - EDA tasty_fruit
Подготовка данных: Ноутбук с объединением датасетов Примененные методы: - Oversampling: изменение контрастности, яркости, повороты, отзеркаливание - Undersampling: случайное удаление изображений для балансировки
Статистика датасета: - 33 класса - По 1400 изображений в каждом классе - Датасет сбалансирован
📐 Размеры изображений
📏 Базовые метрики
| Характеристика | Значение |
|---|---|
| Средняя ширина | 180px |
| Средняя высота | 171px |
| Мин. размер | 100x100px |
| Макс. размер | 453x363px |
Значительная часть (около 25% датасета) представлена в таком размере 100x100px.
📊 Квантили
- 50% изображений: до 224x194px
- 75% изображений: до 224x224px
Рекомендации: 1. Привести все изображения к 224x224px (совместимо с нейронными сетями ResNet/VGG) 2. Провести эксперименты с меньшими размерами: 64x64, 100x100, 128x128, 192x192
🎨 Цветовые характеристики
📊 Статистика по каналам
- Средние значения и стандартные отклонения по каналам сильно варьируются между классами
- В некоторых классах изображения имеют похожие цветовые палитры (например, разные ракурсы одного объекта), это сказывается на стандартном отклонении.
📸 Метаданные изображений
📝 EXIF-данные
- Присутствуют у 4234 из 46200 изображений
- Анализировались параметры:
model,aperture_value,brightness_value,focal_length,digital_zoom_ratio
🔍 Наблюдения
- Изображения с разным фокусным расстоянием и яркостью имеют визуальные различия
- Качество изображений зависит от модели камеры
🔍 Анализ классов
При визуальном анализе нескольких примеров изображений из каждого класса было обнаружено
🍅 Tomato
- Большинство изображений растянуты и сплюснуты
🍠 Radish
- Все образцы светлые и вытянутые (отсутствуют круглые красные варианты)
🍆 Brinjal
- Только зеленые баклажаны (отсутствуют фиолетовые варианты)
🎃 Pumpkin
- Все тыквы зеленоватые (отсутствуют оранжевые/рыжие варианты)
⚠️ Особенности
- Низкокачественные изображения 100x100px (проблемы с детализацией)
- Изображения с измененной контрастностью/резкостью
- Повернутые изображения с белыми областями по краям
🧹 Предобработка
🔁 Дубликаты
- Обнаружены через сравнение хешей
- Дубликаты изображений были изменены при помощи отзеркаливания, поворота на угол, изменения яркости и контрастности.
🔄 Балансировка
- Удаление дублирующихся классов:
Объединить
StrawberryиStrawberries(например, 60% изStrawberries+ 40% изStrawberry)
📌 Рекомендации
- Ресайзинг: Привести все изображения к 224x224px
- Фильтрация: Удалить низкокачественные изображения 100x100px
- Аугментация: Добавить дополнительные аугментации для сложных классов
- Эксперименты: Проверить качество модели на разных размерах изображений
- Очистка: Удалить дубликаты и объединить дублирующиеся классы