Перейти к содержанию

🥗 Фрукты и Овощи: Разведочный анализ датасета (EDA)

📁 Общая информация

Для анализа используется объединенный датасет изображений фруктов и овощей. Разведочный анализ каждого датасета по отдельности: - EDA Fruits360 - EDA Vegetables - EDA tasty_fruit

Подготовка данных: Ноутбук с объединением датасетов Примененные методы: - Oversampling: изменение контрастности, яркости, повороты, отзеркаливание - Undersampling: случайное удаление изображений для балансировки

Статистика датасета: - 33 класса - По 1400 изображений в каждом классе - Датасет сбалансирован


📐 Размеры изображений

📏 Базовые метрики

Характеристика Значение
Средняя ширина 180px
Средняя высота 171px
Мин. размер 100x100px
Макс. размер 453x363px

Значительная часть (около 25% датасета) представлена в таком размере 100x100px.

📊 Квантили

  • 50% изображений: до 224x194px
  • 75% изображений: до 224x224px

Рекомендации: 1. Привести все изображения к 224x224px (совместимо с нейронными сетями ResNet/VGG) 2. Провести эксперименты с меньшими размерами: 64x64, 100x100, 128x128, 192x192


🎨 Цветовые характеристики

📊 Статистика по каналам

  • Средние значения и стандартные отклонения по каналам сильно варьируются между классами
  • В некоторых классах изображения имеют похожие цветовые палитры (например, разные ракурсы одного объекта), это сказывается на стандартном отклонении.

📸 Метаданные изображений

📝 EXIF-данные

  • Присутствуют у 4234 из 46200 изображений
  • Анализировались параметры: model, aperture_value, brightness_value, focal_length, digital_zoom_ratio

🔍 Наблюдения

  • Изображения с разным фокусным расстоянием и яркостью имеют визуальные различия
  • Качество изображений зависит от модели камеры

🔍 Анализ классов

При визуальном анализе нескольких примеров изображений из каждого класса было обнаружено

🍅 Tomato

  • Большинство изображений растянуты и сплюснуты

🍠 Radish

  • Все образцы светлые и вытянутые (отсутствуют круглые красные варианты)

🍆 Brinjal

  • Только зеленые баклажаны (отсутствуют фиолетовые варианты)

🎃 Pumpkin

  • Все тыквы зеленоватые (отсутствуют оранжевые/рыжие варианты)

⚠️ Особенности

  • Низкокачественные изображения 100x100px (проблемы с детализацией)
  • Изображения с измененной контрастностью/резкостью
  • Повернутые изображения с белыми областями по краям

🧹 Предобработка

🔁 Дубликаты

  • Обнаружены через сравнение хешей
  • Дубликаты изображений были изменены при помощи отзеркаливания, поворота на угол, изменения яркости и контрастности.

🔄 Балансировка

  • Удаление дублирующихся классов: Объединить Strawberry и Strawberries (например, 60% из Strawberries + 40% из Strawberry)

📌 Рекомендации

  1. Ресайзинг: Привести все изображения к 224x224px
  2. Фильтрация: Удалить низкокачественные изображения 100x100px
  3. Аугментация: Добавить дополнительные аугментации для сложных классов
  4. Эксперименты: Проверить качество модели на разных размерах изображений
  5. Очистка: Удалить дубликаты и объединить дублирующиеся классы

📚 Ресурсы