Skip to content

Статистическое исследование данных о товарах бисера с использованием описательной статистики, проверки гипотез и анализа распределений. Работа включает очистку данных от выбросов, расчет статистических метрик и проверку бизнес-гипотез.

Notifications You must be signed in to change notification settings

Shirouky/lab7-Data-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Лабораторная работа №7: Статистическое исследование данных

Описание

Статистическое исследование данных о товарах бисера с использованием описательной статистики, проверки гипотез и анализа распределений. Работа включает очистку данных от выбросов, расчет статистических метрик и проверку бизнес-гипотез.

Технологии

  • Python 3.7+
  • Pandas - обработка и анализ данных
  • NumPy - числовые операции
  • SciPy - статистические тесты и проверка гипотез

Структура проекта

LW7.ipynb                 # основной скрипт статистического анализа
DataFrame.xlsx            # исходные данные

Функциональность

Описательная статистика

  • Анализ структуры данных - размер, типы колонок, общая информация
  • Очистка от выбросов методом межквартильного размаха (IQR)
  • Расчет ключевых метрик для оценки бизнес-показателей

Статистические метрики

  1. Средняя цена - центральная тенденция ценового распределения
  2. Коэффициент вариации цен - мера относительной изменчивости
  3. Доля товаров со скидкой - показатель ценовой политики

Проверка гипотез

  • Автоматический выбор критерия на основе проверки нормальности распределения
  • t-тест Стьюдента для нормально распределенных данных
  • U-тест Манна-Уитни для ненормальных распределений
  • Интерпретация p-value и практическая значимость результатов

Ключевые функции

Обработка данных

def describe_dataset(df)         # Описание структуры данных
def remove_outliers(df, columns) # Удаление выбросов методом IQR
def calculate_metrics(df)        # Расчет статистических метрик

Статистический анализ

def check_normality(data1, data2) # Проверка нормальности распределения
def perform_statistical_test()    # Выполнение статистического теста

Проверка гипотез

def hypothesis_effect(df, ...)   # Проверка влияния параметров на показатели
def hypothesis_compare(df, ...)  # Сравнение групп по категориальным признакам

Исследуемые гипотезы

Гипотеза 1: Влияние скидок на объемы продаж

  • H₀: Товары со скидкой >10% имеют большие объемы продаж
  • H₁: Товары со скидкой >10% НЕ имеют большие объемы продаж
  • Актуальность: Оптимизация скидочной политики

Гипотеза 2: Влияние цены на объемы продаж

  • H₀: Товары с ценой >140 руб имеют большие объемы продаж
  • H₁: Товары с ценой >140 руб НЕ имеют большие объемы продаж
  • Актуальность: Определение оптимального ценового сегмента

Гипотеза 3: Премиальность цветовых категорий

  • H₀: Товары премиальных цветовых категорий имеют более высокую цену
  • H₁: Товары премиальных цветовых категорий НЕ имеют более высокую цену
  • Актуальность: Стратегия ценообразования по цветам

Гипотеза 4: Премиальность типов товаров

  • H₀: Товары премиальных типов имеют более высокую цену
  • H₁: Товары премиальных типов НЕ имеют более высокую цену
  • Актуальность: Сегментация товарного ассортимента

Результаты

  • Очищенный датасет без статистических выбросов
  • Ключевые бизнес-метрики для принятия решений
  • Статистически обоснованные выводы по проверяемым гипотезам
  • Рекомендации для оптимизации ценовой и скидочной политики

About

Статистическое исследование данных о товарах бисера с использованием описательной статистики, проверки гипотез и анализа распределений. Работа включает очистку данных от выбросов, расчет статистических метрик и проверку бизнес-гипотез.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages