Статистическое исследование данных о товарах бисера с использованием описательной статистики, проверки гипотез и анализа распределений. Работа включает очистку данных от выбросов, расчет статистических метрик и проверку бизнес-гипотез.
- Python 3.7+
- Pandas - обработка и анализ данных
- NumPy - числовые операции
- SciPy - статистические тесты и проверка гипотез
LW7.ipynb # основной скрипт статистического анализа
DataFrame.xlsx # исходные данные
- Анализ структуры данных - размер, типы колонок, общая информация
- Очистка от выбросов методом межквартильного размаха (IQR)
- Расчет ключевых метрик для оценки бизнес-показателей
- Средняя цена - центральная тенденция ценового распределения
- Коэффициент вариации цен - мера относительной изменчивости
- Доля товаров со скидкой - показатель ценовой политики
- Автоматический выбор критерия на основе проверки нормальности распределения
- t-тест Стьюдента для нормально распределенных данных
- U-тест Манна-Уитни для ненормальных распределений
- Интерпретация p-value и практическая значимость результатов
def describe_dataset(df) # Описание структуры данных
def remove_outliers(df, columns) # Удаление выбросов методом IQR
def calculate_metrics(df) # Расчет статистических метрикdef check_normality(data1, data2) # Проверка нормальности распределения
def perform_statistical_test() # Выполнение статистического тестаdef hypothesis_effect(df, ...) # Проверка влияния параметров на показатели
def hypothesis_compare(df, ...) # Сравнение групп по категориальным признакам- H₀: Товары со скидкой >10% имеют большие объемы продаж
- H₁: Товары со скидкой >10% НЕ имеют большие объемы продаж
- Актуальность: Оптимизация скидочной политики
- H₀: Товары с ценой >140 руб имеют большие объемы продаж
- H₁: Товары с ценой >140 руб НЕ имеют большие объемы продаж
- Актуальность: Определение оптимального ценового сегмента
- H₀: Товары премиальных цветовых категорий имеют более высокую цену
- H₁: Товары премиальных цветовых категорий НЕ имеют более высокую цену
- Актуальность: Стратегия ценообразования по цветам
- H₀: Товары премиальных типов имеют более высокую цену
- H₁: Товары премиальных типов НЕ имеют более высокую цену
- Актуальность: Сегментация товарного ассортимента
- Очищенный датасет без статистических выбросов
- Ключевые бизнес-метрики для принятия решений
- Статистически обоснованные выводы по проверяемым гипотезам
- Рекомендации для оптимизации ценовой и скидочной политики