Статистика

У книзі Джорджа Екеса про Six Sigma є сцена, яка на перший погляд здається буденною: фастфуд, черга, середній час очікування цього тижня — 12 хвилин. У вівторок ти стояв 2 хвилини, у четвер — 24. І цитата його колеги Дейва Шуленберга, через яку легко проскочити, не помітивши, що вона перевертає весь спосіб дивитися на управління:

Customers feel variation, not averages.

Клієнт відчуває варіацію, не середнє.

Зупинюсь тут, бо за цією простою фразою — розрив онтологій. Клієнт живе у світі одиничних подій: цей вівторок, цей четвер, цей конкретний обід, через який треба встигнути повернутись у офіс. Менеджмент дивиться на агрегати: середній час обслуговування, середній чек, середня задоволеність за квартал. І ці два світи не зводяться один до одного. Середнє не є “грубим наближенням” клієнтського досвіду — це інший об’єкт. У світі клієнта 12-хвилинної черги не існує. Її не було ні у вівторок, ні у четвер.

Тобто управління керує об’єктом, якого у світі клієнта просто немає.

Звідси кілька наслідків, які варто промацати.

Зворотний зв’язок викривлений за конструкцією. Сигнал від клієнта народжується у просторі одиничних подій, а зчитується у просторі середніх. Поки 24-хвилинний четвер розчиняється в середньому, інформація про подію, яка реально вбила лояльність, уже стерта.

Хвости формують репутацію. Болючий епізод запам’ятовується непропорційно сильніше, ніж приємний — це базова асиметрія сприйняття. А саме хвости найкраще ховаються в середніх. Тобто управління середніми — це системне підсилення сліпих плям саме там, де відбувається втрата клієнта.

Передбачуваність — прихований товар, який ніхто не продає свідомо. Клієнт платить не лише за обід, а й за можливість планувати свій день. Цього товару немає в P&L, його не вимірює NPS, але саме він визначає, чи людина повернеться. Brown bagging — взяти з дому — це не альтернатива обіду. Це альтернатива ризику.

Середнє — це психологічний захист менеджера, а не інструмент. Варіація — це визнання того, що реальність не піддається повному контролю. Середнє повертає відчуття контролю там, де його структурно немає. Тому опір переходу від “поліпшити середнє” до “звузити розкид” — не методологічний, а екзистенційний.

Тут теза Шуленберга змикається з Демінгом. Демінг казав: 94% проблем — у системі, а не в людях. Шуленберг каже: клієнт живе у варіації, а не в середньому. Перший показує, де живе проблема. Другий — де живе клієнт. А управління традиційно сидить у третьому місці: у середніх показниках людської продуктивності.

Структурно дивиться не туди, де проблема, і не туди, де клієнт.

І тоді SPC, контрольні карти, робота з варіацією — це не “ще один інструмент серед інших”. Це зміна того, що взагалі вважається об’єктом управління. Купуєш не методику, а іншу онтологію.

Тому ця теза так важко продається керівництву. Не тому, що складна. Тому, що для неї спершу треба погодитись: ти все життя дивився не туди.

Обзор публикаций по вопросам приведения данных к нормальному виду дал такие интересные выводы:
1) Нет ничего противозаконного в том, чтобы работать с преобразованными данными, главное – выводы на преобразованных данных суметь перевести на исходные данные (например, здесь: http://www.biostathandbook.com/transformation.html). Это может быть проблематично в случае использования сложных преобразований, например, преобразований Джонсона.
2) Существует бесконечное множество преобразований, и если много тренируешься, то рано или поздно найдешь способ привести данные к нормальности, при этом со стороны это может выглядеть как попытка подстроить результат. Потому советуют, что лучше воспользоваться консервативным методом трансформации и уступить в p-value, чем достичь большей значимости неким диковинным преобразованием.
3) Нужно быть готовым защищать свои методы, т.к. многие люди не имеют представления о сути преобразований данных, а потому будут скептично воспринимать эти подходы.
4) Способы определения нормальности распределения: визуально по гистограмме и qqplot, при помощи статистических тестов.
5) qqplot часто может ввести в заблуждение, т.к. отклонение от прямой линии очень зависит от объема выборки (ниже qqplot` ы сгенерированные функцией rnorm для 30 и 300 значений соответственно:

6) Чтобы не полагаться на «глазомер» лучше строить qqplot`ы сразу с доверительными интервалами. Есть хорошее решение в пакете «car» – функция qqPlot. Но в этой случае тоже можно ошибиться, т.к. на примере ниже данные не распределены нормально ни по данным гистограммы, ни по тесту Шапиро-Уилка, но qqplot содержит все точки в пределах границ доверительного интервала:

7) Что касается статистических тестов, то наиболее популярными и надежными являются тесты Шапиро-Уилка и Андерсона-Дарлинга, однако упоминается о массе случаев, когда тесты дают сбой, например, здесь: https://www.r-bloggers.com/normality-tests-don%E2%80%99t-do-what-you-think-they-do/
Вывод здесь может быть только такой: принимать решение о нормальности распределения на основании анализа вида распределения, qqplot`а, а также данных тестов.
8) Без ПО никуда, т.к. перепробовать множество разных методов трансформации вручную просто невозможно. Анализ данных карандашом сейчас никто не делает…
9) Прежде чем начать преобразование данных нужно удалить экстремальные значения. Поскольку в ненормальных распределениях мы не может воспользоваться критериями, например, межквартильного расстояния (IQR), то в данном случае речь идет о выбросах, что вызваны ошибками в записи данных. Исследователь сам принимает решение о том, насколько логичны полученные им значения и какие из них стоит убрать из массива.
10) Наиболее предпочтительные преобразования: log10(x), ln()x, sqrt(x), 1/x, asin(x).
11) Популярными являются степенные преобразования (power transformations) Box-Cox power transform и Tukey Ladder of Powers, например здесь: http://rcompanion.org/handbook/I_12.html
12) Но есть подтверждения тому, что преобразования Джонсона более эффективны (http://www.sigmamagic.com/forum/archives/297). Эти преобразования включают функции:

Обратных функций к SU, SB и SL найти не удалось, однако использование функции jtrans из одноименного пакета позволяет узнать и вид функции и значения параметров преобразования Джонсона (гамма, ипсилон, лямбда, эта), т.е. обратные значения можно подобрать.

Six Sigma

Думки про вдосконалення бізнесу

Категорія: Статистика

Клієнт не живе в середньому

Приведение данных к нормальному виду

Категорії

Позначки