Ето и малко коментари по казуса за анализ на данни „Игра на табла“.
За него получих 3 решения, което надхвърли с 200% първоначалните ми очаквания. Не е зле като за пръв път. Дори и този не особено голям брой решения дават възможност да изведа някои изводи. Убеден съм, че ще бъдат от полза за всеки, който тепърва навлиза в дебрите на анализа на данни.
Казусът
наглед предоставяше малко изходни данни от само три колони и по-малко от 100 реда.
Всеки ред съдържа дата, изиграните партии табла към тази датата и колко от тях са победи. Не е ясно нито от кога играе този играч, нито на какъв форум (онлайн, официални състезания, махленски игри). Но за целите на казуса се приема, че въпросният играч иска да подобри играта си. Задачата се състои в това да се направи анализ на тези данни и да се подготви доклад за него с препоръки какво да направи, за да играе по-добре.
В изпратените решения видях някои добри практики, както и някои типични грешки, които правят хората, занимаващи се с анализ (вкл. и моя милост).
Нека започнем с
Добрите практики
1. Обогатяване на данните
Това е една много често срещана техника за анализ на данни – съществуващите данни да се комбинират или от тях да се извлече допълнителна информация. Така се добавят нови данни, което дава допълнителни възможности за анализ. Ето какви допълнителни данни са „създали“ хората, изпратили решения:
- Извличане на месец, година, ден от седмицата, тримесечие, работен/почивен ден от датата. Това става лесно с функции като MONTH, YEAR, WEEKDAY. А в Power Query е дори още по-лесно от менюто Transform > Date
- Изчисляване на разлика (период) между две дати
- Изчисляване на изиграните игри между две дати и на победите между две дати
- Изчисляване на коефицииенти – победи/изиграни игри, брой игри /дневно, брой победи / дневно
Обогатяването на данните помага да се открият тенденции, които иначе остават незабелязани. Например – дали играчът играе повече в почивни дни, дали има връзка между брой победи и деня от седмицата или има ли значение колко игри на ден играе за коефициента победи/изиграни игри.
2. Използване на обект таблица
Превръщането на данните от масив с данни в Ексел таблица улеснява значително живота на анализатора. Какво е ексел таблица и защо е полезна може да прочетете тук.
3. Използване на пивот табици и Power Query
Въпреки малкия обем на данните някои от участниците са решили да използват Power Query и/или пивот таблици за тяхната обработка и обобщаване. Това е добра практика, защото позволява автоматизиране на анализа следващия път, когато се добавят нови данни.
4. Графично представяне
Някои от участниците са използвали графики като инструмент за анализ. Това е много добре, защото графиките помагат за откриване на тенданции и зависимости.
Не мога да не споделя ето тази графика, която си е state of the art откъдето и да го погледна
Вижте колко добре се виждат три различни интервала в разглеждания период. Някъде до ноември 2020 – отчетлив спад в показателя. След това до Август 2021 спадът е по-плавен и от него започва „възстановяване“. Това е някаква храна за размисъл и отправна точка за последващ анализ.
Това бяха добрите практики, а нека сега да видим и някои
Типични грешки
1. Лошо или никакво представяне на анализа
Ако има нещо, което да си вземете от тази статия – нека да е това: Анализът не са таблиците, графиките и формулите, които сте създали. Те не говорят нищо на друг човек. Особено, ако е някой мениджър или от отдел като Маркетинг, Продажби, Човешки ресурси. Не разчитайте, че потребителите на анализа ще разберат вашия файл. Те имат нужда от кратко описание (резюме) на най-важните изводи от него. Като за начало. Може би, ако имате задълбочен разговор за анализа, ще се стигне до там да обяснявате методите и техниките, които сте използвали. Но със сигурност този разговор ще започне от резюмето.
В случая дори условието беше да се изготви доклад. И ето един добър пример за такъв:
При съставянето на такова резюме много важни са три неща:
Първо, то трябва да е кратко, ясно и стегнато. По възможност в точки, с кратки изречения да се даде есенцията. Най-важните изводи. Избягвайте дълги съставни изречения и описания. Всички подробности като използваните методи, дефиниции, допускания – изнесете ги под доклада или като приложение към него. Това е особено важно в случаите, когато разполагате буквално с няколко минути, за да грабнете вниманието на този, за когото е анализа или да му „продадете“ някоя идея.
Второто е следствие от горното. За да не разводнявате излишно изложението си, наблегнете на тези изводи, които потребителят може да използва буквално веднага, за да получи полза. Например – може да пропуснете „Колкото повече партии табла се играят, толкова повече победи има и играчът.“. Това честно казано е изключително логично. Но изводът „Най-често играчът печели в петък“ е хубав – направо му казва на човека да играе основно в петък, ако иска да си вдигне успеваемостта.
Трето, използвайте обикновен език. Всеки ще разбере това: „Най-добри резултати има играчът, ако играе между 20 и 29 партии табла на ден.“. А това е същото, но казано с термините от областта на анализа на данни: „Оптималната производителност на играча се наблюдава при участие в интервал от 20 до 29 партии табла дневно, което корелира с максималната ефикасност в контекста на квантитативния анализ и статистическата оптимизация на игровите стратегии.“
2. Липса на описание
Хубаво е към анализа да има и описание на направените изчисления. Може да бъде като таблица, списък или допълнителен шийт в Excel файла. Няма универсално правило какво, как и колко да се опише, но е хубаво човекът, който ще чете анализа да може да си направи справка какво означават ‘%Win’, ‘% of played’ например и как са изчислени.
Отново – не бива да се разчита потребителят да мисли като нас или че ще се оправи като разгледа формулите. Особено, ако става дума за мениджър на висока позиция, той най-вероятно няма нито много свободно време, нито вашите умения в Excel.
3. Смесване на данни с анализ и изчисления
Не е добра практика там, където са данните да правите и анализ и изчисления с пивот таблици, формули, графики и т.н.
Има няколко причини за това.
На първо място – така работата ви изглежда неподредена и хаотична. Хубаво е да е ясно къде са данните, къде е анализът, къде е докладът.
Освен това – може да изтриете част от аналитичните си изчисления при добавяне нови данни или изтриване редове от старите.
Не на последно място – самите вие може да се объркате кое къде стои. Особено, ако трябва да се върнете към анализа или да го повторите след няколко месеца.
Коментар по казуса
Накрая, бих искал да дам и своята интерпретация на този казус.
На пръв поглед той е забавен, защото става дума за табла, но също така е и доста типичен. В живия живот често се сблъскваме с подобен тип нужда от анализ.
Ето само няколко примера:
- Новоназначен мениджър на отдел на отдел „Продажби“ иска да види какви са показателите на търговците – колко срещи и колко продажби правят на ден/седмица/месец
- Отделът по Човешки ресурси следи текучеството на персонала и се опитва да анализира тенденциите в процента на напусналите служители
- Екипът по поддръжка следи ключов показател (KPI) – брой затворени тикети спрямо брой отворени
- Анализаторът на футболен отбор опитва да разбере връзката между броя лицеви опори на тренировка и отбелязаните голове в мача на следващия ден (е добре де, това си го измислих)
Как бих подходил в случая?
Ако трябва да сме честни тези данни сами по себе си няма да отговорят на въпросите „Какво не е наред?“ и „Как да подобря представянето?“. Но могат да ни дадат добра отправна точка. Трябва да имаме предвид, че ние не знаем какъв може да е проблемът и дали въобще има проблем. Затова е хубаво да не си съставяме предварителни хипотези, а да видим в каква посока ще ни поведат данните.
Много важно в случая е да се определят ключовите показатели, които да се анализират. Затова е добре да се поговори с „клиента“, т.е. поръчителят на анализа. В този разговор да се обсъди дейността и целите от този анализ.
В конкретния случай един играч иска да подобри играта си. Какво означава това? Предполагаме – да побеждава още повече. С какво измерваме този успех – може да е с коефициента „победи/загуби“ към определена дата. Но той е по-статичен. Влияе се от наследството и от натрупаните победи и загуби в предишни периоди.
По-смислено е да се следи процентът „победи/загуби“ за игрите изиграни във всеки един конкретен период (ден, седмица, месец). Ако този коефициент е над 50% – тогава играчът увеличава и общия си такъв коефициент. Разбира се – колкото повече над 50% толкова по-добре.
Ето как изглежда този показател за периода:
Виждаме, че представянето на играча е доста стабилно – обикновено печели между 45% и 60% от изиграните партии. Особено след 40 седмица на 2021 година представянето му е точно в тези тесни рамки.
Тази стабилност говори, че той не може да очаква значително подобрение на играта си, ако не направи съществени подобрения в нея и в нейната организация. Но за да разбере какви промени трябва да направи – необходим е по-задълбочен анализ на цялостния процес на игра.
Все пак данните дават някои насоки.
Вижте долната графика, в която Period win ratio е показан по дни от седмицата.
Съвсем ясно се вижда, че когато играе в събота играчът почти винаги е много над 50%-ната бариера. Интересна е и тенденцията в сряда. До края на 2020 година той е играл изключително неуспешно в този ден. Но в края на разглеждания период е стабилно над 50%.
През останалите дни редува слаби със силни изяви. А особено странното е липса на данни за понеделник и неделя.
Между другото тази интересна графика е известна като cycle plots. Може да бъде много полезна за установяване на тенденции. Едни от най-добрите указания как да се направи такава графика са на Jon Peltier.
Представяне на анализа
Всъщност, ако трябва да представим анализа си в рамките на 30 секунди или по-малко (правилото на асансьора), то трябва да кажем на този табладжия следното:
- Не играеш лошо – обикновено печелиш повече от 50% от игрите, които играеш
- Най-успешно играеш в събота и напоследък в сряда
- С текущите ти методи на игра – толкова. Ако искаш по-сериозно подобрение, трябва да анализираме в детайли играта ти и организацията.
По-задълбочен анализ
Но нашата работа не приключва с това да дадем основни изводи от текущия анализ, а да преценим какви още данни ще са ни нужни, за да направим по-задълбочен анализ и в какъв формат и начин ги искаме от табладжията, за да си свършим работата. В идеалният вариант той ще кимне разбиращо с глава и ще каже „Добре, какво още искаш да ти дам, за да ми кажеш какво трябва да подобря?“
В конкретния случай имаме чудесна отправна точка – какво по-различно се случва в събота, че тогава резултатите са значително по-високи от останалите дни. Можем да създадем и работна хипотеза, че в почивния ден играчът играе в спокойна обстановка и може да се концентрира по-добре върху играта.
Друга отправна точка са резултатите в сряда. Там дори има допълнителен момент с промяната, която се е случила в средата на 2021 година. Какво по-точно се е случило? Какво е различното сега спрямо преди?
Струва си да се поговори с този играч и да се позадълбае в тези две посоки. Можем да поискаме много данни, с които да потвърдим, отхвърлим хипотезите или да създадем нови.
Например:
- Как играе – лични срещи или онлайн;
- Цел на играта – развлечение или съзтезателен характер;
- Състояние преди игра – например след работен ден, други ангажименти или физическа активност;
- Противници – познати или различни;
- Физическо място на игра, ако е присъствено – любимо, приятно, неудобно, студено и т.н.;
- В колко часа играе, колко дълго като време;
- Налице ли са разсейващи фактори в момент на игра – шум, съобщение, телефонни разговори, коментари на наблюдатели. Или вътрешни дразнители като глад, жажда;
- Дали има стимули за игра като бонуси, награди, точки, паричен измерител на победата;
- Как учи техниките и стратегиите на игра – самоук от практиката или чете материали извън играта, следва и се интересува от известни играчи, прилага ли наученото;
- Може да се потърсят платформи, които предоставят анализ на играта и взетите решения;
Какво бихте добавили? Може да оставите коментар във формата за контакт.