Категоризиране на данни с помощта на Excel

В практиката на всеки, който се занимава с анализ и отчети, често се налага да се извърши категоризиране на данни (класифициране, групиране). Това може да бъде много досадна работа, която отнема часове в безсмислен труд. А може и да се свърши и сравнително бързо, както ще демонстрирам в следващите редове.

Казусът

Примерът е абсолютно реален макар да са използвани напълно измислени данни. На картинката по-долу виждаме една типична таблица със сурови данни, които се използват за изготвяне на отчет за продажбите.

Имаме дата, клиент, каква стока е закупил, количество и за какви пари.  Данните излизат в този вид от някаква система, обаче към тях трябва ръчно да се добави една колона „Група“ (Group), защото част от нашите клиенти са свързани фирми и ръководството на фирмата иска да вижда отчета с групирани данни, а не всеки клиент по отделно. Ето какъв трябва да е крайният резултат:

Виждаме, че клиентите Bai Ganio, ET Ganio, Ganyo Balkanski са в групата „Bai Ganio“, а клиенти като Greg Wonder, Charlie O’Brien и Antonio Coimbra de la Coronilla y Azevedo – в групата „Carlo Group“. Имаме и такива, които не са свързани с други фирми и те са в групата „Other“ (Други).

В реалността данните бяха няколко десетки хиляди реда, клиентите над 400, разделени в 25-30 групи от фирми. Информацията кой клиент към коя група принадлежи не се съхраняваше в някаква система, а беше известна на една дама (да я наречем Пепи), която беше търговски директор на фирмата. Всеки месец Пепи получаваше файла с данните и прекарваше около половин ден да категоризира клиентите. Ето как ставаше това

По трудния начин

Най-напред Пепи сортираше клиентите по име и добавяше колоната Group:

След това започваше един високоинтелектуален труд по попълването на тази колона. Най-напред записва на ръка съответната група срещу името на първия клиент:

Категоризиране на данни

Копира (CTRL +C) и скролва до последния ред на този клиент, за да маркира редовете:

категоризиране на данни

И накрая пейства (CTRL +V)

категоризиране на данни

След това преминава към следващия клиент и към по-следващия и т.н. За един клиент това й отнемаше средно около половин минута. За 400 клиента – 200 минути. Над 3 часа ръчна работа! Всъщност повече, защото човек не е машина. Някъде след 10-15 клиента работата доскучава, започваш да се изморяваш и разсейваш. Появяват се и грешки.

Най-интересното беше, че жената беше вложила наистина много усилия да оптимизира максимално работата със съвети от книгите на Джеймс Клиър „Атомни навици“ и Чарлз Дюиг „Силата на навиците“. Всеки месец в точно определен ден разчистваше половината от деня си за тази дейност. Затваряше се в кабинета, изключва телефони, поща, нарежда на бюрото кафе, вода, плодове и нещо сладичко за награда, разкарва всички документи за подпис, пуска любима музика, слага слушалките и …. юруш на маслините.

„Всички тези усилия си заслужаваха, защото когато беше готов, този отчет ни беше от изключителна полза“ – каза ми гордо тя.

Сега, не ме разбирайте погрешно. Аз изключително много уважавам господата Клиър и Дюиг. Горещо препоръчвам техните книги. Обаче, когато вършиш работа в Ексел, по-добре чети книги за Ексел. Или питай някой патил от същата болка. Защото още докато ми обясняваше казуса, аз вече знаех, че работата може да се свърши за … 5 минути.

Работи умно, а не усилено

Целият номер е да създадем една проста таблица, която съдържа имената на всички клиенти по един път и срещу тях – в коя група са:

категоризиране на данни

След това с VLOOKUP си извикваме групата от тази таблица в основната.

категоризиране на данни

Фасулска работа.

В интерес на истината първия път е малко зор. Трябва от основната таблица да се създаде списък с уникални стойности на клиентите. Това може да стане поне по 5 начина, но най-бързият е като копираме цялата колона с имената в някой празен шийт и използваме Data > Remove duplicates.

категоризиране на данни

След това срещу всяко име записваме съответната група. За удобство можем да сортираме имената на клиентите

На практика това си е процесът, описан в предната точка, но без досадното селектиране и копиране (за всеки клиент го правим само веднъж). В общи линии – работа за един час. След това всеки месец само се проверява има ли нови клиенти, допълва се таблицата с групите с тях, един VLOOKUP и сме готови. Работа може би не за 5, по-скоро за 25 минути. Но какво е това спрямо половин ден!

Разбира се, това не е най-умното решение на този казус. Нещата могат да се направят и много по-добре. Вероятно с инвестиция в по-читав софтуер справките могат и сами да излизат. Но в условията, в които работеше Пепи, мисля че постигнахме доста добра оптимизация на процеса.

Публикувано в Хитрини. Постоянна връзка.