Вторият казус е свързан с това, което заема 70-80% от времето на хората, занимаващи се с анализ на данни. Знаете ли кое е то?
Може би си мислите, че това е създаването на статистическите и математически модели за анализ? – НЕ
Визуализацията на изводите от анализа? – отново НЕ
Обсъждането на резултатите от анализа със заинтересованите страни и следващите действия? – твърдо НйЕ
Изучаването на възможностите на Excel, Python, R, SQL и други инструменти за анализ? – още по-твърдо НйЕ
Всички тези неща са важни, разбира се, но тъжната действителност е, че хората, които се занимават с анализ на данни прекарват огромна част от времето в тяхното почистване и подреждане (data cleaning). Смело можем да кажем, че колкото по-ефективни са анализаторите в тази дейност, толкова по-бързо преминават през нея и повече време прекарват в същински анализ.
Затова този казус предлага възможност за упражнение именно на уменията за почистване на данни.
Казусът
Отново е максимално опростен – списък с около 250 телефонни номера трябва да се приведе в подходящ за използване вид.
Файлът с данните и условието може да свалите от тук.
Решениe и коментари по казуса може да прочетете тук .
Ако желаете да обсъдим Вашето решение по казуса, може да ми го изпратите чрез формата за контакт.
Малко литература по темата
Ако желаете да проучите темата с чистене на данни по-подробно, предлагам ви малко допълнителна литература:
„The Ultimate Guide to Cleaning Data in Excel and Google Sheets„ от Christopher Rafter: много приятна и лесна за четене книжка от само 67 страници. Насочена е към начинаещи и показва стъпка по стъпка основните концепции и техники за чистене на данни. Всичко само в Ексел. Цената обаче не е много хуманна.
„Clean Data“ от Megan Squire: Още една добра и лесночитаема книга, насочена към начинаещи в анализа на данни. Обхваща практически техники за почистване и подготовка на данни с използването на разнообразни инструменти и програмни езици. Тя е отличен избор за начинаещи, търсещи практически опит в проекти за почистване на данни. Книгата изобилства от примери и проекти, с които може да се упражнявате.
„Best Practices in Data Cleaning“ от Jason Osborne. Това е доста сериозна книга, насочена към хора, които се занимават със социологически проучвания и анализ на резултатите от тях. Ценното в нея е идеята, че чистотата на данните се определя от предварителната подготовка и планиране на проучването. Неща като съставяне на извадката и формулиране на въпросите в анкетата могат да окажат много съществено влияние върху чистотата на данните.