Казус #2 за анализ на данни: телефонни номера

Вторият казус е свързан с това, което заема 70-80% от времето на хората, занимаващи се с анализ на данни. Знаете ли кое е то?

Може би си мислите, че това е създаването на статистическите и математически модели за анализ? – НЕ

Визуализацията на изводите от анализа? – отново НЕ

Обсъждането на резултатите от анализа със заинтересованите страни и следващите действия? – твърдо НйЕ

Изучаването на възможностите на Excel, Python, R, SQL и други инструменти за анализ? – още по-твърдо НйЕ

Всички тези неща са важни, разбира се, но тъжната действителност е, че хората, които се занимават с анализ на данни прекарват огромна част от времето в тяхното почистване и подреждане (data cleaning). Смело можем да кажем, че колкото по-ефективни са анализаторите в тази дейност, толкова по-бързо преминават през нея и повече време прекарват в същински анализ.

Затова този казус предлага възможност за упражнение именно на уменията за почистване на данни.

Казусът

Отново е максимално опростен – списък с около 250 телефонни номера трябва да се приведе в подходящ за използване вид.

Файлът с данните и условието може да свалите от тук.

Решениe и коментари по казуса може да прочетете тук .

Ако желаете да обсъдим Вашето решение по казуса, може да ми го изпратите чрез формата за контакт.

Малко литература по темата

Ако желаете да проучите темата с чистене на данни по-подробно, предлагам ви малко допълнителна литература:

The Ultimate Guide to Cleaning Data in Excel and Google Sheets от Christopher Rafter: много приятна и лесна за четене книжка от само 67 страници. Насочена е към начинаещи и показва стъпка по стъпка основните концепции и техники за чистене на данни. Всичко само в Ексел. Цената обаче не е много хуманна.

 

Clean Data“ от Megan Squire: Още една добра и лесночитаема книга, насочена към начинаещи в анализа на данни. Обхваща практически техники за почистване и подготовка на данни с използването на разнообразни инструменти и програмни езици. Тя е отличен избор за начинаещи, търсещи практически опит в проекти за почистване на данни. Книгата изобилства от примери и проекти, с които може да се упражнявате.

Best Practices in Data Cleaning“ от Jason Osborne. Това е доста сериозна книга, насочена към хора, които се занимават със социологически проучвания и анализ на резултатите от тях. Ценното в нея е идеята, че чистотата на данните се определя от предварителната подготовка и планиране на проучването. Неща като съставяне на извадката и формулиране на въпросите в анкетата могат да окажат много съществено влияние върху чистотата на данните.

 

 

Публикувано в Казуси. Постоянна връзка.