В днешно време много данни „виреят“ в най-различни pdf файлове. С тази статия ще ви покажа един хитър номер, който може да ви помогне да ги обърнете в Ексел за последващ анализ. Не винаги се получава, но нищо не пречи да опитате, когато се налага.
Сценарият
За целите на някакво бизнес решение ни е необходима информация за посещенията на чужденци в България през зимния сезон. На сайта на министерството на туризма тук има анализ от 6 страници с такива данни. По-конкретно ни интересува тази таблица.
Чудесно би било да имаме данните в Ексел, за да направим някои изчисления за пазара, за графики и т.н. Ако те бяха в нормална таблица и имаме Офис 365 можем да се възползваме от възможността да импортираме данни от pdf файл в Ексел с Power Query.
Обаче този конкретно файл всъщност е сканирано копие на принтиран документ. За мен лично е абсолютно непонятно защо трябва да разпечаташ един Word документ и след това да го сканираш, когато от години съществува възможността да бъде запазен директно в pdf формат. Но може би в министерство на туризма това е непознато.
При това положение единственият вариант е да се препишат данните в Ексел. Нищо работа – 15-20 минути и готово. Е да ама в този файл има още 3-4 таблици с полезни данни. 15 минути тук, 15 там – и един час минал в преписване на данни. Абсолютно безсмислен труд!
Има и по-хитър начин
Ако имате Офис пакет с Word 2013 и нагоре може да пробвате следното:
Изтегляме файла в някоя папка и за всеки случай му правим едно копие
След това десен бутон върху един от двата файла и Open with > Choose another app
Тук плъзгаме надолу докато намерим More apps и кликаме на него.
След това намираме Word и кликаме два пъти
Появява се това съобщение, което ни казва, че Word ще конвертира данните, което може да отнеме време. След конвертирането ще имаме документ, в който ще можем да редактираме текста, но ако има графики и картинки те може да не изглеждат като оригинала и дори да ги няма.
Няма какво толкова да се мисли на това съобщение – даваме ОК и … чакаме Word да си свърши работата. Може да отнеме много време, ако документът е повече страници. А прогреса на процеса можем да следим долу вдясно
Чакането обаче си заслужава – таблицата е конвертирана и можем лесно да я копираме и пейстнем в Ексел.
Задължителна проверка!
Таблицата вече е в Ексел и сега задължително трябва да огледаме данните, защото са възможни доста грешки:
Вижте как в жълтата клетка пише „ГЪЩИЯ“ вместо „ГЪРЦИЯ“
В оранжевата клетка цифрите 300 са конвертирани ката „ЗОО“ (в рамките на шегата – вместо 300 спартанци имаме зоопарк😂😂). Освен това някои от данните липсват напълно (червените клетки) или частично (синята).
Също така самите числа не са числа, защото разделителят за хилядите е интервал, а десетичният знак – запетая вместо точка и така Ексел ги възприема като текст.
За всяка една от тези грешки има различни подходи на действие:
- Липсващите напълно или частично данни ще препишем (все пак по-добре да препишем 5-6 числа отколкото 30)
- „ЗОО“ ръчно ще поправим на 300, както и „ГЪЩИЯ“
- А разделителите за хилядите и десетичният знак ще подменим с FIND & Replace
Обикновено конвертирането е достатъчно добро и има нужда от малко допълнителна работа по данните. Особено, когато текстът е на латиница почти няма грешки от типа на „ГЪЩИЯ“ и „ЗОО“. Въз основа на моята практика мога да кажа, че този случай е сред по-тежките, които съм имал. Но дори и при него, ръчното преписване на данните ще отнеме доста повече време отколкото конвертирането през Word.
Разбира се, понякога качеството на сканираното копие е много лошо и практически конвертираните данни са неизползваеми. Но винаги си струва да се опита. От опит глава не боли, казват старите хора.