Един лесен начин за превръщане на данни от pdf в Ексел

В днешно време много данни „виреят“ в най-различни pdf файлове. С тази статия ще ви покажа един хитър номер, който може да ви помогне да ги обърнете в Ексел за последващ анализ. Не винаги се получава, но нищо не пречи да опитате, когато се налага.

Сценарият

За целите на някакво бизнес решение ни е необходима информация за посещенията на чужденци в България през зимния сезон. На сайта на министерството на туризма тук има анализ от 6 страници с такива данни. По-конкретно ни интересува тази таблица.

Чудесно би било да имаме данните в Ексел, за да направим някои изчисления за пазара, за графики и т.н. Ако те бяха в нормална таблица и имаме Офис 365 можем да се възползваме от възможността да импортираме данни от pdf файл в Ексел с Power Query.

Обаче този конкретно файл всъщност е сканирано копие на принтиран документ. За мен лично е абсолютно непонятно защо трябва да разпечаташ един Word документ и след това да го сканираш, когато от години съществува възможността да бъде запазен директно в pdf формат. Но може би в министерство на туризма това е непознато.

При това положение единственият вариант е да се препишат данните в Ексел. Нищо работа – 15-20 минути и готово. Е да ама в този файл има още 3-4 таблици с полезни данни. 15 минути тук, 15 там – и един час минал в преписване на данни. Абсолютно безсмислен труд!

Има и по-хитър начин

Ако имате Офис пакет с Word 2013 и нагоре може да пробвате следното:

Изтегляме файла в някоя папка и за всеки случай му правим едно копие

След това десен бутон върху един от двата файла и Open with > Choose another app

Тук плъзгаме надолу докато намерим More apps и кликаме на него.

След това намираме Word и кликаме два пъти

Появява се това съобщение, което ни казва, че Word ще конвертира данните, което може да отнеме време. След конвертирането ще имаме документ, в който ще можем да редактираме текста, но ако има графики и картинки те може да не изглеждат като оригинала и дори да ги няма.

Няма какво толкова да се мисли на това съобщение – даваме ОК и … чакаме Word да си свърши работата. Може да отнеме много време, ако документът е повече страници. А прогреса на процеса можем да следим долу вдясно

Чакането обаче си заслужава – таблицата е конвертирана и можем лесно да я копираме и пейстнем в Ексел.

Задължителна проверка!

Таблицата вече е в Ексел и сега задължително трябва да огледаме данните, защото са възможни доста грешки:

Вижте как в жълтата клетка пише „ГЪЩИЯ“ вместо „ГЪРЦИЯ“

В оранжевата клетка цифрите 300 са конвертирани ката „ЗОО“ (в рамките на шегата – вместо 300 спартанци имаме зоопарк😂😂). Освен това някои от данните липсват напълно (червените клетки) или частично (синята).

Също така самите числа не са числа, защото разделителят за хилядите е интервал, а десетичният знак – запетая вместо точка и така Ексел ги възприема като текст.

За всяка една от тези грешки има различни подходи на действие:

  • Липсващите напълно или частично данни ще препишем (все пак по-добре да препишем 5-6 числа отколкото 30)
  • „ЗОО“ ръчно ще поправим на 300, както и „ГЪЩИЯ“
  • А разделителите за хилядите и десетичният знак ще подменим с FIND & Replace

Обикновено конвертирането е достатъчно добро и има нужда от малко допълнителна работа по данните. Особено, когато текстът е на латиница почти няма грешки от типа на „ГЪЩИЯ“ и „ЗОО“.  Въз основа на моята практика мога да кажа, че този случай е сред по-тежките, които съм имал. Но дори и при него, ръчното преписване на данните ще отнеме доста повече време отколкото конвертирането през Word.

Разбира се, понякога качеството на сканираното копие е много лошо и практически конвертираните данни са неизползваеми. Но винаги си струва да се опита. От опит глава не боли, казват старите хора.

Публикувано в Хитрини. Постоянна връзка.