Поправка на нечетим текст с Power Query

Случва се, когато работим с данни от различни системи, текстът вместо от букви да е съставен от нечетими символи. Особено, когато става дума за текст на кирилица. В следващите редове ще ви покажа едно лесно решение, което може да пробвате в такава ситуация.

В статията Какви данни съхранява Linkedin за всеки потебител видяхме как всеки с профил в тази социална мрежа може да си свали архив с данни за него, включително и на личните съобщения, които е разменил с други потребители там. Файловете са в csv формат, което е удобно за анализ. Ето как изглежда един такъв файл:

За по-прегледно:

CONVERSATION ID: Уникален номер на кореспонденцията. Както виждате съдържа няколко десетки букви и цифри, очевидно генерирани на случаен принцип

CONVERSATION TITLE: В случая е празно и нямам никаква представа какво се попълва тук, както и каква е разликата със SUBJECT по-долу

FROM: очевидно това е изпращачът, в случая съм избрал моя добър приятел Владо Кашона, за когото разказах в една страхотна статия за 10-те начина да се направи графика в Ексел. По мое скромно мнение, струва си да се прочете.

SENDER PROFILE URL: линк към профила на изпращача в LI

TO: Получател. В случая съм аз. Във вашия архив би било логично да сте вие

DATE: Дата и час на съобщението

CONTENT: Текст на съобщението

FOLDER:  В коя папка е съобщението

Големият проблем е, че текстът на съобщението е в абсолютно нечетим вид. Причината е, че той е на кирилица и очевидно софтуерът на LI не е достатъчно съвършен, за да го конвертира правилно. С текст на латиница това не се получава.

А решението на казуса е изключително лесно с Power Query. За да „поправим“ текста, най-напред го зареждаме в Power Query (From Text/CSV). Това само по себе си не помага – текстът е все така нечетим.

Отиваме в Applied Steps и кликаме два пъти върху Source

Това отваря меню, където ни интересува полето File Origin

Както виждате Power Query е разпознал автоматично, че произходът на файла е Western European (Windows). Това е логично тъй като LI все пак е американска компания. Но текстът ни е на кирилица и от там тези нечетими йероглифи. Но ако кликнем на стрелката вдясно, ще се покажат много други опции, включително и за кирилица

Всичко, което трябва да направим е с налучкване да изберем подходящият произход на файла, който ще превърне йероглифите в нормални букви на кирилица. Обикновено това са някои от показаните видове кирилица, но в този конкретен случай, резултатът е леко изненадващ:

Да, с доста проби и грешки установих, че за данните от LI, трябва да изберем None. След това кликаме ОК и бум – текстът ни вече е на кирилица

Малко обработка, туй-онуй и вече може да се насладим на текста в пълния му блясък

Длъжен съм да уточня, че този номер не винаги може да сработи. Но пък е лесно и си струва да се опита, преди да се търсят други варианти.

Публикувано в Power Excel с етикети , , . Постоянна връзка.