Случва се, когато работим с данни от различни системи, текстът вместо от букви да е съставен от нечетими символи. Особено, когато става дума за текст на кирилица. В следващите редове ще ви покажа едно лесно решение, което може да пробвате в такава ситуация.
В статията Какви данни съхранява Linkedin за всеки потебител видяхме как всеки с профил в тази социална мрежа може да си свали архив с данни за него, включително и на личните съобщения, които е разменил с други потребители там. Файловете са в csv формат, което е удобно за анализ. Ето как изглежда един такъв файл:
За по-прегледно:
CONVERSATION ID: Уникален номер на кореспонденцията. Както виждате съдържа няколко десетки букви и цифри, очевидно генерирани на случаен принцип
CONVERSATION TITLE: В случая е празно и нямам никаква представа какво се попълва тук, както и каква е разликата със SUBJECT по-долу
FROM: очевидно това е изпращачът, в случая съм избрал моя добър приятел Владо Кашона, за когото разказах в една страхотна статия за 10-те начина да се направи графика в Ексел. По мое скромно мнение, струва си да се прочете.
SENDER PROFILE URL: линк към профила на изпращача в LI
TO: Получател. В случая съм аз. Във вашия архив би било логично да сте вие
DATE: Дата и час на съобщението
CONTENT: Текст на съобщението
FOLDER: В коя папка е съобщението
Големият проблем е, че текстът на съобщението е в абсолютно нечетим вид. Причината е, че той е на кирилица и очевидно софтуерът на LI не е достатъчно съвършен, за да го конвертира правилно. С текст на латиница това не се получава.
А решението на казуса е изключително лесно с Power Query. За да „поправим“ текста, най-напред го зареждаме в Power Query (From Text/CSV). Това само по себе си не помага – текстът е все така нечетим.
Отиваме в Applied Steps и кликаме два пъти върху Source
Това отваря меню, където ни интересува полето File Origin
Както виждате Power Query е разпознал автоматично, че произходът на файла е Western European (Windows). Това е логично тъй като LI все пак е американска компания. Но текстът ни е на кирилица и от там тези нечетими йероглифи. Но ако кликнем на стрелката вдясно, ще се покажат много други опции, включително и за кирилица
Всичко, което трябва да направим е с налучкване да изберем подходящият произход на файла, който ще превърне йероглифите в нормални букви на кирилица. Обикновено това са някои от показаните видове кирилица, но в този конкретен случай, резултатът е леко изненадващ:
Да, с доста проби и грешки установих, че за данните от LI, трябва да изберем None. След това кликаме ОК и бум – текстът ни вече е на кирилица
Малко обработка, туй-онуй и вече може да се насладим на текста в пълния му блясък
Длъжен съм да уточня, че този номер не винаги може да сработи. Но пък е лесно и си струва да се опита, преди да се търсят други варианти.