Една от честите операции при обработка на данни е премахването на редове (Remove rows).
Така е например с данните за пътувания на български граждани, публикуван от НСИ на неговия сайт.
Нерядко такива файлове имат и редове с пояснения под данните:
В Ексел обикновено ненужни редове се премахват с изтриване. Нека да заредим данните в Power Query и да видим как там се премахват редове с помощта на Remove rows
Проблемът
Както се вижда на долната картинка, преди да започнат редовете с данни имаме няколко излишни.
Забележката също не ни е необходима, макар и да носи важна информация (това си е чист пример за метаданни, но за тях някой друг път може би)
Освен излишни редове над и под данните имаме такива и в самата таблица, които също не ни трябват.
Ред 31 (ограден в синьо) е сумиращ ред, който събира данните за съответните страни, а ред 32 (в червено) е празен. И двата реда трябва да се премахнат, за да не изкривяват анализа.
Два са основните начини за премахване на редове. Единият е чрез филтриране да отстраним редове, които (не) отговарят на определени критерии. Повече за филтрирането в Power Query тук.
Другият начин е като се използва менюто
Remove Rows
То се намира в Home -> Reduce Rows
Опциите са:
- Remove Top Rows – премахва определен брой редове отгоре
- Remove Bottom Rows – премахва определен брой редове отдолу
- Remove Alternate Rows – премахва редуващи се редове (например всеки пети ред)
- Remove Duplicates – премахва всички редове, които съдържат едни и същи данни във всички колони
- Remove Blank Rows – премахва редове, в които всички колони са празни (като ред 32 по-горе)
- Remove Errors – премахва редовете, в които има само грешки
Опциите от 1 до 3 премахват редовете въз основа на разположението им в таблицата, докато опции 4-6 премахват редовете в зависимост от тяхното съдържание. Затова и са разделени с една черта в менюто.
Когато изберем Remove Top Rows, появява се меню, в което указваме колко от горните редове да бъдат премахнати.
И воала – най-горните три реда са премахнати и нашата таблица започва да придобива вид.
Ако изберем Remove Rows -> Remove Bottom Rows, се появява същото меню, в което отново указваме колко броя редове да бъдат премахнати отдолу.
Keep Rows
Може би сте забелязали, че точно до Remove Rows се намира Keep Rows, т.е. – Запази Редове.
Както подсказва наименованието, този бутон ни дава възможност да запазим определени редове от данните (другите, естествено, изчезват)
Тук опциите са аналогични, но вместо запазване на редуващи се редове има запазване на цяла област (да речем от ред 5 до ред 25) и напълно логично липсва опцията да се запазят само празните редове.
ВАЖНО!
Накрая, една препоръка. Въпреки че Remove Rows / Keep Rows са доста полезни и лесни за използване опции на Power Query, премисляйте добре преди да ги използвате. Трябва да сте абсолютно сигурни, че структурата на данните е фиксирана и когато дойде файлът за следващия месец отново най-горните три и най-долните два реда ще са излишни.