Inflacja – ceny żywności Lidl [PowerBI]

Inflacja ceny żywności LIDL

Inflację często oceniamy na podstawie usług i produktów, które sami kupujemy. Produktem, który wszyscy bez wyjątku muszą kupić jest żywność. Porównałem ceny poszczególnych produktów żywnościowych kupowanych przeze mnie w sklepie Lidl na przestrzeni ostatnich 12 miesięcy. Wyniki zestawiłem na interaktywnym wykresie w PowerBI.

WSTĘP

W poprzednim wpisie pokazałem, jak można policzyć przybliżoną wartość swojej indywidualnej inflacji. Mówię o przybliżonej wartości indywidualnej inflacji, ponieważ wykorzystaliśmy do tego celu 12 ogólnych kategorii prezentowanych przez GUS.

Dzisiaj przyjrzymy się szczegółowo cenom z grupy „Żywność i napoje bezalkoholowe”, które według GUS w okresie od kwietnia 2021 r. do kwietnia 2022 r. wzrosły średnio o 12,4%.

UWAGA: wpis nie jest sponsorowany przez Lidl (pomimo, że bym chciał).

Od czerwca 2021 r. robię zakupy w sklepie Lidl i korzystam z ich aplikacji, dzięki czemu paragony są dostępne w wersji elektronicznej. W związku z powyższym zrobiłem OCR (optical character recognition, w skrócie polega to na rozpoznaniu tekstu graficznego i przełożenie tego tekstu na formę edytowalną) swoich e-paragonów a następnie zrzuciłem wszystkie dane do jednej zgrabnej tabelki.

Jeżeli ktoś chciałby podzielić się swoimi e-paragonami z Lidl’a aby uzupełnić moją bazę danych to może je wysłać na maila <kontakt@koszerneanalizy.pl>.

Zadanie to było mówiąc kolokwialnie „mocną rzeźbą” ponieważ forma e-paragonu nie jest zbyt przyjazna na potrzeby OCR. E-paragon wygląda dokładnie jak zwykły papierowy paragon, efektem czego OCR w zależności od paragonu zwracał wyniki w różnych formatach. Raz wszystko było zrzucone do 1 kolumny, innym razem do 3 kolumn, a jeszcze innym razem połowa paragonu zrzuciła się do 1 kolumny a druga połowa do 2 kolumn.

Ale po przerobieniu wszystkich kombinacji w końcu udało mi się zautomatyzować proces zrzucania danych z e-paragonu do jednej tabelki.

„Rzeźby” było oczywiście więcej. Było bardzo dużo przypadków różnego nazewnictwa w czasie tego samego produktu. Rekordzistą jest mięso z nogi z kurczaka, które łącznie miało 7 różnych nazw na e-paragonach:

  • ‘Mięso z nogi kurc.’
  • ‘Mięso z nogi kurc_ ‘
  • ‘Mięso z nogi kurc…‘
  • ‘Mięso z nogi kurcz‘
  • ‘Mięso z nogi kurcz ‘
  • ‘Mięso z nogi kurcz. ‘
  • ‘Mięso z nogi kurcz.‘

Na szczęście przebrnąłem przez wszystkie trudności i w efekcie mam nadzieję, że udało mi się opracować jeden  zgrabny i interaktywny wykres w PowerBI.

ZAŁOŻENIA

W trakcie przygotowania danych poczyniłem następujące założenia:

  • Reprezentatywność sklepu Lidl.

Lidl posiada ok 800 sklepów na terenie całej Polski, zarówno w dużych jak i małych miejscowościach. Przyjmuje, że cena danego produktu jest jednakowa we wszystkich sklepach i nie ma zaburzeń cenowych tylko dlatego, że robię zakupy w jednym sklepie Lidl.  

  • Prezentowane są ceny jednostkowe. 

Wszystkie ceny użyte w analizie oraz prezentowane w raporcie PowerBI są cenami jednostkowymi, czyli za 1 sztukę / opakowanie lub za przyjętą miarę, np. 1 kilogram / 1 litr.

  • Dane są uśredniane na poziomie danego miesiąca.

Oznacza to, że jeżeli w danym miesiącu kupiłem dany produkt kilka razy, to ceną finalną użytą do kalkulacji jest średnia cena tego produktu w danym miesiącu. Ma to na celu wyeliminowanie problemu uwzględniania promocji na produkty, bowiem taka informacja nie jest dostępna w e-paragonach. Byłoby błędem porównywanie cen w czasie dla danego produktu na podstawie ceny normalnej vs ceny promocyjnej.

  • Produkty w ramach jednej kategorii nie są agregowane.

Jako przykład podam pomidory, ponieważ łącznie zidentyfikowałem aż 7 różnych rodzajów pomidorów w swoich e-paragonach. Nie chciałem aż 7 rodzajów pomidorów (rzymskie, malinowe, deserowe, luzem lub w predefiniowanych rozmiarach) agregować do jednej kategorii ‘pomidory’ ponieważ poszczególne produkty mogą (nie muszą) charakteryzować się różną jakością oraz dynamiką cen.

Powiedzenie „porównywać jabłka z jabłkami a gruszki z gruszkami” nabiera dla mnie od dzisiaj nowego znaczenia.

  • Jakość danych nie jest w pełni satysfakcjonująca, ale jest zdecydowanie akceptowalna.

Zdarzały się błędy w danych na poziomie OCR oraz ich dalszego mapowania. Aby temu zapobiec obserwacje skrajne (największe zmiany cen na plus oraz minus) weryfikowałem ręcznie, dopóki TOP 5 zmian uzgadniało się z paragonami. Uznaję, że błędy na niższym poziomie nie mają już większego wpływu na prezentowane dane.

ANALIZA

W celu porównania zmian cen pomiędzy produktami w czasie trzeba wszystko sprowadzić do wspólnego mianownika. W tym celu stworzyłem prosty indeks zmiany cen, którego bazową wartością jest 100 i może przyjmować następujące wartości:

  • Powyżej 100 – oznacza wzrost ceny w czasie. Np. wartość 110 oznacza wzrost ceny o 10%.
  • Dokładnie 100 – oznacza brak zmiany ceny w czasie.
  • Poniżej 100 – oznacza spadek ceny w czasie. Np. wartość 85 oznacza spadek ceny o 15%.

Cenę danego produktu w czasie porównywałem w odniesieniu do jego ceny z pierwszej daty wystąpienia w paragonie (data referencyjna). Co to oznacza? Jak wspomniałem analizuję okres od czerwca 2021 r. do maja 2022 r. Idealną sytuacją byłoby porównanie wszystkich cen z zakresu lipiec 2021 r. – maj 2022 r. do ceny z czerwca 2021 r.

Co zrobić, jeżeli danego produktu nie kupiłem w czerwcu 2021 r. a pierwszy raz kupiłem go dopiero w grudniu 2021 r.? W takim przypadku jako pierwszą datą wystąpienia w paragonie (data referencyjna) przyjąłem właśnie grudzień 2021 r. i wszystkie ceny w kolejnych okresach są porównywane do grudnia 2021 r. dla tego typu produktu.

Tak tworząc indeks zawsze wartością początkową będzie wartość 100.

Obrazuje to dobrze poniższy wykres dla dwóch produktów:

  • Cheddar wiórki:
    • Pierwszy raz kupiłem ser cheddar dopiero we wrześniu 2021 r. i to jest przyjęte jako data referencyjna. W tym miesiącu indeks zmiany cen wynosi 100. 
    • Kupowałem ser cheddar w każdym miesiącu aż do lutego 2022 r. włącznie.
    • W marcu nie kupiłem ser cheddar (linia się urywa).
    • Datą kolejnego zakupu set cheddar jest dopiero kwiecień 2022 r. (niebieska kropka na wykresie).
    • W maju 2022 r. już nie kupiłem ser cheddar (dojadam z kwietnia 2022 r.).
  • Czosnek świeży luz – tutaj sytuacja jest idealna, tj. kupowałem czosnek każdego miesiąca. W związku z tym datą referencyjną będzie czerwiec 2021 r.

RAPORT POWERBI

Na raporcie PowerBI umieściłem łącznie aż 6 filtrów, które mają dwa cele:

  • Uproszczenie przeglądania danych – łącznie w okresie 12 miesięcy kupiłem w Lidl’u 379 różnych produktów. Żaden wykres liniowy nie jest w stanie tego ładnie zaprezentować. Wykorzystując filtry ograniczymy liczbę produktów do zdecydowanie mniejszego zbioru.
  • Możliwość przeglądania danych w różnych przekrojach – każdego może interesować inny obszar: poszczególne produktu, zmiany cen lub rozpiętości cen. Poszczególne filtry pozwolą na analizowanie danych w zależności od preferencji.

Poniżej jest opis każdego z wykorzystywanych filtrów w raporcie PowerBI:

  • CENA POWYZEJ / PONIZEJ 5% – interesują mnie produkty tylko z dużą zmianą ceny, czyli o więcej niż 5% (na plus i minus). Nie interesują mnie produkty, których cena się praktycznie nie zmieniła. W raporcie ten filtr jest zastosowany automatycznie, można go wyłączyć klikając ponownie na przycisk ‘TAK’.
  • LICZBA MIESIECY – nie wszystkie produkty kupowałem w każdym miesiącu. W związku z tym można wybrać minimalną / maksymalną liczbę obserwacji, tj. liczbę występowania danego produktu (liczbę miesięcy) w badanym oknie czasowym. W raporcie ustawiłem wartości domyślnie od 9 do 12.
  • RANKING ZMIAN CEN:
    • Uszeregowałem zmiany ceny produktów od największej (wartość 1) do najmniejszej (wartość 101). Przykład: jeżeli chcemy zobaczyć tylko produkty o największych spadkach cen to należy ograniczyć zbiór od np. 90 do 101.
    • UWAGA: w celu stworzenia tej zmiennej porównuje cenę z maksymalnie dostępnej daty do ceny z pierwszej dostępnej daty (daty referencyjnej). Jeżeli cena produkt jest cykliczna lub sezonowa (np. cena rośnie w zimę i wraca do pierwotnej wartości w wakacje) zmienna ranking będzie miała wartość ze środka przedziału (w moim przypadku ok 50). W tym celu powstał kolejny filtr.
  • MAKSYMALNA ROZPIETOSC CEN – dla danego produktu porównywana jest maksymalna cena w całym okresie występowania do minimalnej ceny w całym okresie występowania. W przypadku braku zmian wartość zmiennej wynosi 1, im wyższa wartość tym większa różnica pomiędzy maksymalną oraz minimalną ceną danego produktu.
  • MIESIAC – można na wykresie wybrać tylko poszczególne miesiące do analizy. Np. jeżeli interesuje nas tylko porównanie czerwca 2021 r. do maja 2022 r. to należy wybrać te daty trzymając jednocześnie na klawiaturze przycisk ctrl.
  • KATEGORIA – można na wykresie wybrać dowolną liczbę poszczególnych produktów. Należy wybrać interesujące nas produkty trzymając jednocześnie na klawiaturze przycisk ctrl.

W celu lepszej analizy raportu PowerBI polecam przeglądanie w opcji full-screen, poprzez kliknięcie na strzałkę w prawym dolnym rogu raportu. Na telefonie komórkowym raport wyświetla się lepiej po przekręceniu telefonu do poziomu. 

Raport jest w pełni interaktywny, czyli można kliknąć na każdą pozycję a raport się dostosuje. Poza samymi filtrami można także klikać na:

  • Legendę na wykresie liniowym
  • Wartość indeksu zmiany cen na wykresie liniowym
  • Daty na wykresie liniowym
  • Produkt w tabeli z cenami
  • Miesiąc w tabeli z cenami

CENY GUS VS CENY LIDL

Zestawiłem możliwe do porównania zmiany cen prezentowane przez GUS oraz te z Lidl’a na potrzeby czysto poglądowe lub jako ciekawostkę. Zmian cen nie można łatwo porównać, ponieważ:

  • GUS prezentuje zmiany dla całej grupy produktów i zbiera dane o bardzo wielu produktach. Ja z Lidl’a porównuje tylko jeden konkretny produkt.
  • Zmiana cen w GUS jest dla okresu kwiecień 2022 r. vs kwiecień 2021 r.
  • Ja przedstawiam, tam gdzie to możliwe zmiany cen dla okresu maja 2022 r. vs czerwiec 2021 r. Jednakże w wielu przypadkach okres analizy jest krótszy (opisany powyżej problem daty referencyjnej).

Ceny GUS vs LIDL

CIEKAWOSTKI Z LIDLA

Poniżej zebrałem kilka ciekawostek na podstawie analizy moich zakupów w Lidl:

  • W każdym miesiącu kupiłem przynajmniej raz: czosnek, jogurt activia, jajka, marchewki, mięso z nogi kurczaka oraz schab bez kości.
  • Ceny mandarynek rosną bardzo mocno w zimę do około 18,5 PLN w grudniu, a potem na wiosnę znowu spadają do normalnego poziomu ok 8,8 PLN.
  • Ser mozarella od czerwca 2021 r. do stycznia 2022 r. kosztował w granicach 4,6 PLN – 5,0 PLN po czym w lutym nastąpił skokowy wzrost cen do 7 PLN i przez marzec – kwiecień 2022 r. utrzymywał się na poziomie 7,13 PLN
  • Ogórki zielone kosztowały w okresie wakacji 2021 r. ok 5,7 PLN po czym w marcu 2022 r. ceny wzrosły do 14,27 PLN.

Wpisy o podobnej tematyce

Wynagrodzenia – średnia vs mediana [PowerBI]

W 2022 r. GUS opublikował dużą analizę dotyczącą poziomu oraz struktury wynagrodzenia brutto w Polsce za październik 2020 r. Za pomocą interaktywnych wykresów w PowerBI przedstawiam wynagrodzenie brutto w podziale na krotność wynagrodzenia, staż pracy w latach, decyle w tym medianę, płeć oraz główne grupy zawodowe.

Czynsz za mieszkanei vs inflacja

Finanse osobiste – czynsz za mieszkanie vs inflacja [Excel]

Mój czynsz za mieszkanie od 2023 r. obniżył się o 10%. Pomimo podwyżek cen energii (ogrzewanie, energia elektryczna, etc.) moje zużycie w mieszkaniu istotnie spadło, czego finalnym efektem jest niższy czynsz. W tym wpisie dokładnie analizuje mój czynsz oraz zestawiam go z danymi o inflacji.

Realna cena nieruchomości

Nieruchomości – cena realna [PowerBI]

Realne ceny nieruchomości bronią się przed inflacją CPI w długim okresie. W krótkim okresie bywa różnie. W załączonym kalkulatorze PowerBI możesz sprawdzić, ile wynosi realna cena nieruchomości oraz przeprowadzić prostą analizę typu „co jeśli”.

Subscribe
Powiadom o
guest

0 komentarzy
najstarszy
najnowszy oceniany
Inline Feedbacks
View all comments