PTBRiO

R dla badaczy
– poziom średniozaawansowany

trener:
Marek Młodożeniec, Sotrender

zgłoś się

R to narzędzie umożliwiające wydobycie z surowych danych wartościowych insightów, celem przekucia ich w trafne decyzje biznesowe.

R osiąga to, łącząc w sobie elastyczność języka programowania (możliwość zmiany struktury danych, tworzenia własnych funkcji, wykonywania zadań w pętlach itp.) z zaletami oprogramowania Business Intelligence (łatwość zastosowania metod analitycznych i wizualizacji odpowiadających na konkretne potrzeby biznesowe). Wprowadzone na kursie podstawowym i znane każdemu analitykowi główne metody statystyczne – tabele kontyngencji, porównania średnich w podgrupach i analiza korelacji – są zazwyczaj punktem wyjścia do dalszych dociekań. Dopiero metody wielowymiarowej analizy danych, takie jak modele regresji, analiza czynnikowa, clustering i mapy percepcyjne dają wgląd w prawdziwe tajemnice ukryte w danych. Te właśnie zaawansowane techniki zamierzam przybliżyć na kursie średniozaawansowanym.

Szczegółowy zakres szkolenia:

Część 1: Instrumentarium Data Scientist

Tworzenie własnych funkcji
- składnia funkcji
- argumenty funkcji: wymagane i domyślne wartości
- zwracanie wartości w sposób jawny i ukryty
- obsługa błędów
- wczytywanie podręcznego zestawu funkcji z zewnętrznych skryptów
Wykonywanie zadań w pętlach
- składnia pętli for i while
- funkcje z rodziny apply()
Wczytywanie danych ze źródeł zewnętrznych
- wczytywanie danych wprost z arkuszy Excel
- zapis i odczyt danych w formacie RDS
- przykłady wczytywania danych ze źródeł zewnętrznych: Google Drive, bazy SQL, API zewnętrznych aplikacji, web scraping
Łączenie baz danych wierszami (dołączanie przypadków)
Przekształcanie struktury danych z formatu długiego w format szeroki i na odwrót
Przygotowanie danych do dalszej analizy z wykorzystaniem operatora potoku (%>%)
- sortowanie zbioru
- usuwanie i podmiana braków danych
- filtrowanie obserwacji
- selekcja zmiennych i modyfikacja ich nazw
- tworzenie zmiennych będących funkcjami zmiennych istniejących
- grupowanie i wyliczanie parametrów w podgrupach
- łączenie baz danych kolumnami (dołączanie zmiennych)

Część 2: Zaawansowane metody statystyczne

Analiza czynnikowa i analiza głównych składowych
- idea i zastosowania analizy czynnikowej
- dobór parametrów analizy: metoda rotacji
- sposób interpretacji wyników
- ocena jakości rozwiązania i sposoby jego poprawy
- tworzenie map percepcyjnych z wykorzystaniem analizy czynnikowej
Modele regresyjne
- model regresji jako narzędzie opisu i przewidywania
- regresja liniowa: interpretacja współczynników równania i wartości R²
- szacowanie siły wpływu: indeks Pratta
- poprawa dopasowania modelu:
  - minimalizacja wzajemnego skorelowania predyktorów
  - nieliniowe przekształcenia zmiennych: rule of the bulge
  - eliminacja przypadków odstających
- metody poprawy rozwiązania: selekcja predyktorów
- dodawanie interakcji międzyzmiennowych do modelu
- regresja nieliniowa: wielomianowa i logistyczna
Analiza skupień (clustering)
- zastosowania analizy skupień: znaczenie biznesowe segmentacji rynku
- przygotowanie danych do analizy skupień: standaryzacja i ortogonalizacja zmiennych, eliminacja przypadków odstających
- clustering hierarchiczny i clustering k-średnich: wybór parametrów analizy
- interpretacja i wizualizacja wyników analizy skupień
- kryteria wyboru optymalnego rozwiązania
Analiza korespondencji
- przygotowanie danych wejściowych do analizy
- interpretacja wyników
- generowanie mapy korespondencji i dostosowanie jej wyglądu
- wykorzystanie analizy korespondencji do wizualizacji wizerunku marki

Do kogo kierowane jest szkolenie:

Kurs średniozaawansowany został stworzony dla osób, które posiadają już podstawowe umiejętności analizy danych w języku R (np. wczytywanie pliku CSV, opis parametryczny jednej zmiennej, generowanie tabel itp.). Na szkolenie średniozaawansowane zapraszamy więc osoby, które znają już trochę język R, ale chciałyby nabrać w posługiwaniu się nim większej biegłości, lub opanować techniki analityczne stosowane w branży badań rynku. W podążaniu za programem kursu pomocna będzie podstawowa wiedza z zakresu statystyki oraz doświadczenie w stosowaniu omawianych metod, np. w pakiecie SPSS.

Korzyści dla uczestników:

Po ukończeniu tego szkolenia uczestnik będzie potrafił:

Definiować własne funkcje statystyczne
Uruchamiać skrypty bez otwierania ich w edytorze (wstęp do programowania modularnego)
Wykonywać operacje w pętlach
Wczytywać dane z wybranej zakładki w arkuszu Excel i z formatu RDS
Łączyć bazy danych wierszami (dodawanie przypadków) i kolumnami (dodawanie zmiennych)
Zmieniać format danych z formatu baz relacyjnych („długiego”) na częściej stosowany w badaniach format „szeroki”
Posługiwać się funkcjami pakietów dplyr i tidyr do przetwarzania zbiorów danych, w celu przygotowania danych do dalszej analizy
Wykonywać analizę czynnikową i interpretować jej wyniki
Tworzyć mapy percepcyjne z wykorzystaniem czynników
Przeprowadzać analizę regresji, interpretować jej wyniki i optymalizować dopasowanie modelu
Szacować procentowy udział siły wpływu każdego z predyktorów na zmienną zależną
Interpretować wyniki regresji liniowej z interakcją i bez, wielomianowej oraz logistycznej
Przeprowadzać analizę skupień metodami hierarchicznymi i k-średnich
Wybierać podział zbioru najbardziej obiecujący pod kątem segmentacji rynku
Przeprowadzać analizę korespondencji
Generować i interpretować mapę korespondencji zawierającą marki i cechy wizerunkowe

Kluczowe pojęcia i zagadnienia:

Pojęcia z zakresu programowania: wymagane i opcjonalne argumenty funkcji, domyślna wartość argumentu, wrapper, funkcja przeciążona, obsługa błędów, programowanie modularne, pętla, inkrementacja, warunek stopu, API, format JSON, długi i szeroki format danych, potok (pipeline)

Pojęcia statystyczne: czynnik, standaryzacja, rotacja, wykres osypiska, ładunki czynnikowe, predykcja, zależność liniowa i nieliniowa, zmienna zależna i predyktory, moc predykcyjna modelu, współczynniki standaryzowane Beta, współczynnik Pratta, skorelowanie wzajemne, przypadki odstające, przekształcenie nieliniowe, logarytm, wielomian, logit, ortogonalność, segmentacja, skupienie (cluster), metryka, odległość Euklidesowa, metoda aglomeracji, profil wierszowy i kolumnowy, rozkład wg. wartości osobliwych macierzy (singular value decomposition, SVD), masa i moment punktu

Forma szkolenia:

Szkolenie będzie miało formę warsztatową. Zdecydowaną większość czasu spędzimy, pisząc i testując kod na własnych komputerach. Moduły tematyczne składające się z teorii i przykładów będą przedzielane ćwiczeniami indywidualnymi, służącymi utrwaleniu materiału.

Stopień zaawansowania:

Kurs średniozaawansowany jest kontynuacją i rozwinięciem szkolenia „R dla badaczy – poziom podstawowy”, toteż opanowanie podstawowych umiejętności analizy danych w R (niekoniecznie w ramach szkolenia podstawowego) z powodzeniem wystarczy do podążania za programem kursu średniozaawansowanego. Podstawowa wiedza na temat omawianych metod analitycznych (analiza czynnikowa, analiza regresji, analiza skupień i analiza korespondencji) będzie pomocna, ale zagadnienia te w razie potrzeby zostaną objaśnione.

pdf

Marek
Młodożeniec
Sotrender

termin:

czas trwania: 16 godzin szkoleniowych w godz. 9.00-16.30

miejsce: PTBRiO, Szarotki 11, Warszawa
Uwaga! Ze względu na panującą pandemię organizator szkolenia zastrzega sobie prawo zmiany miejsca, terminu oraz formuły (stacjonarna/ online) szkolenia. O wszelkich ewentualnych zmianach uczestnicy szkolenia będą informowani na bieżąco.

w cenie: udział w szkoleniu, materiały, certyfikat, przerwy kawowe, lunch

najlepsza cena:	do dnia:
1499 zł

regularna cena:
1699 zł

zgłoś się

ceny netto

Chcesz wiedzieć więcej?

więcej informacji udzieli Ci koordynator szkoleń
Anna Chodkiewicz

zapytaj

dlaczego my?