r h2
R dla badaczy
– poziom średniozaawansowany
25 i 26 listopada 2020 r.
trener:
Marek Młodożeniec, Sotrender
R to narzędzie umożliwiające wydobycie z surowych danych wartościowych insightów, celem przekucia ich w trafne decyzje biznesowe.

R osiąga to, łącząc w sobie elastyczność języka programowania (możliwość zmiany struktury danych, tworzenia własnych funkcji, wykonywania zadań w pętlach itp.) z zaletami oprogramowania Business Intelligence (łatwość zastosowania metod analitycznych i wizualizacji odpowiadających na konkretne potrzeby biznesowe). Wprowadzone na kursie podstawowym i znane każdemu analitykowi główne metody statystyczne – tabele kontyngencji, porównania średnich w podgrupach i analiza korelacji – są zazwyczaj punktem wyjścia do dalszych dociekań. Dopiero metody wielowymiarowej analizy danych, takie jak modele regresji, analiza czynnikowa, clustering i mapy percepcyjne dają wgląd w prawdziwe tajemnice ukryte w danych. Te właśnie zaawansowane techniki zamierzam przybliżyć na kursie średniozaawansowanym.

Szczegółowy zakres szkolenia:

Część 1: Instrumentarium Data Scientist

  • Tworzenie własnych funkcji
    • składnia funkcji
    • argumenty funkcji: wymagane i domyślne wartości
    • zwracanie wartości w sposób jawny i ukryty
    • obsługa błędów
    • wczytywanie podręcznego zestawu funkcji z zewnętrznych skryptów
  • Wykonywanie zadań w pętlach
    • składnia pętli for i while
    • funkcje z rodziny apply()
  • Wczytywanie danych ze źródeł zewnętrznych
    • wczytywanie danych wprost z arkuszy Excel
    • zapis i odczyt danych w formacie RDS
    • przykłady wczytywania danych ze źródeł zewnętrznych: Google Drive, bazy SQL, API zewnętrznych aplikacji, web scraping
  • Łączenie baz danych wierszami (dołączanie przypadków)
  • Przekształcanie struktury danych z formatu długiego w format szeroki i na odwrót
  • Przygotowanie danych do dalszej analizy z wykorzystaniem operatora potoku (%>%)
    • sortowanie zbioru
    • usuwanie i podmiana braków danych
    • filtrowanie obserwacji
    • selekcja zmiennych i modyfikacja ich nazw
    • tworzenie zmiennych będących funkcjami zmiennych istniejących
    • grupowanie i wyliczanie parametrów w podgrupach
    • łączenie baz danych kolumnami (dołączanie zmiennych)
Część 2: Zaawansowane metody statystyczne
  • Analiza czynnikowa i analiza głównych składowych
    • idea i zastosowania analizy czynnikowej
    • dobór parametrów analizy: metoda rotacji
    • sposób interpretacji wyników
    • ocena jakości rozwiązania i sposoby jego poprawy
    • tworzenie map percepcyjnych z wykorzystaniem analizy czynnikowej
  • Modele regresyjne
    • model regresji jako narzędzie opisu i przewidywania
    • regresja liniowa: interpretacja współczynników równania i wartości R2
    • szacowanie siły wpływu: indeks Pratta
    • poprawa dopasowania modelu:
      • minimalizacja wzajemnego skorelowania predyktorów
      • nieliniowe przekształcenia zmiennych: rule of the bulge
      • eliminacja przypadków odstających
    • metody poprawy rozwiązania: selekcja predyktorów
    • dodawanie interakcji międzyzmiennowych do modelu
    • regresja nieliniowa: wielomianowa i logistyczna
  • Analiza skupień (clustering)
    • zastosowania analizy skupień: znaczenie biznesowe segmentacji rynku
    • przygotowanie danych do analizy skupień: standaryzacja i ortogonalizacja zmiennych, eliminacja przypadków odstających
    • clustering hierarchiczny i clustering k-średnich: wybór parametrów analizy
    • interpretacja i wizualizacja wyników analizy skupień
    • kryteria wyboru optymalnego rozwiązania
  • Analiza korespondencji
    • przygotowanie danych wejściowych do analizy
    • interpretacja wyników
    • generowanie mapy korespondencji i dostosowanie jej wyglądu
    • wykorzystanie analizy korespondencji do wizualizacji wizerunku marki

Do kogo kierowane jest szkolenie:

Kurs średniozaawansowany został stworzony dla osób, które posiadają już podstawowe umiejętności analizy danych w języku R (np. wczytywanie pliku CSV, opis parametryczny jednej zmiennej, generowanie tabel itp.). Na szkolenie średniozaawansowane zapraszamy więc osoby, które znają już trochę język R, ale chciałyby nabrać w posługiwaniu się nim większej biegłości, lub opanować techniki analityczne stosowane w branży badań rynku. W podążaniu za programem kursu pomocna będzie podstawowa wiedza z zakresu statystyki oraz doświadczenie w stosowaniu omawianych metod, np. w pakiecie SPSS.

Korzyści dla uczestników:

Po ukończeniu tego szkolenia uczestnik będzie potrafił:

  • Definiować własne funkcje statystyczne
  • Uruchamiać skrypty bez otwierania ich w edytorze (wstęp do programowania modularnego)
  • Wykonywać operacje w pętlach
  • Wczytywać dane z wybranej zakładki w arkuszu Excel i z formatu RDS
  • Łączyć bazy danych wierszami (dodawanie przypadków) i kolumnami (dodawanie zmiennych)
  • Zmieniać format danych z formatu baz relacyjnych („długiego”) na częściej stosowany w badaniach format „szeroki”
  • Posługiwać się funkcjami pakietów dplyr i tidyr do przetwarzania zbiorów danych, w celu przygotowania danych do dalszej analizy
  • Wykonywać analizę czynnikową i interpretować jej wyniki
  • Tworzyć mapy percepcyjne z wykorzystaniem czynników
  • Przeprowadzać analizę regresji, interpretować jej wyniki i optymalizować dopasowanie modelu
  • Szacować procentowy udział siły wpływu każdego z predyktorów na zmienną zależną
  • Interpretować wyniki regresji liniowej z interakcją i bez, wielomianowej oraz logistycznej
  • Przeprowadzać analizę skupień metodami hierarchicznymi i k-średnich
  • Wybierać podział zbioru najbardziej obiecujący pod kątem segmentacji rynku
  • Przeprowadzać analizę korespondencji
  • Generować i interpretować mapę korespondencji zawierającą marki i cechy wizerunkowe

Kluczowe pojęcia i zagadnienia:

Pojęcia z zakresu programowania: wymagane i opcjonalne argumenty funkcji, domyślna wartość argumentu, wrapper, funkcja przeciążona, obsługa błędów, programowanie modularne, pętla, inkrementacja, warunek stopu, API, format JSON, długi i szeroki format danych, potok (pipeline)

Pojęcia statystyczne: czynnik, standaryzacja, rotacja, wykres osypiska, ładunki czynnikowe, predykcja, zależność liniowa i nieliniowa, zmienna zależna i predyktory, moc predykcyjna modelu, współczynniki standaryzowane Beta, współczynnik Pratta, skorelowanie wzajemne, przypadki odstające, przekształcenie nieliniowe, logarytm, wielomian, logit, ortogonalność, segmentacja, skupienie (cluster), metryka, odległość Euklidesowa, metoda aglomeracji, profil wierszowy i kolumnowy, rozkład wg. wartości osobliwych macierzy (singular value decomposition, SVD), masa i moment punktu

Forma szkolenia:

Szkolenie będzie miało formę warsztatową. Zdecydowaną większość czasu spędzimy, pisząc i testując kod na własnych komputerach. Moduły tematyczne składające się z teorii i przykładów będą przedzielane ćwiczeniami indywidualnymi, służącymi utrwaleniu materiału.

Stopień zaawansowania:

Kurs średniozaawansowany jest kontynuacją i rozwinięciem szkolenia „R dla badaczy – poziom podstawowy”, toteż opanowanie podstawowych umiejętności analizy danych w R (niekoniecznie w ramach szkolenia podstawowego) z powodzeniem wystarczy do podążania za programem kursu średniozaawansowanego. Podstawowa wiedza na temat omawianych metod analitycznych (analiza czynnikowa, analiza regresji, analiza skupień i analiza korespondencji) będzie pomocna, ale zagadnienia te w razie potrzeby zostaną objaśnione.

pdf
Anna Mazerant
Marek
Młodożeniec
Sotrender

termin: 25 i 26 listopada 2020 r.
czas trwania: 16 godzin szkoleniowych w godz. 9.00-16.30
miejsce: PTBRiO, Szarotki 11, Warszawa
w cenie: udział w szkoleniu, materiały, certyfikat, przerwy kawowe, lunch
najlepsza cena: do dnia:
1499 zł 4.XI
regularna cena:
1699 zł
zgłoś się
ceny netto

Chcesz wiedzieć więcej?

więcej informacji udzieli Ci koordynator szkoleń
Anna Chodkiewicz

Powered by ChronoForms - ChronoEngine.com