Internet Of Things: Big Data & Analytics - Rozdział 3
1. Dane zbierane z czujników i urządzeń IoT są kluczowym elementem w zapewnieniu możliwości zmian. Dane są zmieniane z surowego formatu na informacje po ich zebraniu, przygotowaniu, analizie i przedstawieniu w użytecznym formacie. Pierwszym krokiem w tworzeniu potrzebnych informacji jest przeprowadzenie eksploracyjnej analizy danych.
Eksploracyjna analiza danych to zestaw procedur zaprojektowanych do wytwarzania opisowych i graficznych podsumowań danych z założeniem, że wyniki mogą ujawnić interesujące wzorce. Jest to proces odkrywania, który czasem pozwala nam stworzyć hipotezę dotyczącą danych. Umożliwia odkrywanie nowych pytań do odpowiedzi. Na przykład analityk dla sieci restauracji fast food zostaje poproszony o przeanalizowanie negatywnych komentarzy na Twitterze dotyczących restauracji. Eksploracyjna analiza danych ujawniła, że coś dotyczącego oferty śniadaniowej może być problemem, ale nie pozwala analitykowi na wyciągnięcie wniosków co do tego, dlaczego tak się dzieje. Potrzebna jest dalsza analiza, aby zrozumieć konkretną przyczynę tego wyniku.
2. Zbieranie danych to jeden z pierwszych kroków w przeprowadzaniu eksploracyjnej analizy danych. Bez względu na rodzaj analizy, dane IoT stawiają szczególne wyzwania. Po pierwsze, dane IoT mogą występować w dużych ilościach i w różnych formatach. Niektóre dane mogą być uporządkowane, tak że natura i znaczenie danych można szybko przetworzyć i zrozumieć. Inne dane mogą być nieustrukturyzowane i wymagać znacznej obróbki, aby stały się znaczące. Dane IoT mogą wymagać bardziej zaawansowanych narzędzi analitycznych. Innym ważnym aspektem w danych IoT jest czas jako zmienna. Dane IoT są często przesyłane w czasie rzeczywistym lub bliskim czasu rzeczywistego. Dane generowane z obserwacji zmian zmiennej w czasie nazywane są szeregami czasowymi. Dane szeregów czasowych różnią się od danych przekrojowych, gdzie obserwacja odbywa się w jednym konkretnym momencie dla wielu różnych zmiennych. Zwykle dane będą sformatowane w tabeli, a punkty danych można posortować według ich znaczników czasu.
3. Podczas przeprowadzania jakiegokolwiek eksperymentu lub analizy, kluczowe jest zdefiniowanie głównych cech, które muszą być mierzone lub obserwowane, aby odpowiedzieć na postawione pytania lub stworzyć potrzebną hipotezę. Te cechy, które mają być badane, nazywane są zmiennymi. Zmienna to wszystko, co różni się od jednego przypadku do drugiego. Zmienna to nie tylko coś, co można zmierzyć, ale jej wartość można również manipulować lub kontrolować.
Podczas eksperymentu lub analizy mogą być obserwowane różne zmienne i ich powiązane wartości. Rejestrowanie wartości, wzorców i wystąpień dla zestawu zmiennych to obserwacja. Zestaw wartości dla tego konkretnego obserwacji nazywa się punktem danych. Każdą obserwację można traktować jako rekord w bazie danych lub wiersz danych w arkuszu kalkulacyjnym Excela z danymi. Zbiór obserwacji tworzy zestaw danych do analizy.
Ponieważ obserwacje zazwyczaj mają jakiś cel, tylko niektóre cechy są istotne dla tego celu. Na przykład, jeśli zgubiłeś swojego zwierzaka i poprosiłeś innych ludzi o pomoc w poszukiwaniach, tylko niewielki zestaw cech jest istotny dla obserwacji - np. rodzaj zwierzęcia, kolor, rasa, gabaryt.
4. Typy zmiennych (z perspektywy analizy danych):
- Nominalne – Są to zmienne składające się z dwóch lub więcej kategorii, których wartość jest przypisywana na podstawie tożsamości obiektu. Przykłady to płeć, kolor oczu lub rodzaj zwierzęcia.
- Porządkowe – Są to zmienne składające się z dwóch lub więcej kategorii, w których kolejność ma znaczenie dla wartości. Przykłady to ranking klasy ucznia lub skale ankiet satysfakcji (niezadowolony, neutralny, zadowolony).
- Ciągłe – Są to zmienne ilościowe, które można mierzyć wzdłuż ciągłości lub zakresu wartości. Istnieją dwa rodzaje zmiennych ciągłych, zmienne interwałowe mogą mieć dowolną wartość w zakresie wartości. Przykłady to temperatura lub czas.
- Proporcjonalne - są szczególnym przypadkiem zmiennych interwałowych, gdzie wartość zero oznacza brak tej zmiennej. Przykłady obejmują dochód lub wielkość sprzedaży.
- Dyskretne – Te rodzaje zmiennych ciągłych są ilościowe, ale mają konkretną wartość z skończonego zbioru wartości. Przykłady obejmują liczbę aktywowanych czujników w sieci lub liczbę samochodów na parkingu.
Niektóre metody statystyczne i wizualizacje danych są zaprojektowane tak, aby lepiej działać z pewnymi rodzajami danych niż innymi. Jak najlepiej wyświetlić wyniki analizy będzie zależeć od rodzaju używanych w danych zmiennych.
5. Statystyka to zbieranie i analizowanie danych za pomocą technik matematycznych, w celu odkrywania wzorców i związków między zmiennymi oraz oceny ich częstości występowania. Wyniki statystyczne są oceniane na podstawie ich związku z efektami przypadkowymi. Analityka obejmuje większą dziedzinę narzędzi niż statystyka, wykorzystując narzędzia modelowania matematycznego w statystyce oraz inne formy analizy, takie jak uczenie maszynowe. Może również obejmować pracę z bardzo dużymi zestawami danych, w tym nieustrukturyzowanymi danymi.
6. Statystyka skupia się na aspektach rzeczywistości, które są badane w określonym celu, takich jak aspekty ludzi lub treść tweetów lub postów na Facebooku. Populacja to grupa podobnych jednostek, które dzielą pewien wspólny zestaw cech, które mogą być używane do celów statystycznych lub badawczych. Zamiast badać całą populację, do analizy można użyć reprezentatywnej grupy z populacji, nazywanej próbką. Próbki są często wybierane w taki sposób, aby reprezentować większą populację w jakiś sposób, a do wywodzenia próbek z populacji stosuje się szereg technik.
7. Po określeniu problemu (lub pytań do zadania) i zdefiniowaniu populacji potrzebna jest pewna forma analizy lub statystyki.
- Statystyka opisowa służy do opisywania lub podsumowywania wartości i obserwacji zbioru danych. Na przykład, licznik kondycji zarejestrował codzienne kroki i tętno osoby przez 10-dniowy okres. Jeśli osoba spełniła swoje cele kondycyjne w 6 z 10 dni, to była skuteczna w 60% czasu. W ciągu tego 10-dniowego okresu tętno osoby mogło wynosić maksymalnie 140 uderzeń na minutę (bpm), ale średnio 72 bpm. Informacje o liczbach, średnich i maksymach to niektóre sposoby opisywania i upraszczania zbioru danych, który został zaobserwowany.
Podstawowe statystyki opisowe mogą obejmować liczbę punktów danych w zbiorze danych, zakres wartości istniejących dla liczbowych punktów danych lub liczbę razy, kiedy różne wartości pojawiają się w zbiorze danych, między innymi. Ponadto statystyka opisowa obejmuje wartości, które podsumowują zbiór danych na różne sposoby. Może odpowiadać na pytania takie jak:
- Jak szeroko rozproszone są dane?
- Czy są wartości, które występują częściej niż inne?
- Jaka jest najmniejsza lub największa wartość?
- Czy występują jakieś szczególne trendy?
Odpowiedzi na te pytania można przedstawić w formacie liczbowym i graficznym (wykresy).
Ważne jest, aby zauważyć, że choć statystyka opisowa opisuje obecny lub historyczny stan zaobserwowanej populacji, nie pozwala na porównanie grup, wyciąganie wniosków ani przewidywanie innych zbiorów danych, które nie znajdują się w populacji.
- Statystyka wnioskująca to proces zbierania, analizowania i interpretowania danych zebranych z próbki w celu uogólnienia lub przewidywania na temat populacji. Ponieważ używa się reprezentatywnej próbki zamiast rzeczywistych danych z całej populacji, należy rozwiązać problem, że wybrane dla badania grupy lub środowisko, w którym przeprowadza się badanie, mogą nie odzwierciedlać dokładnie cech większej grupy. Podczas korzystania ze statystyki wnioskującej należy odpowiedzieć na pytania, jak blisko wywnioskowane dane są do rzeczywistych danych i jak pewni możemy być co do wyników. Zwykle tego rodzaju analizy obejmują różne techniki próbkowania w celu zmniejszenia błędu i zwiększenia pewności co do uogólnień na temat wyników. Rodzaj używanej techniki próbkowania zależy od rodzaju danych.
8. W analizie Big Data stosuje się różne podejścia statystyczne. Statystyka opisowa opisuje próbkę, co jest przydatne do zrozumienia danych próbki i określenia jakości danych. Może ona pomóc określić, ile danych w próbce nadaje się do analizy i zidentyfikować kryteria usuwania danych, które są nieodpowiednie lub problematyczne. W analizie Big Data bardzo często stosuje się wiele rodzajów analiz wnioskujących i uczenia maszynowego:
- Klaster - służy do znajdowania grup obserwacji podobnych do siebie Asocjacja - służy do znajdowania współwystępowania wartości dla różnych zmiennych.
- Regresja - służy do ilościowego określenia związku, jeśli istnieje, między zmiennością jednej lub więcej zmiennych.
W uczeniu maszynowym oprogramowanie komputerowe jest albo dostarczane z zestawem reguł, albo wywodzi własny zestaw reguł używanych do przeprowadzenia analizy. Techniki uczenia maszynowego mogą wymagać dużej mocy obliczeniowej i stały się wykonalne dopiero po wprowadzeniu przetwarzania równoległego.
9. Istnieje wiele sposobów podsumowania danych za pomocą statystyki opisowej. Można szukać rzeczywistego rozkładu danych, miar tendencji centralnej lub miar zakresów. Na podstawowym poziomie rozkład to proste skojarzenie między wartością a liczbą lub procentem razy, kiedy pojawia się w próbce danych. Rozkłady są przydatne do zrozumienia cech próbki danych.
Rozkłady częstości składają się ze wszystkich unikalnych wartości dla zmiennej i liczby razy, kiedy wartość występuje w zbiorze danych. W rozkładach prawdopodobieństwa zamiast częstości używa się proporcji czasów, kiedy wartość występuje w danych.
Histogram może natychmiast reprezentować rozkład zbioru danych. W przypadku zmiennej dyskretnej każdy kosz histogramu jest przypisany do określonej wartości.
Funkcje rozkładu prawdopodobieństwa pozwalają na reprezentowanie kształtu całego rozkładu zbioru danych za pomocą tylko małego zestawu parametrów, takich jak średnia i wariancja, które zostaną wyjaśnione później w tym rozdziale. Funkcją rozkładu prawdopodobieństwa szczególnie odpowiednią do reprezentowania wielu zdarzeń występujących w przyrodzie jest rozkład Gaussa lub normalny, który jest symetryczny i dzwonowaty.
Miary tendencji centralnej to powszechnie używane cechy rozkładów, które wyrażają wartości zmiennej najbliższe centralnej pozycji w rozkładzie danych. Najczęściej stosowanymi miarami centralności są średnia, mediana i moda. Średnia, znana również jako średnia arytmetyczna, bierze pod uwagę wszystkie wartości w zbiorze danych, ale może być silnie wpływa na przez skrajne wartości, zwane również wartościami odstającymi. Mediana to środkowa wartość w zbiorze danych po uporządkowaniu listy wartości i nie jest wrażliwa na skrajne wartości. Rodzaj zmiennej używanej w zbiorze danych również wpłynie na to, która miara tendencji centralnej będzie najlepiej użyta do reprezentowania danych.
Najprostszym sposobem opisania zmienności w próbce jest obliczenie różnicy między najwyższą i najniższą wartością dla zmiennej. Ta statystyka znana jest jako zakres. Zawsze warto mieć pojęcie o tym, jakie są najwyższe i najniższe wartości dla zmiennej jako podstawowy sposób sprawdzenia, czy dane mają sens.
Wariancja rozkładu to miara tego, jak daleko każda wartość w zbiorze danych jest od średniej. Związana z wariancją jest odchylenie standardowe. Odchylenie standardowe jest używane do standaryzacji rozkładów jako część krzywej normalnej.
Porównanie odchyleń standardowych między dwiema próbkami na tej samej miarze może pomóc opowiedzieć historię tego, co się dzieje. Na przykład, jeśli średnia wyników testów w jednej szkole jest wyższa niż dla tego samego testu w innej szkole, naturalne byłoby założenie, że wszyscy uczniowie w pierwszej szkole są lepsi niż ci w drugiej szkole. Jednak odchylenia standardowe mogą dodać dodatkową warstwę interpretacji historii. Jeśli odchylenie standardowe dla pierwszej szkoły jest wyższe dla pierwszej grupy, mówi to o tym, że rozkład jest bardziej rozproszony i że więcej uczniów uzyskuje wyniki na skrajach rozkładu. Możliwe, że mała grupa bardzo wysoko ocenianych uczniów wpłynęła na średnią. Dalsze badania pokazują, że specjalny program dla uzdolnionych uczniów w szkole podniósł średnią poprzez oddalenie jej od mediany.
10. Pandas to biblioteka open source dla Pythona, która dodaje wysokowydajne struktury danych i narzędzia do analizy dużych zbiorów danych. Jest łatwa w użyciu i popularna w dodawaniu dodatkowych możliwości do Pythona dla analizy danych. Ramka danych jest jak arkusz kalkulacyjny z wierszami i kolumnami oraz opcjonalnymi indeksami i kolumnami. Ramki danych są łatwo budowane z różnych innych struktur danych i plików zewnętrznych, takich jak csv, a szeroka gama metod jest dostępna dla obiektów ramki danych. Pandas jest importowany do programu Python za pomocą importu, jak inne moduły, a konwencjonalnie używa się import pandas as pd.
11. Przyczynowość to związek, w którym jedna rzecz zmienia się lub powstaje bezpośrednio z powodu czegoś innego (np. wzrost globalnej temperatury powoduje zmniejszenie lodowej czapy Arktyki). Korelacja to związek między zjawiskami, w którym dwie lub więcej rzeczy zmienia się w podobnym tempie. Jest to problem, jeśli powiemy, że jedna z tych rzeczy powoduje drugą. Niektórzy ludzie stworzyli przemysł identyfikacji i udostępniania fałszywych korelacji. Wiele niepowiązanych ze sobą zjawisk zmienia się podobnie w tym samym okresie czasu (np. spadek zużycia wełny nie może być uważany za przyczynę zmniejszenia lodowej czapy Arktyki).
12. Korelacje mogą być dodatnie lub ujemne. Wielkości skorelowane dodatnio zmieniają się w tym samym kierunku. Jeśli jedna wielkość wzrasta, druga wzrasta w podobnym stopniu. Korelacja ujemna występuje, gdy wielkości zmieniają się w podobnej proporcji, ale w przeciwnych kierunkach. Innymi słowy, jeśli jedna wzrasta, druga maleje podobnie. Korelacje między wielkościami można ilościowo wyrazić za pomocą podejść statystycznych. Najczęściej stosowaną statystyką do wyrażania korelacji jest współczynnik korelacji Pearsona.
Korelacje można obliczyć dla wielu zmiennych jednocześnie. Spowoduje to obliczenie współczynników korelacji między wszystkimi polami dostarczonymi do ramki danych. Wynikiem tego może być duża tabela współczynników korelacji. Wizualizacja zwana mapą ciepła jest przydatna do zrozumienia, jak wartości współczynników korelacji odnoszą się do siebie nawzajem.
13. Wstępnym zadaniem analityka danych przed przystąpieniem do analizy jest oczyszczenie danych w zbiorze danych. Czyszczenie danych może polegać na usuwaniu brakujących lub niepożądanych wartości lub zmianie formatu wartości, aby były spójne.
Przykładem zbioru danych, który wymaga wstępnego oczyszczenia, jest zbiór danych z obecnością wartości NaN. NaNy (Not a Number) są używane do reprezentowania danych, które są niezdefiniowane lub nie mogą być reprezentowane. Pandas odnosi się do brakujących danych jako wartości NaN, które są również powszechnie nazywane wartościami NA. NaNy mogą sprawić, że funkcje analizy danych nagle zakończą się podczas obliczeń, zgłoszą błędy lub wygenerują nieprawidłowe wyniki. NaNy mogą być również celowo używane do jednolitego reprezentowania wszystkich brakujących informacji w zbiorze danych, zarówno nieprawidłowych lub pustych wartości, jak i danych, których po prostu nie ma. Wiele zbiorów danych ma brakujące dane, ponieważ dane nie zostały prawidłowo zebrane lub od początku ich brakowało. Inną powszechną przyczyną NaNów jest ponowne indeksowanie danych w zbiorze danych. Brakujące wartości mogą przybierać różne formy w zależności od typu danych. Typy danych pandas to: obiekty/ciągi znaków, int64/liczby całkowite, float64/liczby zmiennoprzecinkowe i datatime64/znaczniki czasu. NaNy są używane dla niezdefiniowanych ciągów znaków, liczb całkowitych i zmiennoprzecinkowych, a NaTy są używane dla znaczników czasu. Mogą również występować sytuacje, w których wartość Pythona None będzie również reprezentować brakujące dane.
Aby ułatwić wykrywanie brakujących wartości w zbiorze danych, pandas udostępnia funkcje isnull() i notnull().
Aby usunąć wartości null lub NaN z ramki danych, należy użyć funkcji dropna() .