Internet Of Things: Big Data & Analytics - Rozdział 5
1. Analiza eksploracyjna to proces odkrywania wzorców w danych, który pozwala na sformułowanie hipotez. Po zakończeniu tej analizy i znalezieniu interesujących wyników, następnym krokiem jest przekazanie tych informacji decydentom. Kluczowe jest jednak, aby nie zagłębiać się zbytnio w dane i skupić się na jednym lub dwóch kluczowych spostrzeżeniach. Podczas prezentacji wyników, należy usunąć zbędne elementy, które odciągają od treści przekazu. Przykładowo, legendę w wizualizacji można włączyć bezpośrednio do danych, zamiast tworzyć osobne pole z tą informacją.
2. Zanim skutecznie opowiesz historię za pomocą danych, musisz znać swoją publiczność - kto to jest, gdzie się znajdują i kiedy są dostępni. Ważne jest, aby dostosować swoją prezentację do poziomu wiedzy technicznej odbiorców i ich zrozumienia problemu biznesowego. Twoja prezentacja powinna być dostępna dla tych, którzy nie mogli uczestniczyć w spotkaniu, a jej treść powinna być zrozumiała nawet poza kontekstem pierwotnego środowiska dostarczenia. Kluczowe jest skupienie się na najważniejszych spostrzeżeniach i unikanie zbędnych elementów, które mogą odciągać od głównego przekazu.
3. Wartość biznesowa różni się w zależności od odbiorcy, dlatego ważne jest, aby jasno określić, dlaczego dana grupa powinna zainteresować się prezentowaną historią. Kluczowe jest zrozumienie celu prezentacji i dostosowanie jej do potrzeb odbiorców.
4. Twoja historia zazwyczaj ma na celu przekonanie publiczności do przyjęcia Twojego punktu widzenia. Wyjaśnienie jest dokonywane poprzez prezentację dowodów. Dowody, które prezentujesz, powinny być kluczowe dla Twojego końcowego celu. Jeśli dowód nie wspiera Twoich końcowych uwag, lub jest drugorzędny w stosunku do Twojego głównego celu, powinieneś rozważyć jego pominięcie w prezentacji.
5. Logika to rozumowanie służące do formułowania prawidłowych stwierdzeń. Istnieją dwa podstawowe rodzaje rozumowania: dedukcyjne i indukcyjne. Rozumowanie dedukcyjne polega na wykorzystaniu faktów do dojścia do wniosku. Przykładem jest sylogizm, który składa się z trzech przesłanek i prowadzi do konkretnego wniosku. Na przykład, stwierdzenie "wszystkie ssaki mają oczy" prowadzi do wniosku, że "ludzie mają oczy". Poprawne rozumowanie dedukcyjne zawsze prowadzi do prawdziwych wniosków.
6. Rozumowanie indukcyjne polega na tworzeniu wniosków na podstawie obserwacji i hipotez, przechodząc od szczegółów do ogółu. Jest często stosowane w analizie eksploracyjnej danych, gdzie na podstawie próbki populacji wyciągamy wnioski dotyczące całej populacji. Te wnioski mogą prowadzić do sformułowania hipotez, które następnie wymagają potwierdzenia za pomocą rozumowania dedukcyjnego. Ważne jest, aby jasno opisać dane, które są niezbędne do poparcia logiki, oraz wskazać wszelkie możliwe zastrzeżenia lub ograniczenia prawdziwości wniosków.
7. Formalny błąd - Jedną lub więcej przesłanek można udowodnić jako fałszywe.
8. Nieformalny błąd - Przesłanki nie popierają wystarczająco wniosku.
9. Plotly to narzędzie online, które służy do szybkiego generowania pięknych wizualizacji danych. Plotly oferuje wiele zasobów dla analityków danych i deweloperów webowych, w tym biblioteki API, konwertery figur, aplikacje dla Google Chrome oraz otwartoźródłową bibliotekę JavaScript.
10. Wykresy:
- Wykresy liniowe są często używane do porównywania danych. Są szczególnie przydatne, gdy mamy do czynienia z ciągłym zestawem danych, dużą liczbą punktów danych i chcemy pokazać trend w danych na przestrzeni czasu.
- Wykresy kolumnowe są prawdopodobnie najczęściej używanym typem wykresu, gdy chcesz wyświetlić wartość konkretnego punktu danych i porównać tę wartość w podobnych kategoriach.
- Wykresy słupkowe są podobne do wykresów kolumnowych, z tym że są umieszczone poziomo. Dłuższe słupki wskazują na większe liczby. Są najlepsze, gdy nazwy dla każdego punktu danych są długie.
- Wykresy kołowe służą do pokazywania składu statycznej liczby. Segmenty reprezentują procent tej liczby.
- Wykresy punktowe są bardzo popularne do wizualizacji korelacji, lub gdy chcesz pokazać rozkład dużej liczby punktów danych. Wykresy punktowe są również przydatne do demonstracji klasteryzacji lub identyfikacji wartości odstających w danych.
11. Do tworzenia map można użyć biblioteki Folium do Pythona. Folium pozwala Ci na wyświetlanie ramek danych Pythona na interaktywnej mapie Leaflet. Zestaw kafli to zbiór danych rastrowych lub wektorowych, które mogą wyświetlać mapę na urządzeniach mobilnych lub w przeglądarce. Biblioteka Folium obsługuje wiele różnych zestawów kafli, w tym OpenStreetMap, Mapbox i Stamen. Domyślnie Folium korzysta z zestawu kafli OpenStreetMap. Mapy Mapbox i Stamen można określić za pomocą atrybutu tiles. Jednak Mapbox wymaga konta użytkownika, aby uzyskać tokeny dostępu do API.