Co to jest eksploracja danych? Podstawy i jej techniki.

Fundament czwartej rewolucji przemysłowej będzie w dużej mierze zależeć od danych(Data) i łączności(Connectivity) . Usługi analityczne(Analysis Services) zdolne do opracowywania lub tworzenia rozwiązań do eksploracji danych będą odgrywać kluczową rolę w tym zakresie. Może pomóc w analizowaniu i przewidywaniu wyników zachowań zakupowych klientów w celu dotarcia do potencjalnych nabywców. Dane(Data) staną się nowym zasobem naturalnym, a proces wydobywania istotnych informacji z tych nieposortowanych danych nabierze ogromnego znaczenia. W związku z tym właściwe zrozumienie terminu – Data Mining , jego procesów i zastosowania może pomóc nam w opracowaniu holistycznego podejścia do tego modnego hasła.

Podstawy eksploracji danych(Data Mining Basics) i jej techniki

eksploracja danych

Eksploracja danych, znana również jako Knowledge Discovery in Data ( KDD ), polega na przeszukiwaniu dużych magazynów danych w celu odkrywania wzorców i trendów, które wykraczają poza prostą analizę. Nie jest to jednak rozwiązanie jednoetapowe, lecz wieloetapowy i realizowany w różnych etapach. Obejmują one:

1] Gromadzenie i przygotowywanie danych

Zaczyna się od zebrania danych i ich właściwej organizacji. Pomaga to znacznie zwiększyć szanse na znalezienie informacji, które można znaleźć poprzez eksplorację danych

2] Budowanie i ocena modeli

Drugim krokiem w procesie eksploracji danych jest zastosowanie różnych technik modelowania. Służą one do kalibracji parametrów do optymalnych wartości. Stosowane techniki w dużej mierze zależą od zdolności analitycznych wymaganych do zaspokojenia szeregu potrzeb organizacyjnych i podjęcia decyzji.

Przyjrzyjmy się w skrócie niektórym technikom eksploracji danych. Okazuje się, że większość organizacji łączy dwie lub więcej technik eksploracji danych, aby stworzyć odpowiedni proces, który spełnia ich wymagania biznesowe.

Przeczytaj(Read) : Czym są Big Data?(What is Big Data?)

Techniki eksploracji danych

  1. Association –  Association to jedna z powszechnie znanych technik data mining. Zgodnie z tym wzorzec jest odszyfrowywany na podstawie relacji między pozycjami w tej samej transakcji. W związku(Hence) z tym jest również znany jako technika relacji. Sprzedawcy dużych marek polegają na tej technice, aby zbadać nawyki/preferencje zakupowe klientów. Na przykład, śledząc nawyki zakupowe ludzi, sprzedawcy detaliczni mogą stwierdzić, że klient zawsze kupuje krem, kiedy kupuje czekoladki, i w związku z tym sugerować, że następnym razem, gdy kupi czekoladę, może również chcieć kupić krem.
  2. Klasyfikacja(Classification) – ta technika eksploracji danych różni się od powyższej tym, że opiera się na uczeniu maszynowym i wykorzystuje techniki matematyczne, takie jak programowanie liniowe(Linear) , drzewa decyzyjne , (Decision)neuronowe(Neural)sieć. W klasyfikacji firmy próbują zbudować oprogramowanie, które może nauczyć się klasyfikować elementy danych w grupy. Na przykład firma może zdefiniować klasyfikację w aplikacji, która „podawszy wszystkie dane pracowników, którzy zaproponowali rezygnację z firmy, przewiduje liczbę osób, które prawdopodobnie zrezygnują z firmy w przyszłości”. W takim scenariuszu firma może podzielić ewidencję pracowników na dwie grupy, a mianowicie „odejść” i „pobyt”. Następnie może użyć swojego oprogramowania do eksploracji danych, aby podzielić pracowników na oddzielne, utworzone wcześniej grupy.
  3. Klastrowanie(Clustering)różne(Different)obiekty o podobnych cechach są grupowane w jeden klaster za pomocą automatyzacji. Wiele takich klastrów jest tworzonych w miarę umieszczania w nich klas i obiektów (o podobnych cechach). Aby lepiej to zrozumieć, rozważmy przykład zarządzania książkami w bibliotece. W bibliotece obszerny zbiór książek jest w pełni skatalogowany. Przedmioty tego samego typu są wymienione razem. Ułatwia nam to znalezienie interesującej nas książki. Podobnie, stosując technikę grupowania, możemy trzymać książki, które mają pewne podobieństwa w jednym klastrze i przypisać mu odpowiednią nazwę. Tak więc, jeśli czytelnik chce złapać książkę, która go interesuje, musi tylko podejść do tej półki, zamiast przeszukiwać całą bibliotekę. Tak więc technika grupowania definiuje klasy i umieszcza obiekty w każdej klasie,
  4. Przewidywanie(Prediction) — przewidywanie to technika eksploracji danych, która jest często używana w połączeniu z innymi technikami eksploracji danych. Polega na analizie trendów, klasyfikacji, dopasowywaniu wzorców i relacji. Analizując przeszłe wydarzenia lub przypadki w odpowiedniej kolejności, można bezpiecznie przewidzieć przyszłe wydarzenia. Na przykład technikę analizy predykcyjnej można wykorzystać w sprzedaży do przewidzenia przyszłego zysku, jeśli sprzedaż zostanie wybrana jako zmienna niezależna, a zysk jako zmienna zależna od sprzedaży. Następnie, w oparciu o historyczne dane dotyczące sprzedaży i zysku, można narysować dopasowaną krzywą regresji, która służy do przewidywania zysku.
  5. Drzewa decyzyjne(Decision trees) – W drzewie decyzyjnym zaczynamy od prostego pytania, które ma wiele odpowiedzi. Każda odpowiedź prowadzi do kolejnego pytania, które pomaga sklasyfikować lub zidentyfikować dane, aby można je było skategoryzować lub aby można było przewidzieć prognozę na podstawie każdej odpowiedzi. Na przykład, używamy następującego drzewa decyzyjnego, aby określić, czy grać w krykieta ODI , czy nie : Drzewo decyzyjne eksploracji danych(Data Mining Decision Tree) : Zaczynając od węzła głównego, jeśli prognoza pogody przewiduje deszcz, powinniśmy unikać meczu na dany dzień. Ewentualnie, jeśli prognoza pogody jest jasna, powinniśmy rozegrać mecz.

Eksploracja danych(Data Mining) jest podstawą działań analitycznych w różnych branżach i dyscyplinach, takich jak komunikacja, ubezpieczenia(Insurance) , edukacja(Education) , produkcja(Manufacturing) , bankowość(Banking) i handel detaliczny(Retail) i nie tylko. Dlatego posiadanie prawidłowych informacji na ten temat jest niezbędne przed zastosowaniem różnych technik.



About the author

Jestem inżynierem komputerowym z ponad 10-letnim doświadczeniem w branży oprogramowania, w szczególności w Microsoft Office. Napisałem artykuły i samouczki na różne tematy związane z pakietem Office, w tym wskazówki, jak efektywniej korzystać z jego funkcji, sztuczki do opanowania typowych zadań biurowych i nie tylko. Moje umiejętności jako pisarza sprawiają, że jestem również doskonałym źródłem informacji dla innych osób, które chcą dowiedzieć się więcej o pakiecie Office lub po prostu potrzebują szybkiej porady.



Related posts