Vad är Data Mining? Grunderna och dess metoder

Grunden för den fjärde industriella revolutionen kommer till stor del att bero på data(Data) och kapacitet anslutningar(Anslutning) . Analystjänster(Analysis Services) som kan designa eller bygga datautvinningslösningar kommer att spela en nyckelroll i detta avseende. Detta kan hjälpa till att analysera och förutsäga resultaten av kunders köpbeteende för att rikta in sig på potentiella köpare. Data(Data) kommer att bli en ny naturresurs, och processen att extrahera relevant information från denna osorterade data kommer att bli av stor betydelse. Alltså den korrekta förståelsen av termen datautvinning dess processer och tillämpningar kan hjälpa oss att utveckla ett holistiskt förhållningssätt till detta modeord.

Grunderna i Data Mining(Data Mining Basics) och dess metoder

Data mining, även känd som kunskapsupptäckt i data(Kunskapsupptäckt i data) ( KDD ) är att söka efter stora datalager för att identifiera mönster och trender bortom enkel analys. Detta är dock ingen enstegslösning, utan en flerstegsprocess som genomförs i olika steg. Detta inkluderar:

1]Datainsamling och förberedelse

Allt börjar med att samla in data och organisera det ordentligt. Detta hjälper avsevärt att förbättra chanserna att hitta information som kan upptäckas genom datautvinning.

2]Modellbygge och utvärdering

Det andra steget i datautvinningsprocessen är tillämpningen av olika modelleringstekniker. De används för att kalibrera parametrar till optimala värden. Metoderna som används är i hög grad beroende av den analytiska förmåga som krävs för att möta en rad organisatoriska behov och beslutsfattande.

Låt oss ta en snabb titt på några datautvinningstekniker. Det har visat sig att de flesta organisationer kombinerar två eller flera datautvinningstekniker tillsammans för att bilda en lämplig process som uppfyller deras affärskrav.

Läsa(Läs) : Vad är Big Data?

Datautvinningsmetoder

  1. Förening. (Förening – )Förening(Association) är en av de allmänt kända metoderna för datautvinning. I det här fallet dekrypteras mallen baserat på förhållandet mellan element i samma transaktion. Följaktligen(Därför är det också känt som relationsmetoden. Stora varumärkeshandlare förlitar sig på denna metod för att studera kundernas shoppingvanor/preferenser. Genom att till exempel spåra människors shoppingvanor kan återförsäljare fastställa att en kund alltid köper grädde när de köper choklad, och därför anta att nästa gång de köper choklad, kanske de också vill köpa grädde.
  2. Klassificering(klassificering) . Denna data mining-metod skiljer sig från den som beskrivs ovan genom att den bygger på maskininlärning och använder sig av matematiska metoder som t.ex. linjär(Linjär) programmering, träd beslut, (Beslut)neurala nätverk.(Neuralt nätverk. Inom klassificeringsområdet försöker företag skapa programvara som kan lära sig att klassificera dataobjekt i grupper. Till exempel kan ett företag definiera en klassificering i en ansökan som “med tanke på alla uppgifter om anställda som har föreslagit att lämna företaget, förutsäga antalet personer som kan komma att lämna företaget i framtiden.” I ett sådant scenario kan ett företag klassificera anställdas register i två grupper, nämligen “leda” och “stay”. Han kan sedan använda sin programvara för datautvinning för att kategorisera de anställda i de individuella grupper han skapat tidigare.
  3. Klustring(Klustring) – annorlunda(Olika) objekt med liknande egenskaper grupperas i ett kluster med hjälp av automatisering. Många sådana kluster skapas genom att klasser och objekt (med liknande egenskaper) placeras i dem på ett lämpligt sätt. För att bättre förstå detta, låt oss ta ett exempel på att hantera böcker i ett bibliotek. Biblioteket har en omfattande samling böcker helt katalogiserade. Element av samma typ listas tillsammans. Det gör det lättare för oss att hitta boken vi är intresserade av. På samma sätt kan vi med hjälp av klustringsmetoden lagra böcker som har viss likhet i samma kluster och ge det ett passande namn. Alltså, om en läsare vill låna en bok som passar deras intressen behöver de bara gå till den hyllan, istället för att söka igenom hela biblioteket. Så klustringsmetoden definierar klasser och placerar objekt i varje klass,
  4. Prognoser(förutsägelse). Prediction är en datautvinningsteknik som ofta används i kombination med andra datautvinningstekniker. Det inkluderar trendanalys, klassificering, mönstermatchning och relation. Genom att analysera tidigare händelser eller händelser i rätt ordning kan man förutsäga en framtida händelse med säkerhet. Till exempel kan den prediktiva analysmetoden användas vid försäljning för att förutsäga framtida vinster om försäljning väljs som oberoende variabel och vinst som försäljningsberoende variabel. Sedan, baserat på historiska försäljnings- och vinstdata, kan en anpassad regressionskurva konstrueras som används för att förutsäga vinst.
  5. Beslutsträd(Beslutsträd). I ett beslutsträd börjar vi med en enkel fråga som har flera svar. Varje svar leder till nästa fråga för att hjälpa till att klassificera eller identifiera data så att de kan klassificeras eller så att en förutsägelse kan göras baserat på varje svar. Till exempel använder vi följande beslutsträd för att avgöra om vi ska spela cricket ODI : Beslutsträd för datautvinning(Data Mining Decision Tree): Med utgångspunkt från rotnoden, om väderprognosen förutspår regn, bör vi undvika matchen för den dagen. Alternativt, om väderprognosen är klar bör vi spela en match.

Data mining(Data Mining) är kärnan i analytiska insatser inom olika branscher och discipliner som kommunikation, försäkring(Försäkring), utbildning(Utbildning), produktion(Tillverkning) bankverksamhet(Bank) och detaljhandeln(Detaljhandel) och många andra. Därför, innan du tillämpar olika metoder, är det viktigt att ha rätt information om det.

Grunden för den fjärde industriella revolutionen kommer till stor del att bero på Data och Anslutningsmöjligheter. kapabla att utveckla eller skapa datautvinningslösningar kommer att spela en nyckelroll i detta avseende. Det kan hjälpa till att analysera och förutsäga resultatet av kunders köpbeteende för att rikta in sig på potentiella köpare. Data kommer att bli en ny naturresurs och processen att extrahera relevant information från denna osorterade data kommer att få enorm betydelse. Som sådan en korrekt förståelse av begreppet datautvinningdess processer och tillämpning kan hjälpa oss att utveckla ett holistiskt förhållningssätt till detta modeord.

Grundläggande datautvinning och dess tekniker

datautvinning

Data mining, även känd som Kunskapsupptäckt i data (KDD) handlar om att söka i stora datalager för att upptäcka mönster och trender som går utöver enkel analys. Detta är dock inte en enstegslösning utan en flerstegsprocess och genomförs i olika steg. Dessa inkluderar:

1]Datainsamling och förberedelse

Det börjar med datainsamling och dess korrekta organisation. Detta hjälper till att avsevärt förbättra chanserna att hitta den information som kan upptäckas genom datautvinning

2]Modellbyggnad och utvärdering

Det andra steget i datautvinningsprocessen är tillämpningen av olika modelleringstekniker. Dessa används för att kalibrera parametrarna till optimala värden. Tekniker som används beror till stor del på analytisk förmåga som krävs för att tillgodose ett spektrum av organisatoriska behov och för att komma fram till ett beslut.

Låt oss undersöka några datautvinningstekniker i korthet. Det har visat sig att de flesta organisationer kombinerar två eller flera datautvinningstekniker tillsammans för att bilda en lämplig process som uppfyller deras affärskrav.

läsa: Vad är Big Data?

Data Mining-tekniker

  1. förening- Association är en av de allmänt kända teknikerna för datautvinning. Under detta dechiffreras ett mönster baserat på en relation mellan artiklar i samma transaktion. Därför är det också känt som relationstekniken. Stora varumärkesåterförsäljare förlitar sig på denna teknik för att undersöka kundernas köpvanor/preferenser. Till exempel, när man spårar människors köpvanor, kan återförsäljare identifiera att en kund alltid köper grädde när de köper choklad, och därför föreslår att de nästa gång de köper choklad också vill köpa grädde.
  2. klassificering – Denna datautvinningsteknik skiljer sig från ovanstående på det sätt att den är baserad på maskininlärning och använder matematiska tekniker som linjär programmering, beslutsträd, neuralt nätverk. I klassificering försöker företag bygga mjukvara som kan lära sig att klassificera dataposterna i grupper. Till exempel kan ett företag definiera en klassificering i ansökan som “med tanke på alla uppgifter om anställda som erbjöd sig att säga upp sig från företaget, förutsäga antalet individer som sannolikt kommer att säga upp sig från företaget i framtiden.” Under ett sådant scenario kan företaget klassificera de anställdas register i två grupper, nämligen “avgår” och “stanna”. Den kan sedan använda sin datautvinningsprogramvara för att klassificera de anställda i separata grupper som skapats tidigare.
  3. Klustring – Olika objekt som uppvisar liknande egenskaper grupperas tillsammans i ett enda kluster via automatisering. Många sådana kluster skapas som klasser och objekt (med liknande egenskaper) placeras i det i enlighet med detta. För att förstå detta bättre, låt oss överväga ett exempel på bokhantering i biblioteket. I ett bibliotek är den stora samlingen av böcker helt katalogiserad. Föremål av samma typ listas tillsammans. Detta gör det lättare för oss att hitta en bok av vårt intresse. På samma sätt kan vi, genom att använda klustringstekniken, föra böcker som har vissa slags likheter i ett kluster och ge det ett lämpligt namn. Så om en läsare letar efter en bok som är relevant för hans intresse behöver han bara gå till den hyllan istället för att söka i hela biblioteket. Sålunda definierar klustringstekniken klasserna och placerar objekt i varje klass, medan i klassificeringsteknikerna tilldelas objekt i fördefinierade klasser.
  4. förutsägelse – Förutsägelsen är en datautvinningsteknik som ofta används i kombination med andra datautvinningstekniker. Det innebär att analysera trender, klassificering, mönstermatchning och relation. Genom att analysera tidigare händelser eller tillfällen i rätt ordning kan man säkert förutsäga en framtida händelse. Till exempel kan förutsägelseanalystekniken användas i försäljningen för att förutsäga framtida vinst om försäljningen väljs som en oberoende variabel och vinst som en variabel beroende av försäljning. Sedan kan man, baserat på historiska försäljnings- och vinstdata, rita en anpassad regressionskurva som används för vinstförutsägelse.
  5. beslutsträd – Inom beslutsträdet börjar vi med en enkel fråga som har flera svar. Varje svar leder till ytterligare en fråga för att hjälpa till att klassificera eller identifiera data så att de kan kategoriseras, eller så att en förutsägelse kan göras baserat på varje svar. Till exempel använder vi följande beslutsträd för att avgöra om vi ska spela cricket ODI eller inte: Data Mining Decision Tree: Börjar vid rotnoden, om väderprognosen förutspår regn då, bör vi undvika matchen för dagen. alternativt, om väderprognosen är klar, bör vi spela matchen.

Data Mining är kärnan i analysarbetet inom en mängd olika branscher och discipliner som kommunikation, försäkring, utbildning, tillverkning, bank och detaljhandel med mera. Därför är det viktigt att ha korrekt information om det innan de olika teknikerna tillämpas.