Forskel mellem KDD og data mining

Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) er et felt inden for datalogi, som indeholder værktøjer og teorier til at hjælpe mennesker med at udvinde nyttige og tidligere ukendte oplysninger (dvs. viden) fra store samlinger af digitaliserede data. KDD består af flere trin, og Data Mining er en af ​​dem. Data Mining er anvendelse af en specifik algoritme for at udtrække mønstre fra data. Ikke desto mindre anvendes KDD og Data Mining interchangeably.

Hvad er KDD?

Som nævnt ovenfor er KDD et område inden for datalogi, der beskæftiger sig med udvinding af tidligere ukendte og interessante oplysninger fra rå data. KDD er hele processen med at forsøge at give mening for data ved at udvikle passende metoder eller teknikker. Denne proces omhandler kortlægningen af ​​lavniveaudata i andre former, der er mere kompakte, abstrakte og nyttige. Dette opnås ved at lave korte rapporter, modellere processen med at generere data og udvikle prediktive modeller, der kan forudsige fremtidige tilfælde. På grund af den eksponentielle vækst af data, især inden for områder som erhvervsliv, er KDD blevet en meget vigtig proces for at konvertere denne store rigdom af data til business intelligence, da manuel udvinding af mønstre er blevet tilsyneladende umulig i de sidste par årtier. For eksempel er det i øjeblikket blevet brugt til forskellige applikationer som social network analysis, svindel afsløring, videnskab, investering, fremstilling, telekommunikation, data rensning, sport, information hentning og i vid udstrækning til markedsføring. KDD bruges normalt til at svare på spørgsmål som, hvad er de vigtigste produkter, der kan bidrage til at opnå et højt overskud næste år i Wal-Mart?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og fremskrivning af data. Næste trin bruger Data Mining (forklaret nedenfor) for at identificere mønster. Endelig er opdaget viden konsolideret ved at visualisere og / eller tolke.

Hvad er Data Mining?

Som nævnt ovenfor er Data Mining kun et skridt inden for den samlede KDD-proces. Der er to vigtige data mining mål som defineret af målet med ansøgningen, og de er nemlig verifikation eller opdagelse. Verifikation verificerer brugerens hypotese om data, mens opdagelsen automatisk finder interessante mønstre. Der er fire vigtige data mining opgave: clustering, klassificering, regression og association (opsummering). Clustering identificerer lignende grupper fra ustrukturerede data. Klassificering er læringsregler, som kan anvendes på nye data. Regression er at finde funktioner med minimal fejl i modeldata.Og forening søger relationer mellem variabler. Derefter skal den specifikke data mining algoritme vælges. Afhængig af målet kan forskellige algoritmer som lineær regression, logistisk regression, beslutningstræer og Naïve Bayes vælges. Derefter søges mønstre af interesse for en eller flere repræsentative former. Endelig evalueres modellerne enten ved hjælp af forudsigelig nøjagtighed eller forståelighed.

Hvad er forskellen mellem KDD og Data mining?

Selv om de to udtryk KDD og Data Mining er stærkt anvendte interchangeably, refererer de til to beslægtede, men lidt forskellige begreber. KDD er den overordnede proces til at udvinde viden fra data, mens Data Mining er et skridt inde i KDD-processen, der beskæftiger sig med at identificere mønstre i data. Data Mining er med andre ord kun anvendelsen af ​​en specifik algoritme baseret på det overordnede mål for KDD-processen.