Klassifikazzjoni fil-Minjieri tad-Data

Il-klassifikazzjoni hija teknika dwar it-tħaffir tad-data li tassenja kategoriji għal ġabra ta 'data sabiex tgħin f'previżjonijiet u analiżi aktar preċiżi. Imsejħa wkoll xi kultant tissejjaħ Tree tad - Deċiżjoni , il-klassifikazzjoni hija waħda minn bosta metodi maħsuba biex tagħmel l-analiżi ta 'datasets kbar ħafna effettivi.

Għaliex Klassifikazzjoni?

Databases kbar ħafna qed isiru n-norma fid-dinja tal-lum ta '"data kbira". Immaġina database b'terabytes multipli ta 'data -a terabyte hija ta' triljun byte ta 'data.

Facebook waħdu jeħles 600 terabytes ta 'dejta ġdida kull ġurnata waħda (mill-2014, l-aħħar darba li rrapurtat dawn il-specs). L-isfida ewlenija ta 'dejta kbira hija kif tagħmel sens minnha.

U l-volum kbir mhuwiex l-unika problema: id-dejta l-kbira t-tendenza wkoll li tkun diversa, mhux strutturata u li qed tinbidel malajr. Ikkunsidra data awdjo u vidjow, postijiet tal-midja soċjali, data 3D jew dejta ġeospazjali. Dan it-tip ta 'dejta ma jiġix kategorizzat jew organizzat faċilment.

Biex tissodisfa din l-isfida, ġiet żviluppata firxa ta 'metodi awtomatiċi għall-estrazzjoni ta' informazzjoni utli, fosthom il- klassifikazzjoni .

Kif taħdem il-Klassifikazzjoni

Fil-periklu li nimxu 'l quddiem fit-teknoloġija, ahna niddiskutu kif taħdem il-klassifikazzjoni. L-għan huwa li jinħoloq sett ta 'regoli ta' klassifikazzjoni li jwieġbu mistoqsija, jieħdu deċiżjoni jew ibassru imġieba. Biex tibda, jiġi żviluppat sett ta 'informazzjoni dwar taħriġ li fiha ċertu sett ta' attributi kif ukoll ir-riżultat probabbli.

L-impjieg tal-algoritmu tal-klassifikazzjoni huwa li jiskopri kif dak is-sett ta 'attributi jasal għall-konklużjoni tiegħu.

Xenarju : Forsi kumpanija tal-karta ta 'kreditu qed tipprova tiddetermina liema prospetti għandhom jirċievu offerta ta' karta ta 'kreditu.

Dan jista 'jkun is-sett ta' data ta 'taħriġ tiegħu:

Data tat-Taħriġ
Isem Età Sess Dħul Annwali L-Offerta tal-Kreditu
John Doe 25 M $ 39,500 Nru
Jane Doe 56 F $ 125,000 Iva

Il-kolonni "tbassir" Età , Sess , u Dħul Annwali jiddeterminaw il-valur tal- "attribut tal-predikatur" Offerta tal-Kreditu . F'sett ta 'taħriġ, l-attribut tal-predikatur huwa magħruf. L-algoritmu tal-klassifikazzjoni mbagħad jipprova jiddetermina kif intlaħaq il-valur tal-attribut tal-predikatur: x'relazzjonijiet jeżistu bejn il-prevedituri u d-deċiżjoni? Se tiżviluppa sett ta 'regoli ta' tbassir, ġeneralment stqarrija IF / THEN, per eżempju:

IF (Età> 18 JEW Età <75) U Dħul Annwali> 40,000 THEN Offerta tal-Kard ta 'Kreditu = iva

Ovvjament, dan huwa eżempju sempliċi, u l-algoritmu jkun jeħtieġ kampjun tad-dejta ferm ikbar miż-żewġ rekords murija hawn. Barra minn hekk, ir-regoli tal-previżjoni x'aktarx ikunu ferm aktar kumplessi, inklużi s-subregoli biex jaqbdu d-dettalji tal-attribut.

Sussegwentement, l-algoritmu jingħata "sett ta 'tbassir" ta' dejta għall-analiżi, iżda dan is-sett m'għandux l-attribut (jew deċiżjoni) ta 'tbassir:

Tbassir tad-Dejta
Isem Età Sess Dħul Annwali L-Offerta tal-Kreditu
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Din id-dejta tal-previżjoni tgħin tistma l-eżattezza tar-regoli tal-previżjoni, u r-regoli mbagħad jiġu tweaked sakemm l-iżviluppatur iqis li l-previżjonijiet huma effettivi u utli.

Jum għal Jum Eżempji ta 'Klassifikazzjoni

Il-klassifikazzjoni u t-tekniki l-oħra dwar it-tħaffir tad-data huma wara ħafna mill-esperjenza tagħna ta 'kuljum bħala konsumaturi.

It-tbassir tat-temp jista 'jagħmel użu mill-klassifikazzjoni biex jirrapporta jekk il-ġurnata tkunx xita, xemxija jew imċajpra. Il-professjoni medika tista 'tanalizza l-kundizzjonijiet tas-saħħa biex tbassar ir-riżultati mediċi. Tip ta 'metodu ta' klassifikazzjoni, Naive Bayesian, juża probabbiltà kondizzjonali biex jikkategorizza emails spam. Mill-iskoperta tal-frodi għal offerti ta 'prodotti, il-klassifikazzjoni hija wara l-kwinti kuljum li tanalizza dejta u tipproduċi tbassir.