![AWS Tutorial For Beginners | AWS Full Course - Learn AWS In 10 Hours | AWS Training | Edureka](https://i.ytimg.com/vi/k1RI5locZE4/hqdefault.jpg)
విషయము
- అపోహ: పెద్ద డేటాను స్వీకరించడంలో ప్రతి ఒక్కరూ మనకంటే ముందున్నారు.
- అపోహ: మాకు చాలా డేటా ఉంది; ప్రతి చిన్న డేటా లోపం గురించి మేము ఆందోళన చెందాల్సిన అవసరం లేదు.
- అపోహ: బిగ్ డేటా టెక్నాలజీ డేటా ఇంటిగ్రేషన్ అవసరాన్ని తొలగిస్తుంది.
- అపోహ: అధునాతన విశ్లేషణల కోసం డేటా గిడ్డంగిని ఉపయోగించడం అర్ధం.
- అపోహ: డేటా సరస్సులు డేటా గిడ్డంగిని భర్తీ చేస్తాయి.
- పెద్ద డేటా పనిచేస్తుంది - క్రొత్త డేటా మానిప్యులేషన్ పద్ధతులు కాకపోవచ్చు
మూలం: Dwnld777 / Dreamstime.com
Takeaway:
పెద్ద డేటా పెద్ద వ్యాపారం, కానీ అది సరిగ్గా ఉపయోగించినట్లయితే మాత్రమే.
తిరిగి మే 2014 లో, ఫారెస్టర్ రీసెర్చ్ పెద్ద డేటా చుట్టూ ఉన్న హైప్ గురించి కొన్ని తీర్మానాలు చేస్తూ రెండు నివేదికలను విడుదల చేసింది. పరిశోధన సంస్థ 250 కి పైగా మార్కెటింగ్ మరియు వ్యాపార-అభివృద్ధి అధికారులను సర్వే చేసింది. నివేదికల రచయితల ప్రకారం, పెద్ద డేటా వాక్చాతుర్యం అన్ని సమయాలలో ఉంది, మరియు సాంకేతిక విక్రేతలు నమ్మశక్యం కాని వాదనలతో ఉత్పత్తులను ప్రోత్సహిస్తున్నారు.ఫారెస్టర్ పరిశోధనతో గార్ట్నర్ అంగీకరిస్తాడు; గణనీయమైన హైప్ పెద్ద డేటాను చుట్టుముడుతుంది. సెప్టెంబర్ 2014 నివేదికలో, గార్ట్నర్ ఐదు అతిపెద్ద డేటా అపోహలను తొలగించాడు మరియు పెద్ద డేటా మరియు దాని తారుమారు గురించి తప్పుగా అర్థం చేసుకున్న వాటి గురించి గార్ట్నర్ విశ్లేషకులు తమ అభిప్రాయాన్ని తెలియజేస్తున్నారు. కాబట్టి పెద్ద డేటా పెద్ద పురాణాలు ఏమిటి? చూద్దాం.
అపోహ: పెద్ద డేటాను స్వీకరించడంలో ప్రతి ఒక్కరూ మనకంటే ముందున్నారు.
పెద్ద డేటాపై ఆసక్తి అన్ని సమయాలలో ఉందని గార్ట్నర్ చెప్పారు. అయినప్పటికీ, పోల్ చేయబడిన వారిలో 13 శాతం మందికి పని వ్యవస్థలు ఉన్నాయి. కారణం: డేటా యొక్క పెద్ద రిపోజిటరీల నుండి ఏదైనా విలువను ఎలా పొందాలో చాలా కంపెనీలు ఇంకా గుర్తించలేదు. ఇక్కడ, ఫారెస్టర్ నివేదిక కంటే గార్ట్నర్ యొక్క సర్వే చాలా ఆశాజనకంగా ఉంది, ఇది సర్వేలో పాల్గొన్న వారిలో కేవలం 9 శాతం మంది మాత్రమే వచ్చే ఏడాదిలో పెద్ద-డేటా సాంకేతిక పరిజ్ఞానాన్ని అమలు చేయాలని యోచిస్తున్నట్లు చెప్పారు. (పెద్ద డేటా ఆఫర్ చేయడానికి చాలా ఉంది. బిగ్ డేటా పరిష్కరించగల 5 వాస్తవ ప్రపంచ సమస్యలలో మరింత తెలుసుకోండి.)అపోహ: మాకు చాలా డేటా ఉంది; ప్రతి చిన్న డేటా లోపం గురించి మేము ఆందోళన చెందాల్సిన అవసరం లేదు.
మనకు మనుషులు కలిగి ఉన్న ఒక గజిబిజి గురించి గార్ట్నర్ ఆందోళన చెందుతున్నాడు: "మన దగ్గర చాలా ఉన్నాయి, తక్కువ చెడ్డది కాదు." గార్ట్నర్ వైస్ ప్రెసిడెంట్ మరియు విశిష్ట విశ్లేషకుడు టెడ్ ఫ్రైడ్మాన్ ఈ పరిస్థితిని చూడటానికి ఇది తప్పు మార్గం అని నమ్ముతారు."వాస్తవానికి, ప్రతి డేటా లోపం తక్కువ డేటా ఉన్నపుడు చేసినదానికంటే మొత్తం డేటాసెట్పై చాలా తక్కువ ప్రభావాన్ని కలిగి ఉన్నప్పటికీ, ఎక్కువ డేటా ఉన్నందున మునుపటి కంటే ఎక్కువ లోపాలు ఉన్నాయి" అని ఫ్రైడ్మాన్ చెప్పారు. "అందువల్ల, మొత్తం డేటాసెట్పై పేలవమైన-నాణ్యత డేటా యొక్క మొత్తం ప్రభావం అలాగే ఉంటుంది."
ఫ్రైడ్మాన్ ఆందోళనకు మరో కారణం జతచేస్తుంది. బిగ్-డేటా క్యాప్చర్ తరచుగా వ్యాపారం వెలుపల నుండి డేటాను కలిగి ఉంటుంది, కాబట్టి ఇది తెలియని నిర్మాణం మరియు మూలం. ఇది లోపాలకు సంభావ్యతను పెంచుతుంది.
అపోహ: బిగ్ డేటా టెక్నాలజీ డేటా ఇంటిగ్రేషన్ అవసరాన్ని తొలగిస్తుంది.
పెద్ద డేటాకు వర్తించే రెండు కీలక డేటా విశ్లేషణ వ్యూహాలు ఉన్నాయి: "స్కీమా ఆన్ రైట్" లేదా "స్కీమా ఆన్ రీడ్." ఇటీవల వరకు, స్కీమా ఆన్ రైట్ మాత్రమే ఉపయోగించబడింది. డేటాబేస్ నిర్వహణలో ప్రస్తుత వ్యామోహం రీడ్ ఆన్ స్కీమా. నిర్మాణాత్మక ఆకృతి అవసరమయ్యే స్కీమా ఆన్ రైట్ మాదిరిగా కాకుండా, డేటా దాని ముడి ఆకృతిలో స్కీమా-ఆన్-రీడ్ డేటాబేస్లలో లోడ్ అవుతుంది. అప్పుడు డెవలపర్లు - హడూప్ వంటి నిర్మాణాత్మక డేటాబేస్ ప్లాట్ఫారమ్లను ఉపయోగించి - అసమాన డేటాను ఉపయోగపడే ఆకృతిలోకి వంచు. రీడ్లో స్కీమాకు స్పష్టమైన ప్రయోజనాలు ఉన్నాయి, కాని, గార్ట్నర్ చెప్పినట్లుగా, డేటా ఇంటిగ్రేషన్ ఏదో ఒక సమయంలో జరగాలి.అపోహ: అధునాతన విశ్లేషణల కోసం డేటా గిడ్డంగిని ఉపయోగించడం అర్ధం.
డేటా గిడ్డంగిని సృష్టించడానికి సమయాన్ని వెచ్చించడం చాలా మంది సమాచార నిర్వాహకులకు అర్ధం కాదు, ముఖ్యంగా కొత్తగా సంగ్రహించిన డేటా డేటా గిడ్డంగిలో భిన్నంగా ఉన్నప్పుడు. ఏదేమైనా, ఆధునిక డేటా విశ్లేషణలు డేటా గిడ్డంగులు మరియు క్రొత్త డేటాను ఉపయోగిస్తాయని గార్ట్నర్ మళ్ళీ హెచ్చరించాడు, అంటే డేటా ఇంటిగ్రేటర్లు తప్పక:- కొత్త డేటా రకాలను విశ్లేషణకు అనుకూలంగా మార్చడానికి వాటిని మెరుగుపరచండి
- ఏ డేటా సంబంధితమైనదో మరియు డేటా నాణ్యత స్థాయిని నిర్ణయించండి
- డేటాను ఎలా సమగ్రపరచాలో నిర్ణయించండి
- డేటా గిడ్డంగి కాకుండా ఇతర ప్రదేశాలలో డేటా శుద్ధీకరణ జరగవచ్చని అర్థం చేసుకోండి
అపోహ: డేటా సరస్సులు డేటా గిడ్డంగిని భర్తీ చేస్తాయి.
డేటా సరస్సులు వేర్వేరు డేటా యొక్క రిపోజిటరీలు, డేటా నిర్మాణాత్మక ఆకృతిలో ఉన్న డేటా గిడ్డంగులకు భిన్నంగా. డేటా గిడ్డంగులతో పోల్చితే డేటా సరస్సుని సృష్టించడానికి ముందస్తు ప్రయత్నం అవసరం (డేటాను ఫార్మాట్ చేయవలసిన అవసరం లేదు), అందువల్ల డేటా సరస్సులు ఆసక్తి కలిగి ఉంటాయి.డేటాను కలిగి ఉండటం పాయింట్ కాదని గార్ట్నర్ నొక్కిచెప్పారు - సమాచారం తీసుకున్న నిర్ణయం తీసుకోవటానికి సంగ్రహించిన డేటాను మార్చగలగడం పాయింట్. అంతేకాకుండా, నిర్ణయం తీసుకోవటానికి వీలుగా (కొంతవరకు నిరూపించబడని) డేటా సరస్సులను ఉపయోగించడం సమస్యాత్మకం.
"డేటా గిడ్డంగులు ఇప్పటికే ఒక సంస్థ అంతటా అనేక రకాల వినియోగదారులకు మద్దతు ఇచ్చే సామర్థ్యాలను కలిగి ఉన్నాయి" అని గార్ట్నర్ పరిశోధన డైరెక్టర్ నిక్ హ్యూడెకర్ చెప్పారు. "సమాచార-నిర్వహణ నాయకులు డేటా సరస్సులను పట్టుకోవటానికి వేచి ఉండాల్సిన అవసరం లేదు." (దత్తతకు ముందు పెద్ద డేటా గురించి మీరు తప్పక తెలుసుకోవలసిన 7 విషయాలలో పెద్ద డేటాను స్వీకరించడం గురించి మరింత తెలుసుకోండి.)