విషయము
- బిగ్ డేటా నిర్మాణాత్మకమైనది లేదా సెమీ స్ట్రక్చర్డ్
- మేము దీన్ని ప్రాసెస్ చేయలేకపోతే పెద్ద డేటాను నిల్వ చేయడంలో అర్థం లేదు
- హడూప్ పెద్ద డేటా సమస్యను ఎలా పరిష్కరిస్తుంది
- హడూప్ కోసం వ్యాపార కేసు
Takeaway:
కొన్ని పెద్ద డేటా పెద్ద సవాళ్లను పరిష్కరించడానికి హడూప్ సహాయపడుతుంది.
పెద్ద డేటా ... బాగా ... పరిమాణంలో పెద్దది! పెద్ద డేటాగా ఎంత డేటాను వర్గీకరించవచ్చో స్పష్టంగా తెలియదు, కాబట్టి ఆ చర్చలో చిక్కుకోకుండా ఉండండి. గిగాబైట్లలోని డేటాతో వ్యవహరించడానికి ఉపయోగించే ఒక చిన్న సంస్థ కోసం, 10 టిబి డేటా పెద్దదిగా ఉంటుంది. అయితే మరియు యాహూ వంటి సంస్థలకు, పెటాబైట్లు పెద్దవి.పెద్ద డేటా యొక్క పరిమాణం, డేటాబేస్ లేదా సాంప్రదాయ ఫైలర్స్ వంటి సాంప్రదాయ నిల్వలో నిల్వ చేయడం అసాధ్యం (లేదా కనీసం ఖర్చుతో కూడుకున్నది) చేస్తుంది. గిగాబైట్ల డేటాను నిల్వ చేయడానికి మేము ఖర్చు గురించి మాట్లాడుతున్నాము. సాంప్రదాయ నిల్వ ఫైలర్లను ఉపయోగించడం వల్ల పెద్ద డేటాను నిల్వ చేయడానికి చాలా డబ్బు ఖర్చు అవుతుంది.
ఇక్కడ పెద్ద డేటా, దాని సవాళ్లు మరియు హడూప్ వాటిని పరిష్కరించడంలో ఎలా సహాయపడతాయో పరిశీలించండి.మొదట, పెద్ద డేటా పెద్ద సవాళ్లు.
బిగ్ డేటా నిర్మాణాత్మకమైనది లేదా సెమీ స్ట్రక్చర్డ్
చాలా పెద్ద డేటా నిర్మాణాత్మకంగా లేదు. ఉదాహరణకు, స్ట్రీమ్ లాగ్ డేటా క్లిక్ చేయండి:టైమ్ స్టాంప్, యూజర్_ఐడి, పేజీ, రిఫరర్_పేజీ
నిర్మాణం లేకపోవడం రిలేషనల్ డేటాబేస్లను పెద్ద డేటాను నిల్వ చేయడానికి సరిగ్గా సరిపోదు. అదనంగా, చాలా డేటాబేస్లు బిలియన్ల వరుసల డేటాను నిల్వ చేయలేవు.
మేము దీన్ని ప్రాసెస్ చేయలేకపోతే పెద్ద డేటాను నిల్వ చేయడంలో అర్థం లేదు
పెద్ద డేటాను నిల్వ చేయడం ఆటలో భాగం. దాని నుండి మేధస్సును ప్రాసెస్ చేయడానికి మేము దానిని ప్రాసెస్ చేయాలి. సాంప్రదాయ నిల్వ వ్యవస్థలు బిట్స్ను నిల్వచేసే అర్థంలో అందంగా "మూగవి". వారు ఎటువంటి ప్రాసెసింగ్ శక్తిని అందించరు.సాంప్రదాయ డేటా ప్రాసెసింగ్ మోడల్లో నిల్వ క్లస్టర్లో నిల్వ చేయబడిన డేటా ఉంది, ఇది ప్రాసెసింగ్ కోసం కంప్యూట్ క్లస్టర్కు కాపీ చేయబడుతుంది. ఫలితాలు తిరిగి నిల్వ క్లస్టర్కు వ్రాయబడతాయి.
అయితే, ఈ మోడల్ పెద్ద డేటా కోసం పెద్దగా పనిచేయదు ఎందుకంటే కంప్యూట్ క్లస్టర్కు ఎక్కువ డేటాను కాపీ చేయడం చాలా సమయం తీసుకుంటుంది లేదా అసాధ్యం. కాబట్టి సమాధానం ఏమిటి?
నిల్వ క్లస్టర్లో కంప్యూట్ క్లస్టర్గా రెట్టింపు చేయడం వంటి పెద్ద డేటాను స్థానంలో ప్రాసెస్ చేయడం ఒక పరిష్కారం.
మేము పైన చూసినట్లుగా, పెద్ద డేటా సాంప్రదాయ నిల్వను ధిక్కరిస్తుంది. కాబట్టి మేము పెద్ద డేటాను ఎలా నిర్వహిస్తాము?
హడూప్ పెద్ద డేటా సమస్యను ఎలా పరిష్కరిస్తుంది
హడూప్ యంత్రాల సమూహంలో నడపడానికి నిర్మించబడిందిఒక ఉదాహరణతో ప్రారంభిద్దాం. మనం చాలా ఫోటోలను నిల్వ చేసుకోవాల్సిన అవసరం ఉందని చెప్పండి. మేము ఒకే డిస్క్తో ప్రారంభిస్తాము. మేము ఒకే డిస్క్ను మించినప్పుడు, మేము యంత్రంలో పేర్చబడిన కొన్ని డిస్కులను ఉపయోగించవచ్చు. మేము ఒకే మెషీన్లో అన్ని డిస్కులను గరిష్టంగా పొందినప్పుడు, మనం కొంత యంత్రాలను పొందాలి, ఒక్కొక్కటి డిస్కుల సమూహంతో ఉండాలి.
హడూప్ ఎలా నిర్మించబడింది. హడూప్ గెట్ గో నుండి యంత్రాల సమూహంలో అమలు చేయడానికి రూపొందించబడింది.
హడూప్ క్లస్టర్లు అడ్డంగా స్కేల్ చేస్తాయి
హడూప్ క్లస్టర్కు ఎక్కువ నోడ్లను జోడించడం ద్వారా ఎక్కువ నిల్వ మరియు కంప్యూట్ శక్తిని సాధించవచ్చు. ఇది మరింత శక్తివంతమైన మరియు ఖరీదైన హార్డ్వేర్ను కొనుగోలు చేయవలసిన అవసరాన్ని తొలగిస్తుంది.
హడూప్ నిర్మాణాత్మక / సెమీ స్ట్రక్చర్డ్ డేటాను నిర్వహించగలదు
హడూప్ నిల్వ చేసే డేటాపై స్కీమాను అమలు చేయదు. ఇది ఏకపక్ష మరియు బైనరీ డేటాను నిర్వహించగలదు. కాబట్టి హడూప్ ఏదైనా నిర్మాణాత్మక డేటాను సులభంగా జీర్ణించుకోగలదు.
హడూప్ క్లస్టర్లు నిల్వ మరియు కంప్యూటింగ్ను అందిస్తుంది
ప్రత్యేక నిల్వ మరియు ప్రాసెసింగ్ క్లస్టర్లను కలిగి ఉండటం పెద్ద డేటాకు ఉత్తమంగా సరిపోదని మేము చూశాము. హడూప్ క్లస్టర్లు, అయితే, నిల్వ మరియు పంపిణీ కంప్యూటింగ్ను ఒకే విధంగా అందిస్తాయి.
హడూప్ కోసం వ్యాపార కేసు
హడూప్ పెద్ద డేటా కోసం సహేతుకమైన ఖర్చుతో నిల్వను అందిస్తుంది
సాంప్రదాయ నిల్వను ఉపయోగించి పెద్ద డేటాను నిల్వ చేయడం ఖరీదైనది. హడూప్ కమోడిటీ హార్డ్వేర్ చుట్టూ నిర్మించబడింది, కాబట్టి ఇది సరసమైన ఖర్చుతో చాలా పెద్ద నిల్వను అందిస్తుంది. ఫీల్డ్లో పెడబైట్ స్కేల్లో హడూప్ ఉపయోగించబడింది.
క్లౌడెరా చేసిన ఒక అధ్యయనం ప్రకారం సంస్థలు సాధారణంగా సంవత్సరానికి టెరాబైట్కు $ 25,000 నుండి $ 50,000 వరకు ఖర్చు చేస్తాయి. హడూప్తో, ఈ ఖర్చు సంవత్సరానికి టెరాబైట్కు కొన్ని వేల డాలర్లకు పడిపోతుంది. హార్డ్వేర్ చౌకగా మరియు చౌకగా, ఈ ఖర్చు తగ్గుతూనే ఉంది.
కొత్త లేదా అంతకంటే ఎక్కువ డేటాను సంగ్రహించడానికి హడూప్ అనుమతిస్తుంది
కొన్నిసార్లు సంస్థలు ఒక రకమైన డేటాను సంగ్రహించవు ఎందుకంటే దాన్ని నిల్వ చేయడానికి చాలా ఖర్చుతో కూడుకున్నది. హడూప్ సహేతుకమైన ఖర్చుతో నిల్వను అందిస్తుంది కాబట్టి, ఈ రకమైన డేటాను సంగ్రహించి నిల్వ చేయవచ్చు.
వెబ్సైట్ క్లిక్ లాగ్లు ఒక ఉదాహరణ. ఈ లాగ్ల పరిమాణం చాలా ఎక్కువగా ఉంటుంది కాబట్టి, చాలా సంస్థలు వీటిని సంగ్రహించలేదు. ఇప్పుడు హడూప్తో లాగ్లను పట్టుకుని నిల్వ చేయడం సాధ్యపడుతుంది.
హడూప్తో, మీరు డేటాను ఎక్కువసేపు నిల్వ చేయవచ్చు
నిల్వ చేసిన డేటా పరిమాణాన్ని నిర్వహించడానికి, కంపెనీలు క్రమానుగతంగా పాత డేటాను ప్రక్షాళన చేస్తాయి. ఉదాహరణకు, గత మూడు నెలలుగా లాగ్లు మాత్రమే నిల్వ చేయబడతాయి, పాత లాగ్లు తొలగించబడ్డాయి. హడూప్తో చారిత్రక డేటాను ఎక్కువసేపు నిల్వ చేయడం సాధ్యపడుతుంది. ఇది పాత చారిత్రక డేటాపై కొత్త విశ్లేషణలను చేయడానికి అనుమతిస్తుంది.
ఉదాహరణకు, వెబ్సైట్ నుండి క్లిక్ లాగ్లను తీసుకోండి. కొన్ని సంవత్సరాల క్రితం, జనాదరణ పొందిన పేజీల వంటి గణాంకాలను లెక్కించడానికి ఈ లాగ్లు కొంతకాలం నిల్వ చేయబడ్డాయి. ఇప్పుడు హడూప్తో, ఈ క్లిక్ లాగ్లను ఎక్కువ కాలం నిల్వ చేయడం సాధ్యపడుతుంది.
హడూప్ స్కేలబుల్ విశ్లేషణలను అందిస్తుంది
మేము ఈ డేటాను విశ్లేషించలేకపోతే వాటిని నిల్వ చేయడంలో అర్థం లేదు. హడూప్ పంపిణీ చేయబడిన నిల్వను మాత్రమే కాకుండా, పంపిణీ చేయబడిన ప్రాసెసింగ్ను కూడా అందిస్తుంది, అంటే మనం పెద్ద మొత్తంలో డేటాను సమాంతరంగా క్రంచ్ చేయవచ్చు. హడూప్ యొక్క కంప్యూట్ ఫ్రేమ్వర్క్ను మ్యాప్రెడ్యూస్ అంటారు. మ్యాప్రెడ్యూస్ పెటాబైట్ల స్థాయికి నిరూపించబడింది.
హడూప్ గొప్ప విశ్లేషణలను అందిస్తుంది
స్థానిక మ్యాప్రెడ్యూస్ జావాకు ప్రాధమిక ప్రోగ్రామింగ్ భాషగా మద్దతు ఇస్తుంది. రూబీ, పైథాన్ మరియు ఆర్ వంటి ఇతర భాషలను కూడా ఉపయోగించవచ్చు.
వాస్తవానికి, హడూప్లోని డేటాను విశ్లేషించడానికి కస్టమ్ మ్యాప్రెడ్యూస్ కోడ్ రాయడం మాత్రమే మార్గం కాదు. ఉన్నత-స్థాయి మ్యాప్ తగ్గింపు అందుబాటులో ఉంది. ఉదాహరణకు, పిగ్ అనే సాధనం డేటా ఫ్లో లాంగ్వేజ్ వంటి ఇంగ్లీషును తీసుకొని వాటిని మ్యాప్రెడ్యూస్లోకి అనువదిస్తుంది. మరొక సాధనం, హైవ్, SQL ప్రశ్నలను తీసుకొని వాటిని మ్యాప్రెడ్యూస్ ఉపయోగించి నడుపుతుంది.
బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) సాధనాలు మరింత ఉన్నత స్థాయి విశ్లేషణను అందించగలవు. ఈ రకమైన విశ్లేషణకు ఉపకరణాలు కూడా ఉన్నాయి.
ఈ కంటెంట్ మార్క్ కెర్జ్నర్ మరియు సుజీ మణియం చేత "హడూప్ ఇల్యూమినేటెడ్" నుండి సంగ్రహించబడింది. ఇది క్రియేటివ్ కామన్స్ అట్రిబ్యూషన్-వాణిజ్యేతర-షేర్అలైక్ 3.0 అన్పోర్టెడ్ లైసెన్స్ ద్వారా అందుబాటులో ఉంచబడింది.