పెద్ద డేటా సమస్యను పరిష్కరించడానికి హడూప్ ఎలా సహాయపడుతుంది

రచయిత: Eugene Taylor
సృష్టి తేదీ: 8 ఆగస్టు 2021
నవీకరణ తేదీ: 12 మే 2024
Anonim
Managing Data
వీడియో: Managing Data

విషయము



Takeaway:

కొన్ని పెద్ద డేటా పెద్ద సవాళ్లను పరిష్కరించడానికి హడూప్ సహాయపడుతుంది.

పెద్ద డేటా ... బాగా ... పరిమాణంలో పెద్దది! పెద్ద డేటాగా ఎంత డేటాను వర్గీకరించవచ్చో స్పష్టంగా తెలియదు, కాబట్టి ఆ చర్చలో చిక్కుకోకుండా ఉండండి. గిగాబైట్లలోని డేటాతో వ్యవహరించడానికి ఉపయోగించే ఒక చిన్న సంస్థ కోసం, 10 టిబి డేటా పెద్దదిగా ఉంటుంది. అయితే మరియు యాహూ వంటి సంస్థలకు, పెటాబైట్లు పెద్దవి.

పెద్ద డేటా యొక్క పరిమాణం, డేటాబేస్ లేదా సాంప్రదాయ ఫైలర్స్ వంటి సాంప్రదాయ నిల్వలో నిల్వ చేయడం అసాధ్యం (లేదా కనీసం ఖర్చుతో కూడుకున్నది) చేస్తుంది. గిగాబైట్ల డేటాను నిల్వ చేయడానికి మేము ఖర్చు గురించి మాట్లాడుతున్నాము. సాంప్రదాయ నిల్వ ఫైలర్‌లను ఉపయోగించడం వల్ల పెద్ద డేటాను నిల్వ చేయడానికి చాలా డబ్బు ఖర్చు అవుతుంది.

ఇక్కడ పెద్ద డేటా, దాని సవాళ్లు మరియు హడూప్ వాటిని పరిష్కరించడంలో ఎలా సహాయపడతాయో పరిశీలించండి.మొదట, పెద్ద డేటా పెద్ద సవాళ్లు.

బిగ్ డేటా నిర్మాణాత్మకమైనది లేదా సెమీ స్ట్రక్చర్డ్

చాలా పెద్ద డేటా నిర్మాణాత్మకంగా లేదు. ఉదాహరణకు, స్ట్రీమ్ లాగ్ డేటా క్లిక్ చేయండి:

టైమ్ స్టాంప్, యూజర్_ఐడి, పేజీ, రిఫరర్_పేజీ

నిర్మాణం లేకపోవడం రిలేషనల్ డేటాబేస్లను పెద్ద డేటాను నిల్వ చేయడానికి సరిగ్గా సరిపోదు. అదనంగా, చాలా డేటాబేస్లు బిలియన్ల వరుసల డేటాను నిల్వ చేయలేవు.

మేము దీన్ని ప్రాసెస్ చేయలేకపోతే పెద్ద డేటాను నిల్వ చేయడంలో అర్థం లేదు

పెద్ద డేటాను నిల్వ చేయడం ఆటలో భాగం. దాని నుండి మేధస్సును ప్రాసెస్ చేయడానికి మేము దానిని ప్రాసెస్ చేయాలి. సాంప్రదాయ నిల్వ వ్యవస్థలు బిట్స్‌ను నిల్వచేసే అర్థంలో అందంగా "మూగవి". వారు ఎటువంటి ప్రాసెసింగ్ శక్తిని అందించరు.

సాంప్రదాయ డేటా ప్రాసెసింగ్ మోడల్‌లో నిల్వ క్లస్టర్‌లో నిల్వ చేయబడిన డేటా ఉంది, ఇది ప్రాసెసింగ్ కోసం కంప్యూట్ క్లస్టర్‌కు కాపీ చేయబడుతుంది. ఫలితాలు తిరిగి నిల్వ క్లస్టర్‌కు వ్రాయబడతాయి.

అయితే, ఈ మోడల్ పెద్ద డేటా కోసం పెద్దగా పనిచేయదు ఎందుకంటే కంప్యూట్ క్లస్టర్‌కు ఎక్కువ డేటాను కాపీ చేయడం చాలా సమయం తీసుకుంటుంది లేదా అసాధ్యం. కాబట్టి సమాధానం ఏమిటి?

నిల్వ క్లస్టర్‌లో కంప్యూట్ క్లస్టర్‌గా రెట్టింపు చేయడం వంటి పెద్ద డేటాను స్థానంలో ప్రాసెస్ చేయడం ఒక పరిష్కారం.

మేము పైన చూసినట్లుగా, పెద్ద డేటా సాంప్రదాయ నిల్వను ధిక్కరిస్తుంది. కాబట్టి మేము పెద్ద డేటాను ఎలా నిర్వహిస్తాము?

హడూప్ పెద్ద డేటా సమస్యను ఎలా పరిష్కరిస్తుంది

హడూప్ యంత్రాల సమూహంలో నడపడానికి నిర్మించబడింది
ఒక ఉదాహరణతో ప్రారంభిద్దాం. మనం చాలా ఫోటోలను నిల్వ చేసుకోవాల్సిన అవసరం ఉందని చెప్పండి. మేము ఒకే డిస్క్‌తో ప్రారంభిస్తాము. మేము ఒకే డిస్క్‌ను మించినప్పుడు, మేము యంత్రంలో పేర్చబడిన కొన్ని డిస్కులను ఉపయోగించవచ్చు. మేము ఒకే మెషీన్లో అన్ని డిస్కులను గరిష్టంగా పొందినప్పుడు, మనం కొంత యంత్రాలను పొందాలి, ఒక్కొక్కటి డిస్కుల సమూహంతో ఉండాలి.

హడూప్ ఎలా నిర్మించబడింది. హడూప్ గెట్ గో నుండి యంత్రాల సమూహంలో అమలు చేయడానికి రూపొందించబడింది.




హడూప్ క్లస్టర్లు అడ్డంగా స్కేల్ చేస్తాయి
హడూప్ క్లస్టర్‌కు ఎక్కువ నోడ్‌లను జోడించడం ద్వారా ఎక్కువ నిల్వ మరియు కంప్యూట్ శక్తిని సాధించవచ్చు. ఇది మరింత శక్తివంతమైన మరియు ఖరీదైన హార్డ్‌వేర్‌ను కొనుగోలు చేయవలసిన అవసరాన్ని తొలగిస్తుంది.

హడూప్ నిర్మాణాత్మక / సెమీ స్ట్రక్చర్డ్ డేటాను నిర్వహించగలదు
హడూప్ నిల్వ చేసే డేటాపై స్కీమాను అమలు చేయదు. ఇది ఏకపక్ష మరియు బైనరీ డేటాను నిర్వహించగలదు. కాబట్టి హడూప్ ఏదైనా నిర్మాణాత్మక డేటాను సులభంగా జీర్ణించుకోగలదు.

హడూప్ క్లస్టర్‌లు నిల్వ మరియు కంప్యూటింగ్‌ను అందిస్తుంది
ప్రత్యేక నిల్వ మరియు ప్రాసెసింగ్ క్లస్టర్‌లను కలిగి ఉండటం పెద్ద డేటాకు ఉత్తమంగా సరిపోదని మేము చూశాము. హడూప్ క్లస్టర్లు, అయితే, నిల్వ మరియు పంపిణీ కంప్యూటింగ్‌ను ఒకే విధంగా అందిస్తాయి.

హడూప్ కోసం వ్యాపార కేసు


హడూప్ పెద్ద డేటా కోసం సహేతుకమైన ఖర్చుతో నిల్వను అందిస్తుంది
సాంప్రదాయ నిల్వను ఉపయోగించి పెద్ద డేటాను నిల్వ చేయడం ఖరీదైనది. హడూప్ కమోడిటీ హార్డ్‌వేర్ చుట్టూ నిర్మించబడింది, కాబట్టి ఇది సరసమైన ఖర్చుతో చాలా పెద్ద నిల్వను అందిస్తుంది. ఫీల్డ్‌లో పెడబైట్ స్కేల్‌లో హడూప్ ఉపయోగించబడింది.

క్లౌడెరా చేసిన ఒక అధ్యయనం ప్రకారం సంస్థలు సాధారణంగా సంవత్సరానికి టెరాబైట్‌కు $ 25,000 నుండి $ 50,000 వరకు ఖర్చు చేస్తాయి. హడూప్‌తో, ఈ ఖర్చు సంవత్సరానికి టెరాబైట్‌కు కొన్ని వేల డాలర్లకు పడిపోతుంది. హార్డ్వేర్ చౌకగా మరియు చౌకగా, ఈ ఖర్చు తగ్గుతూనే ఉంది.

కొత్త లేదా అంతకంటే ఎక్కువ డేటాను సంగ్రహించడానికి హడూప్ అనుమతిస్తుంది
కొన్నిసార్లు సంస్థలు ఒక రకమైన డేటాను సంగ్రహించవు ఎందుకంటే దాన్ని నిల్వ చేయడానికి చాలా ఖర్చుతో కూడుకున్నది. హడూప్ సహేతుకమైన ఖర్చుతో నిల్వను అందిస్తుంది కాబట్టి, ఈ రకమైన డేటాను సంగ్రహించి నిల్వ చేయవచ్చు.

వెబ్‌సైట్ క్లిక్ లాగ్‌లు ఒక ఉదాహరణ. ఈ లాగ్ల పరిమాణం చాలా ఎక్కువగా ఉంటుంది కాబట్టి, చాలా సంస్థలు వీటిని సంగ్రహించలేదు. ఇప్పుడు హడూప్‌తో లాగ్‌లను పట్టుకుని నిల్వ చేయడం సాధ్యపడుతుంది.

హడూప్‌తో, మీరు డేటాను ఎక్కువసేపు నిల్వ చేయవచ్చు
నిల్వ చేసిన డేటా పరిమాణాన్ని నిర్వహించడానికి, కంపెనీలు క్రమానుగతంగా పాత డేటాను ప్రక్షాళన చేస్తాయి. ఉదాహరణకు, గత మూడు నెలలుగా లాగ్‌లు మాత్రమే నిల్వ చేయబడతాయి, పాత లాగ్‌లు తొలగించబడ్డాయి. హడూప్‌తో చారిత్రక డేటాను ఎక్కువసేపు నిల్వ చేయడం సాధ్యపడుతుంది. ఇది పాత చారిత్రక డేటాపై కొత్త విశ్లేషణలను చేయడానికి అనుమతిస్తుంది.

ఉదాహరణకు, వెబ్‌సైట్ నుండి క్లిక్ లాగ్‌లను తీసుకోండి. కొన్ని సంవత్సరాల క్రితం, జనాదరణ పొందిన పేజీల వంటి గణాంకాలను లెక్కించడానికి ఈ లాగ్‌లు కొంతకాలం నిల్వ చేయబడ్డాయి. ఇప్పుడు హడూప్‌తో, ఈ క్లిక్ లాగ్‌లను ఎక్కువ కాలం నిల్వ చేయడం సాధ్యపడుతుంది.

హడూప్ స్కేలబుల్ విశ్లేషణలను అందిస్తుంది
మేము ఈ డేటాను విశ్లేషించలేకపోతే వాటిని నిల్వ చేయడంలో అర్థం లేదు. హడూప్ పంపిణీ చేయబడిన నిల్వను మాత్రమే కాకుండా, పంపిణీ చేయబడిన ప్రాసెసింగ్‌ను కూడా అందిస్తుంది, అంటే మనం పెద్ద మొత్తంలో డేటాను సమాంతరంగా క్రంచ్ చేయవచ్చు. హడూప్ యొక్క కంప్యూట్ ఫ్రేమ్‌వర్క్‌ను మ్యాప్‌రెడ్యూస్ అంటారు. మ్యాప్‌రెడ్యూస్ పెటాబైట్ల స్థాయికి నిరూపించబడింది.

హడూప్ గొప్ప విశ్లేషణలను అందిస్తుంది
స్థానిక మ్యాప్‌రెడ్యూస్ జావాకు ప్రాధమిక ప్రోగ్రామింగ్ భాషగా మద్దతు ఇస్తుంది. రూబీ, పైథాన్ మరియు ఆర్ వంటి ఇతర భాషలను కూడా ఉపయోగించవచ్చు.

వాస్తవానికి, హడూప్‌లోని డేటాను విశ్లేషించడానికి కస్టమ్ మ్యాప్‌రెడ్యూస్ కోడ్ రాయడం మాత్రమే మార్గం కాదు. ఉన్నత-స్థాయి మ్యాప్ తగ్గింపు అందుబాటులో ఉంది. ఉదాహరణకు, పిగ్ అనే సాధనం డేటా ఫ్లో లాంగ్వేజ్ వంటి ఇంగ్లీషును తీసుకొని వాటిని మ్యాప్‌రెడ్యూస్‌లోకి అనువదిస్తుంది. మరొక సాధనం, హైవ్, SQL ప్రశ్నలను తీసుకొని వాటిని మ్యాప్‌రెడ్యూస్ ఉపయోగించి నడుపుతుంది.

బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) సాధనాలు మరింత ఉన్నత స్థాయి విశ్లేషణను అందించగలవు. ఈ రకమైన విశ్లేషణకు ఉపకరణాలు కూడా ఉన్నాయి.

ఈ కంటెంట్ మార్క్ కెర్జ్నర్ మరియు సుజీ మణియం చేత "హడూప్ ఇల్యూమినేటెడ్" నుండి సంగ్రహించబడింది. ఇది క్రియేటివ్ కామన్స్ అట్రిబ్యూషన్-వాణిజ్యేతర-షేర్‌అలైక్ 3.0 అన్‌పోర్టెడ్ లైసెన్స్ ద్వారా అందుబాటులో ఉంచబడింది.