మీరు తెలుసుకోవలసిన మరియు అర్థం చేసుకోవలసిన 10 ముఖ్యమైన హడూప్ నిబంధనలు

రచయిత: Eugene Taylor
సృష్టి తేదీ: 10 ఆగస్టు 2021
నవీకరణ తేదీ: 1 జూలై 2024
Anonim
మీరు తెలుసుకోవలసిన మరియు అర్థం చేసుకోవలసిన 10 ముఖ్యమైన హడూప్ నిబంధనలు - టెక్నాలజీ
మీరు తెలుసుకోవలసిన మరియు అర్థం చేసుకోవలసిన 10 ముఖ్యమైన హడూప్ నిబంధనలు - టెక్నాలజీ

విషయము



మూలం: ట్రూఫెల్పిక్స్ / డ్రీమ్‌స్టైమ్.కామ్

Takeaway:

పెద్ద డేటాను నిజంగా అర్థం చేసుకోవడానికి, మీరు హడూప్ మరియు దాని చుట్టూ ఉన్న భాష గురించి కొంచెం అర్థం చేసుకోవాలి.

పెద్ద డేటా, నిర్మాణాత్మక, నిర్మాణాత్మక లేదా సెమీ స్ట్రక్చర్డ్ డేటా యొక్క భారీ వాల్యూమ్లకు ఆకర్షణీయమైన పేరు, కనీసం సాంప్రదాయ డేటాబేస్ మరియు సాఫ్ట్‌వేర్ అనువర్తనాలను ఉపయోగించడం, సంగ్రహించడం, నిల్వ చేయడం, నిర్వహించడం, భాగస్వామ్యం చేయడం, విశ్లేషించడం మరియు దృశ్యమానం చేయడం చాలా కష్టం. అందువల్ల పెద్ద డేటా టెక్నాలజీలు భారీ మొత్తంలో డేటాను సమర్థవంతంగా మరియు సమర్ధవంతంగా నిర్వహించే మరియు ప్రాసెస్ చేసే సామర్థ్యాన్ని కలిగి ఉంటాయి. మరియు దాని అపాచీ హడూప్, కంప్యూటర్ల సమూహాలలో పంపిణీ చేయబడిన విధంగా పెద్ద డేటా సెట్‌లను ప్రాసెస్ చేయడానికి ఫ్రేమ్‌వర్క్ మరియు అనుబంధ సాంకేతికతలను అందిస్తుంది. కాబట్టి, పెద్ద డేటాను నిజంగా అర్థం చేసుకోవడానికి, మీరు హడూప్ గురించి కొంచెం అర్థం చేసుకోవాలి. హడూప్‌కు సంబంధించి మీరు వినే అగ్ర పదాలను ఇక్కడ చూడండి - మరియు వాటి అర్థం ఏమిటి.

కానీ మొదట, హడూప్ ఎలా పనిచేస్తుందో చూడండి

హడూప్ పర్యావరణ వ్యవస్థలోకి వెళ్ళే ముందు, మీరు రెండు ప్రాథమిక విషయాలను స్పష్టంగా అర్థం చేసుకోవాలి. మొదటిది హడూప్‌లో ఫైల్ ఎలా నిల్వ చేయబడుతుంది; రెండవది నిల్వ చేసిన డేటా ఎలా ప్రాసెస్ చేయబడుతుంది. అన్ని హడూప్-సంబంధిత సాంకేతికతలు ప్రధానంగా ఈ రెండు రంగాలపై పనిచేస్తాయి మరియు దీన్ని మరింత యూజర్ ఫ్రెండ్లీగా చేస్తాయి. (పెద్ద డేటా సమస్యను పరిష్కరించడానికి హడూప్ ఎలా సహాయపడుతుంది అనేదానిలో హడూప్ ఎలా పనిచేస్తుందో ప్రాథమికాలను పొందండి.)


ఇప్పుడు, నిబంధనలకు అనుగుణంగా.

హడూప్ కామన్

హడూప్ ఫ్రేమ్‌వర్క్ వేర్వేరు కార్యాచరణల కోసం వేర్వేరు మాడ్యూళ్ళను కలిగి ఉంది మరియు ఈ గుణకాలు వివిధ కారణాల వల్ల ఒకదానితో ఒకటి సంకర్షణ చెందుతాయి. హడూప్ కామన్ ను హడూప్ పర్యావరణ వ్యవస్థలో ఈ మాడ్యూళ్ళకు మద్దతు ఇవ్వడానికి ఒక సాధారణ యుటిలిటీస్ లైబ్రరీగా నిర్వచించవచ్చు. ఈ యుటిలిటీస్ ప్రాథమికంగా జావా ఆధారిత, ఆర్కైవ్ చేసిన (JAR లు) ఫైళ్ళు. ఈ యుటిలిటీలను ప్రధానంగా ప్రోగ్రామర్లు మరియు డెవలపర్లు అభివృద్ధి సమయంలో ఉపయోగిస్తారు.

హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ (HDFS)

హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ (హెచ్‌డిఎఫ్‌ఎస్) అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్ ఆధ్వర్యంలోని అపాచీ హడూప్ యొక్క ఉప ప్రాజెక్ట్. హడూప్ ఫ్రేమ్‌వర్క్‌లో నిల్వకు ఇది వెన్నెముక. ఇది పంపిణీ చేయబడిన, స్కేలబుల్ మరియు తప్పు-తట్టుకోగల ఫైల్ సిస్టమ్, ఇది హడూప్ క్లస్టర్ అని పిలువబడే బహుళ వస్తువుల హార్డ్‌వేర్‌లో విస్తరించి ఉంది. అప్లికేషన్ డేటాకు అధిక నిర్గమాంశ ప్రాప్యతతో భారీ మొత్తంలో డేటాను విశ్వసనీయంగా నిల్వ చేయడం HDFS యొక్క లక్ష్యం. HDFS మాస్టర్ / స్లేవ్ ఆర్కిటెక్చర్‌ను అనుసరిస్తుంది, ఇక్కడ మాస్టర్‌ను నేమ్‌నోడ్ అని పిలుస్తారు మరియు బానిసలను డేటానోడ్స్ అని పిలుస్తారు.


మ్యార్రెడ్యూస్చే

హడూప్ మ్యాప్‌రెడ్యూస్ అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్ యొక్క ఉప-ప్రాజెక్ట్. మ్యాప్‌రెడ్యూస్ వాస్తవానికి జావాలో వ్రాయబడిన సాఫ్ట్‌వేర్ ఫ్రేమ్‌వర్క్. పంపిణీ చేయబడిన వాతావరణంలో (కమోడిటీ హార్డ్‌వేర్‌తో కూడిన) పెద్ద డేటాసెట్‌లను పూర్తిగా సమాంతరంగా ప్రాసెస్ చేయడం దీని ప్రాథమిక లక్ష్యం. ఉద్యోగ షెడ్యూల్, పర్యవేక్షణ, అమలు మరియు తిరిగి అమలు చేయడం (విఫలమైన పనుల విషయంలో) వంటి అన్ని కార్యకలాపాలను ఫ్రేమ్‌వర్క్ నిర్వహిస్తుంది.

HBase

అపాచీ హెచ్‌బేస్‌ను హడూప్ డేటాబేస్ అంటారు. ఇది ఒక స్తంభం, పంపిణీ మరియు స్కేలబుల్ పెద్ద డేటా స్టోర్. ఇది రిలేషనల్ డేటాబేస్ మేనేజ్మెంట్ సిస్టమ్ కాని ఒక రకమైన NoSQL డేటాబేస్ అని కూడా పిలుస్తారు. HBase అనువర్తనాలు జావాలో కూడా వ్రాయబడ్డాయి, ఇవి హడూప్ పైన నిర్మించబడ్డాయి మరియు HDFS లో నడుస్తాయి. మీకు రియల్ టైమ్ రీడ్ / రైట్ మరియు పెద్ద డేటాకు యాదృచ్ఛిక ప్రాప్యత అవసరమైనప్పుడు HBase ఉపయోగించబడుతుంది. గూగుల్ బిగ్ టేబుల్ భావనల ఆధారంగా హెచ్‌బేస్ రూపొందించబడింది.

అందులో నివశించే

అపాచీ హైవ్ అనేది ఓపెన్ సోర్స్ డేటా వేర్‌హౌస్ సాఫ్ట్‌వేర్ సిస్టమ్. అందులో నివశించే తేనెటీగలు అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్ పరిధిలోకి రావడానికి ముందే అభివృద్ధి చేయబడ్డాయి మరియు ఓపెన్ సోర్స్ అయ్యాయి. పంపిణీ చేయబడిన హడూప్ అనుకూల నిల్వపై పెద్ద డేటా సెట్ల నిర్వహణ మరియు ప్రశ్నలను ఇది సులభతరం చేస్తుంది. హైవ్‌క్యూల్ అని పిలువబడే SQL లాంటి భాషను ఉపయోగించడం ద్వారా అందులో నివశించే తేనెటీగలు దాని అన్ని కార్యకలాపాలను నిర్వహిస్తాయి. (అపాచీ హైవ్ మరియు పిగ్‌కి సంక్షిప్త పరిచయంలో మరింత తెలుసుకోండి.)

బగ్స్ లేవు, ఒత్తిడి లేదు - మీ జీవితాన్ని నాశనం చేయకుండా జీవితాన్ని మార్చే సాఫ్ట్‌వేర్‌ను రూపొందించడానికి స్టెప్ గైడ్ ద్వారా మీ దశ

సాఫ్ట్‌వేర్ నాణ్యత గురించి ఎవరూ పట్టించుకోనప్పుడు మీరు మీ ప్రోగ్రామింగ్ నైపుణ్యాలను మెరుగుపరచలేరు.

అపాచీ పిగ్

పంపిణీ చేయబడిన డేటా యొక్క పెద్ద పరిమాణంలో మ్యాప్‌రెడ్యూస్ ఉద్యోగాలను అభివృద్ధి చేయడం మరియు అమలు చేయడం కోసం పిగ్‌ను మొదట యాహూ ప్రారంభించింది. ఇప్పుడు ఇది అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్ ఆధ్వర్యంలో ఓపెన్ సోర్స్ ప్రాజెక్టుగా మారింది. అపాచీ పిగ్ చాలా పెద్ద డేటా సెట్లను సమర్థవంతంగా విశ్లేషించడానికి ఒక వేదికగా నిర్వచించవచ్చు. పిగ్స్ ఇన్ఫ్రాస్ట్రక్చర్ లేయర్ అసలు ప్రాసెసింగ్ చేయడానికి మ్యాప్‌రెడ్యూస్ ఉద్యోగాల క్రమాన్ని ఉత్పత్తి చేస్తుంది. పిగ్స్ లాంగ్వేజ్ లేయర్‌ను పిగ్ లాటిన్ అని పిలుస్తారు మరియు ఇది పంపిణీ చేసిన డేటా సెట్స్‌పై ప్రశ్నలను నిర్వహించడానికి SQL లాంటి లక్షణాలను అందిస్తుంది.

అపాచీ స్పార్క్

స్పార్క్ మొదట UC బర్కిలీలో AMPLab చే అభివృద్ధి చేయబడింది. ఇది ఫిబ్రవరి 2014 లో అపాచీ ఉన్నత-స్థాయి ప్రాజెక్టుగా మారింది. డేటా విశ్లేషణలను చాలా వేగంగా చేసే ఓపెన్ సోర్స్, జనరల్-పర్పస్, క్లస్టర్-కంప్యూటింగ్ ఫ్రేమ్‌వర్క్‌గా అపాచీ స్పార్క్ నిర్వచించవచ్చు. ఇది హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ పైన నిర్మించబడింది, అయితే ఇది మ్యాప్‌రెడ్యూస్ ఫ్రేమ్‌వర్క్‌తో అనుసంధానించబడలేదు. మ్యాప్‌రెడ్యూస్‌తో పోలిస్తే స్పార్క్స్ పనితీరు చాలా వేగంగా ఉంటుంది. ఇది స్కాలా, పైథాన్ మరియు జావాలో ఉన్నత-స్థాయి API లను అందిస్తుంది.

అపాచీ కాసాండ్రా

అపాచీ కాసాండ్రా మరొక ఓపెన్ సోర్స్ NoSQL డేటాబేస్. బహుళ డేటా సెంటర్లు మరియు క్లౌడ్ స్టోరేజ్ అంతటా పెద్ద పరిమాణంలో నిర్మాణాత్మక, సెమీ స్ట్రక్చర్డ్ మరియు స్ట్రక్చర్డ్ డేటా పరిధులను నిర్వహించడానికి కాసాండ్రా విస్తృతంగా ఉపయోగించబడుతుంది. కాసాండ్రా "మాస్టర్ లెస్" ఆర్కిటెక్చర్ ఆధారంగా రూపొందించబడింది, అంటే ఇది మాస్టర్ / స్లేవ్ మోడల్‌కు మద్దతు ఇవ్వదు. ఈ నిర్మాణంలో, అన్ని నోడ్లు ఒకే విధంగా ఉంటాయి మరియు డేటా అన్ని నోడ్లలో స్వయంచాలకంగా మరియు సమానంగా పంపిణీ చేయబడుతుంది. కాసాండ్రాస్ చాలా ముఖ్యమైన లక్షణాలు నిరంతర లభ్యత, సరళ స్కేలబిలిటీ, అంతర్నిర్మిత / అనుకూలీకరించదగిన ప్రతిరూపణ, ఒక్క పాయింట్ వైఫల్యం మరియు కార్యాచరణ సరళత.

మరో వనరుల చర్చలు (YARN)

ఇంకొక రిసోర్స్ నెగోషియేటర్ (YARN) ను మ్యాప్‌రెడ్యూస్ 2.0 అని కూడా పిలుస్తారు, అయితే ఇది వాస్తవానికి హడూప్ 2.0 కిందకు వస్తుంది. YARN ను ఉద్యోగ షెడ్యూలింగ్ మరియు వనరుల నిర్వహణ ఫ్రేమ్‌వర్క్‌గా నిర్వచించవచ్చు. YARN యొక్క ప్రాథమిక ఆలోచన ఏమిటంటే, జాబ్‌ట్రాకర్ యొక్క కార్యాచరణలను వనరుల నిర్వహణ మరియు షెడ్యూలింగ్ / పర్యవేక్షణకు బాధ్యత వహించే రెండు వేర్వేరు డెమోన్‌ల ద్వారా భర్తీ చేయడం. ఈ క్రొత్త ఫ్రేమ్‌వర్క్‌లో, గ్లోబల్ రిసోర్స్ మేనేజర్ (RM) మరియు అప్లికేషన్ మాస్టర్ (AM) అని పిలువబడే అప్లికేషన్-స్పెసిఫిక్ మాస్టర్ ఉంటుంది. గ్లోబల్ రిసోర్స్ మేనేజర్ (RM) మరియు నోడ్ మేనేజర్ (పర్ నోడ్ స్లేవ్) వాస్తవ డేటా గణన ఫ్రేమ్‌వర్క్‌ను ఏర్పరుస్తాయి. ఇప్పటికే ఉన్న మ్యాప్‌రెడ్యూస్ వి 1 అనువర్తనాలను కూడా యార్న్‌లో అమలు చేయవచ్చు, అయితే ఆ అనువర్తనాలను హడూప్ 2.ఎక్స్ జాడితో తిరిగి కంపైల్ చేయాలి.

ఇంపాలా

ఇంపాలాను భారీ సమాంతర ప్రాసెసింగ్ (MPP) శక్తితో SQL ప్రశ్న ఇంజిన్‌గా నిర్వచించవచ్చు. ఇది అపాచీ హడూప్ ఫ్రేమ్‌వర్క్‌పై స్థానికంగా నడుస్తుంది. హడూప్ పర్యావరణ వ్యవస్థలో భాగంగా ఇంపాలా రూపొందించబడింది. ఇది ఇతర హడూప్ పర్యావరణ వ్యవస్థ భాగాలు ఉపయోగించే అదే సౌకర్యవంతమైన ఫైల్ సిస్టమ్ (హెచ్‌డిఎఫ్ఎస్), మెటాడేటా, రిసోర్స్ మేనేజ్‌మెంట్ మరియు సెక్యూరిటీ ఫ్రేమ్‌వర్క్‌లను పంచుకుంటుంది. అందులో నివశించే తేనెటీగలతో పోలిస్తే ప్రశ్న ప్రాసెసింగ్‌లో ఇంపాలా చాలా వేగంగా ఉందని గమనించడం చాలా ముఖ్యమైన విషయం. ఇంపాలా అనేది ఒక చిన్న డేటా సమితిపై ప్రశ్న / విశ్లేషణ కోసం ఉద్దేశించినది అని కూడా మనం గుర్తుంచుకోవాలి మరియు ఇది ప్రధానంగా ప్రాసెస్ చేయబడిన మరియు నిర్మాణాత్మక డేటాపై పనిచేసే విశ్లేషణ సాధనంగా రూపొందించబడింది.

హడూప్ ఐటిలో ఒక ముఖ్యమైన అంశం, కానీ దాని దీర్ఘకాలిక సాధ్యతపై అనుమానం ఉన్నవారు ఉన్నారు. హడూప్ అంటే ఏమిటి? ఎ సైనీక్స్ థియరీ.