![Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka](https://i.ytimg.com/vi/vaysJAMDaZw/hqdefault.jpg)
విషయము
- హడూప్ ఎలా ప్రారంభమైంది?
- హడూప్ గురించి అంత ముఖ్యమైనది ఏమిటి?
- చదివినప్పుడు స్కీమా అంటే ఏమిటి?
- అందులో నివశించే తేనెటీగలు అంటే ఏమిటి?
- హడూప్ ఎలాంటి డేటాను విశ్లేషిస్తాడు?
- హడూప్ యొక్క వాస్తవ ప్రపంచ ఉదాహరణను మీరు ఇవ్వగలరా?
- హడూప్ ఇప్పటికే వాడుకలో లేక మార్ఫింగ్ చేస్తున్నారా?
మూలం: ప్రెషర్వా / డ్రీమ్స్టైమ్.కామ్
Takeaway:
హడూప్ ఇన్నేళ్లుగా డేటాను విశ్లేషించడంలో సహాయపడుతుంది, కానీ దాని గురించి మీకు తెలియని కొన్ని విషయాల కంటే ఎక్కువ ఉండవచ్చు.
హడూప్ అంటే ఏమిటి? ఇది పసుపు బొమ్మ ఏనుగు. మీరు ing హించినది కాదా? దీని గురించి: డగ్ కట్టింగ్ - ఈ ఓపెన్ సోర్స్ సాఫ్ట్వేర్ ప్రాజెక్ట్ సహ-సృష్టికర్త - తన బొమ్మ ఏనుగు హడూప్ అని పిలిచే కొడుకు నుండి పేరు తీసుకున్నాడు. ఒక్కమాటలో చెప్పాలంటే, హడూప్ అనేది అపాచీ సాఫ్ట్వేర్ ఫౌండేషన్ అభివృద్ధి చేసిన సాఫ్ట్వేర్ ఫ్రేమ్వర్క్, ఇది డేటా-ఇంటెన్సివ్, డిస్ట్రిబ్యూటెడ్ కంప్యూటింగ్ను అభివృద్ధి చేయడానికి ఉపయోగించబడుతుంది. మరొక బజ్వర్డ్ రీడర్లలో దాని ముఖ్య భాగం ఎప్పటికీ సరిపోదు: పెద్ద డేటా. ఈ ప్రత్యేకమైన, ఉచితంగా లైసెన్స్ పొందిన సాఫ్ట్వేర్ గురించి మీరు తెలుసుకోవలసిన ఏడు విషయాలు ఇక్కడ ఉన్నాయి.హడూప్ ఎలా ప్రారంభమైంది?
పన్నెండు సంవత్సరాల క్రితం, గూగుల్ తాను సేకరిస్తున్న భారీ మొత్తంలో డేటాను మార్చటానికి ఒక వేదికను నిర్మించింది. సంస్థ తరచూ చేసే విధంగా, గూగుల్ తన డిజైన్ను రెండు పేపర్ల రూపంలో ప్రజలకు అందుబాటులోకి తెచ్చింది: గూగుల్ ఫైల్ సిస్టమ్ మరియు మ్యాప్రెడ్యూస్.అదే సమయంలో, డచ్ కట్టింగ్ మరియు మైక్ కేఫరెల్లా కొత్త సెర్చ్ ఇంజన్ అయిన నచ్లో పనిచేస్తున్నారు. పెద్ద మొత్తంలో డేటాను ఎలా నిర్వహించాలో కూడా ఇద్దరూ కష్టపడుతున్నారు. అప్పుడు ఇద్దరు పరిశోధకులకు గూగుల్ పేపర్లు వచ్చాయి. కట్టింగ్ మరియు కేఫరెల్లాను మెరుగైన ఫైల్ సిస్టమ్కి మరియు డేటాను ట్రాక్ చేసే మార్గంగా పరిచయం చేయడం ద్వారా ఆ అదృష్ట ఖండన ప్రతిదీ మార్చింది, చివరికి హడూప్ యొక్క సృష్టికి దారితీసింది.
హడూప్ గురించి అంత ముఖ్యమైనది ఏమిటి?
నేడు, డేటా సేకరించడం గతంలో కంటే సులభం. ఈ డేటాను కలిగి ఉండటం చాలా అవకాశాలను అందిస్తుంది, కానీ సవాళ్లు కూడా ఉన్నాయి:- భారీ మొత్తంలో డేటా ప్రాసెసింగ్ యొక్క కొత్త పద్ధతులు అవసరం.
- సంగ్రహించబడిన డేటా నిర్మాణాత్మక ఆకృతిలో ఉంది.
తరువాత, వారు ప్రామాణిక రిలేషనల్ డేటాబేస్ వ్యవస్థలను నిర్వహించలేని ఫార్మాట్లలో నిర్మాణాత్మక డేటా లేదా డేటాను పరిష్కరించాల్సి వచ్చింది. కట్టింగ్ మరియు కేఫరెల్లా హడూప్ను ఏ రకమైన డేటాతోనైనా పని చేయడానికి రూపొందించారు: నిర్మాణాత్మక, నిర్మాణాత్మక, చిత్రాలు, ఆడియో ఫైల్లు కూడా. ఈ క్లౌడెరా (హడూప్ ఇంటిగ్రేటర్) శ్వేతపత్రం ఇది ఎందుకు ముఖ్యమో వివరిస్తుంది:
- "మీ డేటాబేస్లో ఉన్నదానితో కాకుండా, మీ మొత్తం డేటాను ఉపయోగపడేలా చేయడం ద్వారా, దాచిన సంబంధాలను వెలికితీసేందుకు హడూప్ మిమ్మల్ని అనుమతిస్తుంది మరియు ఎల్లప్పుడూ అందుబాటులో లేని సమాధానాలను వెల్లడిస్తుంది. మీరు హంచ్లకు బదులుగా హార్డ్ డేటా ఆధారంగా మరిన్ని నిర్ణయాలు తీసుకోవడం ప్రారంభించవచ్చు మరియు చూడండి నమూనాలు మరియు సారాంశాలు మాత్రమే కాకుండా పూర్తి డేటా సెట్లలో. "
చదివినప్పుడు స్కీమా అంటే ఏమిటి?
ఇంతకు ముందే చెప్పినట్లుగా, హడూప్ యొక్క ప్రయోజనాల్లో ఒకటి నిర్మాణాత్మక డేటాను నిర్వహించగల సామర్థ్యం. ఒక రకంగా చెప్పాలంటే, అది "డబ్బాను రోడ్డు మీదకు తన్నడం." చివరికి డేటాను విశ్లేషించడానికి ఒక రకమైన నిర్మాణం అవసరం.అక్కడే రీడ్ ఆన్ స్కీమా అమలులోకి వస్తుంది. డేటా ఏ ఫార్మాట్లో ఉంది, డేటాను ఎక్కడ కనుగొనాలి (డేటా అనేక సర్వర్లలో చెల్లాచెదురుగా ఉందని గుర్తుంచుకోండి), మరియు డేటాకు ఏమి చేయాలి - సాధారణ పని కాదు. హడూప్ వ్యవస్థలో డేటాను మార్చటానికి వ్యాపార విశ్లేషకుడు, గణాంకవేత్త మరియు జావా ప్రోగ్రామర్ యొక్క నైపుణ్యాలు అవసరమని చెప్పబడింది. దురదృష్టవశాత్తు, ఆ అర్హతలు ఉన్నవారు చాలా మంది లేరు.
అందులో నివశించే తేనెటీగలు అంటే ఏమిటి?
హడూప్ విజయవంతం కావాలంటే, డేటాతో పనిచేయడం సరళీకృతం చేయాలి. కాబట్టి, ఓపెన్ సోర్స్ గుంపు పనిలోకి వచ్చింది మరియు అందులో నివశించే తేనెటీగలు సృష్టించింది:- "హైవ్ ఈ డేటాపై నిర్మాణాన్ని ప్రొజెక్ట్ చేయడానికి మరియు హైవ్క్యూల్ అని పిలువబడే SQL లాంటి భాషను ఉపయోగించి డేటాను ప్రశ్నించడానికి ఒక యంత్రాంగాన్ని అందిస్తుంది. అదే సమయంలో ఈ భాష సాంప్రదాయ మ్యాప్ను / ప్రోగ్రామర్లను వారి కస్టమ్ మ్యాపర్లను మరియు తగ్గించేవారిని అసౌకర్యంగా ఉన్నప్పుడు ప్లగ్ చేయడానికి అనుమతిస్తుంది. HiveQL లో ఈ తర్కాన్ని వ్యక్తీకరించడానికి అసమర్థత. "
అందులో నివశించే తేనెటీగలు రెండు ప్రపంచాలలోని ఉత్తమమైన వాటిని ప్రారంభిస్తాయి: SQL ఆదేశాలతో సుపరిచితమైన డేటాబేస్ సిబ్బంది డేటాను మార్చగలరు మరియు రీడ్ ప్రాసెస్పై స్కీమా గురించి తెలిసిన డెవలపర్లు ఇప్పటికీ అనుకూలీకరించిన ప్రశ్నలను సృష్టించగలుగుతారు.
హడూప్ ఎలాంటి డేటాను విశ్లేషిస్తాడు?
వెబ్సైట్లను ఆప్టిమైజ్ చేయడానికి వెబ్ లాగ్లు మరియు వెబ్ ట్రాఫిక్ను విశ్లేషించడం, వెబ్ విశ్లేషణలు మొదట గుర్తుకు వస్తాయి. , ఉదాహరణకు, ఖచ్చితంగా వెబ్ అనలిటిక్స్లో ఉంటుంది, కంపెనీ సేకరించే డేటా యొక్క టెరాబైట్ల ద్వారా క్రమబద్ధీకరించడానికి హడూప్ను ఉపయోగిస్తుంది.రిస్క్ అనాలిసిస్, మోసం గుర్తింపు మరియు కస్టమర్-బేస్ సెగ్మెంటేషన్ చేయడానికి కంపెనీలు హడూప్ క్లస్టర్లను ఉపయోగిస్తాయి. యుటిలిటీ కంపెనీలు తమ ఎలక్ట్రికల్ గ్రిడ్ నుండి సెన్సార్ డేటాను విశ్లేషించడానికి హడూప్ను ఉపయోగిస్తాయి, ఇవి విద్యుత్ ఉత్పత్తిని ఆప్టిమైజ్ చేయడానికి వీలు కల్పిస్తాయి. టార్గెట్, 3 ఎమ్ మరియు మెడ్ట్రానిక్స్ వంటి ప్రధాన కంపెనీలు ఉత్పత్తి పంపిణీ, వ్యాపార రిస్క్ అసెస్మెంట్స్ మరియు కస్టమర్-బేస్ సెగ్మెంటేషన్ను ఆప్టిమైజ్ చేయడానికి హడూప్ను ఉపయోగిస్తాయి.
విశ్వవిద్యాలయాలు హడూప్లో కూడా పెట్టుబడులు పెట్టాయి. సాఫ్ట్వేర్లోని సెయింట్ థామస్ గ్రాడ్యుయేట్ ప్రోగ్రామ్స్ విశ్వవిద్యాలయంలో అసోసియేట్ ప్రొఫెసర్ బ్రాడ్ రూబిన్, విశ్వవిద్యాలయంలోని పరిశోధనా బృందాలు సంకలనం చేసిన అధిక మొత్తంలో డేటాను క్రమబద్ధీకరించడానికి తన హడూప్ నైపుణ్యం సహాయపడుతుందని పేర్కొన్నారు.
హడూప్ యొక్క వాస్తవ ప్రపంచ ఉదాహరణను మీరు ఇవ్వగలరా?
బాగా తెలిసిన ఉదాహరణలలో ఒకటి టైమ్స్ మెషిన్. న్యూయార్క్ టైమ్స్ పూర్తి పేజీ వార్తాపత్రిక TIFF చిత్రాలు, అనుబంధ మెటాడేటా మరియు 1851 నుండి 1922 వరకు టెరాబైట్ల డేటాను కలిగి ఉంది. NYT యొక్క డెరెక్ గాట్ఫ్రిడ్, EC2 / S3 / హడూప్ వ్యవస్థ మరియు ప్రత్యేక కోడ్ను ఉపయోగించి ,:- "405,000 చాలా పెద్ద TIFF చిత్రాలు, SGML లో 3.3 మిలియన్ వ్యాసాలు మరియు TIFF లలో దీర్ఘచతురస్రాకార ప్రాంతాలకు వ్యాసాలను మ్యాపింగ్ చేసే 405,000 xml ఫైల్స్. ఈ డేటాను మరింత వెబ్-స్నేహపూర్వక 810,000 PNG చిత్రాలు (సూక్ష్మచిత్రాలు మరియు పూర్తి చిత్రాలు) మరియు 405,000 జావాస్క్రిప్ట్ ఫైల్లుగా మార్చారు. "
అమెజాన్ వెబ్ సర్వీసెస్ క్లౌడ్లోని సర్వర్లను ఉపయోగించి, టైమ్స్ మెషిన్కు అవసరమైన మొత్తం డేటాను వారు 36 గంటలలోపు ప్రాసెస్ చేయగలరని గాట్ఫ్రిడ్ పేర్కొన్నారు.
హడూప్ ఇప్పటికే వాడుకలో లేక మార్ఫింగ్ చేస్తున్నారా?
హడూప్ ఇప్పుడు ఒక దశాబ్దం పాటు ఉంది. దాని వాడుకలో లేనిది చాలా ఉంది. ఒక నిపుణుడు, డాక్టర్ డేవిడ్ రికో, "ఐటి ఉత్పత్తులు స్వల్పకాలికం. కుక్క సంవత్సరాల్లో, గూగల్స్ ఉత్పత్తులు 70, హడూప్ 56 ఉన్నాయి."రికో చెప్పినదానికి కొంత నిజం ఉండవచ్చు. హడూప్ ఒక పెద్ద సమగ్రత ద్వారా వెళుతున్నట్లు కనిపిస్తోంది. దాని గురించి మరింత తెలుసుకోవడానికి, రూబిన్ నన్ను ట్విన్ సిటీస్ హడూప్ యూజర్ గ్రూప్ సమావేశానికి ఆహ్వానించాడు మరియు చర్చా అంశం పరిచయం పరిచయం YARN:
- "అపాచీ హడూప్ 2 కొత్త మ్యాప్రెడ్యూస్ ఇంజిన్ను కలిగి ఉంది, ఇది మునుపటి అమలు కంటే మెరుగైన స్కేలబిలిటీ మరియు వనరుల వినియోగంతో సహా అనేక ప్రయోజనాలను కలిగి ఉంది. కొత్త అమలు YARN అని పిలువబడే పంపిణీ అనువర్తనాలను అమలు చేయడానికి సాధారణ వనరుల నిర్వహణ వ్యవస్థపై నిర్మించబడింది."