హడూప్ గురించి తెలుసుకోవలసిన 7 విషయాలు

రచయిత: Eugene Taylor
సృష్టి తేదీ: 8 ఆగస్టు 2021
నవీకరణ తేదీ: 20 జూన్ 2024
Anonim
Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka
వీడియో: Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka

విషయము


మూలం: ప్రెషర్వా / డ్రీమ్‌స్టైమ్.కామ్

Takeaway:

హడూప్ ఇన్నేళ్లుగా డేటాను విశ్లేషించడంలో సహాయపడుతుంది, కానీ దాని గురించి మీకు తెలియని కొన్ని విషయాల కంటే ఎక్కువ ఉండవచ్చు.

హడూప్ అంటే ఏమిటి? ఇది పసుపు బొమ్మ ఏనుగు. మీరు ing హించినది కాదా? దీని గురించి: డగ్ కట్టింగ్ - ఈ ఓపెన్ సోర్స్ సాఫ్ట్‌వేర్ ప్రాజెక్ట్ సహ-సృష్టికర్త - తన బొమ్మ ఏనుగు హడూప్ అని పిలిచే కొడుకు నుండి పేరు తీసుకున్నాడు. ఒక్కమాటలో చెప్పాలంటే, హడూప్ అనేది అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్ అభివృద్ధి చేసిన సాఫ్ట్‌వేర్ ఫ్రేమ్‌వర్క్, ఇది డేటా-ఇంటెన్సివ్, డిస్ట్రిబ్యూటెడ్ కంప్యూటింగ్‌ను అభివృద్ధి చేయడానికి ఉపయోగించబడుతుంది. మరొక బజ్‌వర్డ్ రీడర్‌లలో దాని ముఖ్య భాగం ఎప్పటికీ సరిపోదు: పెద్ద డేటా. ఈ ప్రత్యేకమైన, ఉచితంగా లైసెన్స్ పొందిన సాఫ్ట్‌వేర్ గురించి మీరు తెలుసుకోవలసిన ఏడు విషయాలు ఇక్కడ ఉన్నాయి.

హడూప్ ఎలా ప్రారంభమైంది?

పన్నెండు సంవత్సరాల క్రితం, గూగుల్ తాను సేకరిస్తున్న భారీ మొత్తంలో డేటాను మార్చటానికి ఒక వేదికను నిర్మించింది. సంస్థ తరచూ చేసే విధంగా, గూగుల్ తన డిజైన్‌ను రెండు పేపర్ల రూపంలో ప్రజలకు అందుబాటులోకి తెచ్చింది: గూగుల్ ఫైల్ సిస్టమ్ మరియు మ్యాప్‌రెడ్యూస్.

అదే సమయంలో, డచ్ కట్టింగ్ మరియు మైక్ కేఫరెల్లా కొత్త సెర్చ్ ఇంజన్ అయిన నచ్‌లో పనిచేస్తున్నారు. పెద్ద మొత్తంలో డేటాను ఎలా నిర్వహించాలో కూడా ఇద్దరూ కష్టపడుతున్నారు. అప్పుడు ఇద్దరు పరిశోధకులకు గూగుల్ పేపర్లు వచ్చాయి. కట్టింగ్ మరియు కేఫరెల్లాను మెరుగైన ఫైల్ సిస్టమ్‌కి మరియు డేటాను ట్రాక్ చేసే మార్గంగా పరిచయం చేయడం ద్వారా ఆ అదృష్ట ఖండన ప్రతిదీ మార్చింది, చివరికి హడూప్ యొక్క సృష్టికి దారితీసింది.

హడూప్ గురించి అంత ముఖ్యమైనది ఏమిటి?

నేడు, డేటా సేకరించడం గతంలో కంటే సులభం. ఈ డేటాను కలిగి ఉండటం చాలా అవకాశాలను అందిస్తుంది, కానీ సవాళ్లు కూడా ఉన్నాయి:

  • భారీ మొత్తంలో డేటా ప్రాసెసింగ్ యొక్క కొత్త పద్ధతులు అవసరం.
  • సంగ్రహించబడిన డేటా నిర్మాణాత్మక ఆకృతిలో ఉంది.
అపారమైన నిర్మాణాత్మక డేటాను తారుమారు చేసే సవాళ్లను అధిగమించడానికి, కట్టింగ్ మరియు కేఫరెల్లా రెండు భాగాల పరిష్కారంతో ముందుకు వచ్చారు. డేటా-పరిమాణ సమస్యను పరిష్కరించడానికి, హడూప్ పంపిణీ చేయబడిన వాతావరణాన్ని - కమోడిటీ సర్వర్ల నెట్‌వర్క్ - ఒక సమాంతర ప్రాసెసింగ్ క్లస్టర్‌ను సృష్టిస్తుంది, ఇది కేటాయించిన పనిని భరించడానికి ఎక్కువ ప్రాసెసింగ్ శక్తిని తెస్తుంది.

తరువాత, వారు ప్రామాణిక రిలేషనల్ డేటాబేస్ వ్యవస్థలను నిర్వహించలేని ఫార్మాట్లలో నిర్మాణాత్మక డేటా లేదా డేటాను పరిష్కరించాల్సి వచ్చింది. కట్టింగ్ మరియు కేఫరెల్లా హడూప్‌ను ఏ రకమైన డేటాతోనైనా పని చేయడానికి రూపొందించారు: నిర్మాణాత్మక, నిర్మాణాత్మక, చిత్రాలు, ఆడియో ఫైల్‌లు కూడా. ఈ క్లౌడెరా (హడూప్ ఇంటిగ్రేటర్) శ్వేతపత్రం ఇది ఎందుకు ముఖ్యమో వివరిస్తుంది:

    "మీ డేటాబేస్లో ఉన్నదానితో కాకుండా, మీ మొత్తం డేటాను ఉపయోగపడేలా చేయడం ద్వారా, దాచిన సంబంధాలను వెలికితీసేందుకు హడూప్ మిమ్మల్ని అనుమతిస్తుంది మరియు ఎల్లప్పుడూ అందుబాటులో లేని సమాధానాలను వెల్లడిస్తుంది. మీరు హంచ్లకు బదులుగా హార్డ్ డేటా ఆధారంగా మరిన్ని నిర్ణయాలు తీసుకోవడం ప్రారంభించవచ్చు మరియు చూడండి నమూనాలు మరియు సారాంశాలు మాత్రమే కాకుండా పూర్తి డేటా సెట్లలో. "

చదివినప్పుడు స్కీమా అంటే ఏమిటి?

ఇంతకు ముందే చెప్పినట్లుగా, హడూప్ యొక్క ప్రయోజనాల్లో ఒకటి నిర్మాణాత్మక డేటాను నిర్వహించగల సామర్థ్యం. ఒక రకంగా చెప్పాలంటే, అది "డబ్బాను రోడ్డు మీదకు తన్నడం." చివరికి డేటాను విశ్లేషించడానికి ఒక రకమైన నిర్మాణం అవసరం.

అక్కడే రీడ్ ఆన్ స్కీమా అమలులోకి వస్తుంది. డేటా ఏ ఫార్మాట్‌లో ఉంది, డేటాను ఎక్కడ కనుగొనాలి (డేటా అనేక సర్వర్‌లలో చెల్లాచెదురుగా ఉందని గుర్తుంచుకోండి), మరియు డేటాకు ఏమి చేయాలి - సాధారణ పని కాదు. హడూప్ వ్యవస్థలో డేటాను మార్చటానికి వ్యాపార విశ్లేషకుడు, గణాంకవేత్త మరియు జావా ప్రోగ్రామర్ యొక్క నైపుణ్యాలు అవసరమని చెప్పబడింది. దురదృష్టవశాత్తు, ఆ అర్హతలు ఉన్నవారు చాలా మంది లేరు.

అందులో నివశించే తేనెటీగలు అంటే ఏమిటి?

హడూప్ విజయవంతం కావాలంటే, డేటాతో పనిచేయడం సరళీకృతం చేయాలి. కాబట్టి, ఓపెన్ సోర్స్ గుంపు పనిలోకి వచ్చింది మరియు అందులో నివశించే తేనెటీగలు సృష్టించింది:

    "హైవ్ ఈ డేటాపై నిర్మాణాన్ని ప్రొజెక్ట్ చేయడానికి మరియు హైవ్‌క్యూల్ అని పిలువబడే SQL లాంటి భాషను ఉపయోగించి డేటాను ప్రశ్నించడానికి ఒక యంత్రాంగాన్ని అందిస్తుంది. అదే సమయంలో ఈ భాష సాంప్రదాయ మ్యాప్‌ను / ప్రోగ్రామర్‌లను వారి కస్టమ్ మ్యాపర్‌లను మరియు తగ్గించేవారిని అసౌకర్యంగా ఉన్నప్పుడు ప్లగ్ చేయడానికి అనుమతిస్తుంది. HiveQL లో ఈ తర్కాన్ని వ్యక్తీకరించడానికి అసమర్థత. "

అందులో నివశించే తేనెటీగలు రెండు ప్రపంచాలలోని ఉత్తమమైన వాటిని ప్రారంభిస్తాయి: SQL ఆదేశాలతో సుపరిచితమైన డేటాబేస్ సిబ్బంది డేటాను మార్చగలరు మరియు రీడ్ ప్రాసెస్‌పై స్కీమా గురించి తెలిసిన డెవలపర్లు ఇప్పటికీ అనుకూలీకరించిన ప్రశ్నలను సృష్టించగలుగుతారు.

హడూప్ ఎలాంటి డేటాను విశ్లేషిస్తాడు?

వెబ్‌సైట్‌లను ఆప్టిమైజ్ చేయడానికి వెబ్ లాగ్‌లు మరియు వెబ్ ట్రాఫిక్‌ను విశ్లేషించడం, వెబ్ విశ్లేషణలు మొదట గుర్తుకు వస్తాయి. , ఉదాహరణకు, ఖచ్చితంగా వెబ్ అనలిటిక్స్లో ఉంటుంది, కంపెనీ సేకరించే డేటా యొక్క టెరాబైట్ల ద్వారా క్రమబద్ధీకరించడానికి హడూప్‌ను ఉపయోగిస్తుంది.

రిస్క్ అనాలిసిస్, మోసం గుర్తింపు మరియు కస్టమర్-బేస్ సెగ్మెంటేషన్ చేయడానికి కంపెనీలు హడూప్ క్లస్టర్‌లను ఉపయోగిస్తాయి. యుటిలిటీ కంపెనీలు తమ ఎలక్ట్రికల్ గ్రిడ్ నుండి సెన్సార్ డేటాను విశ్లేషించడానికి హడూప్‌ను ఉపయోగిస్తాయి, ఇవి విద్యుత్ ఉత్పత్తిని ఆప్టిమైజ్ చేయడానికి వీలు కల్పిస్తాయి. టార్గెట్, 3 ఎమ్ మరియు మెడ్‌ట్రానిక్స్ వంటి ప్రధాన కంపెనీలు ఉత్పత్తి పంపిణీ, వ్యాపార రిస్క్ అసెస్‌మెంట్స్ మరియు కస్టమర్-బేస్ సెగ్మెంటేషన్‌ను ఆప్టిమైజ్ చేయడానికి హడూప్‌ను ఉపయోగిస్తాయి.

విశ్వవిద్యాలయాలు హడూప్‌లో కూడా పెట్టుబడులు పెట్టాయి. సాఫ్ట్‌వేర్‌లోని సెయింట్ థామస్ గ్రాడ్యుయేట్ ప్రోగ్రామ్స్ విశ్వవిద్యాలయంలో అసోసియేట్ ప్రొఫెసర్ బ్రాడ్ రూబిన్, విశ్వవిద్యాలయంలోని పరిశోధనా బృందాలు సంకలనం చేసిన అధిక మొత్తంలో డేటాను క్రమబద్ధీకరించడానికి తన హడూప్ నైపుణ్యం సహాయపడుతుందని పేర్కొన్నారు.

హడూప్ యొక్క వాస్తవ ప్రపంచ ఉదాహరణను మీరు ఇవ్వగలరా?

బాగా తెలిసిన ఉదాహరణలలో ఒకటి టైమ్స్ మెషిన్. న్యూయార్క్ టైమ్స్ పూర్తి పేజీ వార్తాపత్రిక TIFF చిత్రాలు, అనుబంధ మెటాడేటా మరియు 1851 నుండి 1922 వరకు టెరాబైట్ల డేటాను కలిగి ఉంది. NYT యొక్క డెరెక్ గాట్ఫ్రిడ్, EC2 / S3 / హడూప్ వ్యవస్థ మరియు ప్రత్యేక కోడ్‌ను ఉపయోగించి ,:

    "405,000 చాలా పెద్ద TIFF చిత్రాలు, SGML లో 3.3 మిలియన్ వ్యాసాలు మరియు TIFF లలో దీర్ఘచతురస్రాకార ప్రాంతాలకు వ్యాసాలను మ్యాపింగ్ చేసే 405,000 xml ఫైల్స్. ఈ డేటాను మరింత వెబ్-స్నేహపూర్వక 810,000 PNG చిత్రాలు (సూక్ష్మచిత్రాలు మరియు పూర్తి చిత్రాలు) మరియు 405,000 జావాస్క్రిప్ట్ ఫైల్‌లుగా మార్చారు. "

అమెజాన్ వెబ్ సర్వీసెస్ క్లౌడ్‌లోని సర్వర్‌లను ఉపయోగించి, టైమ్స్ మెషిన్‌కు అవసరమైన మొత్తం డేటాను వారు 36 గంటలలోపు ప్రాసెస్ చేయగలరని గాట్ఫ్రిడ్ పేర్కొన్నారు.

హడూప్ ఇప్పటికే వాడుకలో లేక మార్ఫింగ్ చేస్తున్నారా?

హడూప్ ఇప్పుడు ఒక దశాబ్దం పాటు ఉంది. దాని వాడుకలో లేనిది చాలా ఉంది. ఒక నిపుణుడు, డాక్టర్ డేవిడ్ రికో, "ఐటి ఉత్పత్తులు స్వల్పకాలికం. కుక్క సంవత్సరాల్లో, గూగల్స్ ఉత్పత్తులు 70, హడూప్ 56 ఉన్నాయి."

రికో చెప్పినదానికి కొంత నిజం ఉండవచ్చు. హడూప్ ఒక పెద్ద సమగ్రత ద్వారా వెళుతున్నట్లు కనిపిస్తోంది. దాని గురించి మరింత తెలుసుకోవడానికి, రూబిన్ నన్ను ట్విన్ సిటీస్ హడూప్ యూజర్ గ్రూప్ సమావేశానికి ఆహ్వానించాడు మరియు చర్చా అంశం పరిచయం పరిచయం YARN:

    "అపాచీ హడూప్ 2 కొత్త మ్యాప్‌రెడ్యూస్ ఇంజిన్‌ను కలిగి ఉంది, ఇది మునుపటి అమలు కంటే మెరుగైన స్కేలబిలిటీ మరియు వనరుల వినియోగంతో సహా అనేక ప్రయోజనాలను కలిగి ఉంది. కొత్త అమలు YARN అని పిలువబడే పంపిణీ అనువర్తనాలను అమలు చేయడానికి సాధారణ వనరుల నిర్వహణ వ్యవస్థపై నిర్మించబడింది."
హడూప్ డేటాబేస్ మరియు కంటెంట్ మేనేజ్‌మెంట్ సర్కిల్‌లలో చాలా సంచలనం పొందుతుంది, అయితే దాని చుట్టూ ఇంకా చాలా ప్రశ్నలు ఉన్నాయి మరియు దీన్ని ఎలా ఉత్తమంగా ఉపయోగించవచ్చు. ఇవి కొన్ని మాత్రమే. మీకు ఎక్కువ ఉంటే, వాటిని మా మార్గం. Techopedia.com లో ఉత్తమమైన వాటికి సమాధానం ఇవ్వండి.