నాణ్యతకు కీ బిగ్ డేటా అనలిటిక్స్: భిన్నమైన అవగాహన - టెక్వైజ్ ఎపిసోడ్ 4 ట్రాన్స్క్రిప్ట్

రచయిత: Roger Morrison
సృష్టి తేదీ: 17 సెప్టెంబర్ 2021
నవీకరణ తేదీ: 21 జూన్ 2024
Anonim
ది న్యూరోసైన్స్ ఆఫ్ ఆప్టిమల్ పెర్ఫార్మెన్స్: డా. ఆండ్రూ హుబెర్మాన్ | రిచ్ రోల్ పోడ్‌కాస్ట్
వీడియో: ది న్యూరోసైన్స్ ఆఫ్ ఆప్టిమల్ పెర్ఫార్మెన్స్: డా. ఆండ్రూ హుబెర్మాన్ | రిచ్ రోల్ పోడ్‌కాస్ట్

విషయము


మూలం: జాకుబ్ జిర్సాక్ / డ్రీమ్‌స్టైమ్.కామ్

Takeaway:

హోస్ట్ ఎరిక్ కవనాగ్ పరిశ్రమ నిపుణులతో పెద్ద డేటా విశ్లేషణలను చర్చిస్తారు.

ఎరిక్: లేడీస్ అండ్ జెంటిల్మెన్, ఇది 2014 సంవత్సరం ముగింపు - కనీసం, దాదాపు. ఇది సంవత్సరంలో మా చివరి వెబ్‌కాస్ట్, చేసారో! టెక్‌వైస్‌కు స్వాగతం! అవును నిజమే! నా పేరు ఎరిక్ కవనాగ్. అద్భుతమైన వెబ్‌కాస్ట్ కోసం నేను మీ మోడరేటర్‌గా ఉంటాను. నేను నిజంగా సంతోషిస్తున్నాను. మాకు ఆన్‌లైన్‌లో రెండు అద్భుతమైన విశ్లేషకులు ఉన్నారు, మరియు రెండు గొప్ప కంపెనీలు - ఈ మొత్తం పెద్ద డేటా పర్యావరణ వ్యవస్థలో నిజమైన ఆవిష్కర్తలు. మరియు మేము పెద్ద డేటా విశ్లేషణల యొక్క కీ గురించి మాట్లాడబోతున్నాం. కాబట్టి, ముందుకు సాగండి, చేసారో.


మాకు చాలా మంది సమర్పకులు ఉన్నారు. మీరు చూడగలిగినట్లుగా, మీది నిజంగా అగ్రస్థానంలో ఉంది. మైక్ ఫెర్గూసన్ UK నుండి అన్ని విధాలుగా పిలుస్తున్నాడు, అక్కడ అతను ఈ కార్యాలయంలో తన కార్యాలయ భవనంలో ఉండటానికి ప్రత్యేక అధికారాలను పొందవలసి వచ్చింది. అది అతనికి ఎంత ఆలస్యం. మాకు బ్లూర్ గ్రూపులో మా స్వంత చీఫ్ అనలిస్ట్ డాక్టర్ రాబిన్ బ్లూర్ ఉన్నారు. మరియు మాకు రెడ్‌పాయింట్ గ్లోబల్ యొక్క CEO మరియు సహ వ్యవస్థాపకుడు జార్జ్ కొరుగెడో మరియు SAS ఇన్స్టిట్యూట్ నుండి సీనియర్ సొల్యూషన్స్ ఆర్కిటెక్ట్ కీత్ రెనిసన్ ఉన్నారు. ఇవి అద్భుతమైన కంపెనీలు, చేసారో. ఇవి నిజంగా వినూత్నమైన సంస్థలు. పెద్ద డేటా మొత్తం ప్రపంచంలో ప్రస్తుతం ఏమి జరుగుతుందో దాని గురించి కొన్ని మంచి విషయాలను మేము తెలుసుకోబోతున్నాము. దాన్ని ఎదుర్కొందాం, చిన్న డేటా పోలేదు. దానికి, నా ఎగ్జిక్యూటివ్ సారాంశాన్ని ఇక్కడ ఇస్తాను.



కాబట్టి, పాత ఫ్రెంచ్ వ్యక్తీకరణ ఉంది: "ఎక్కువ విషయాలు మారిపోతాయి, అవి అలాగే ఉంటాయి." ఇక్కడ కొన్ని వాస్తవాలను ఎదుర్కొందాం ​​- పెద్ద డేటా చిన్న డేటా సమస్యలను పరిష్కరించదు. కార్పొరేట్ చిన్న డేటా ఇప్పటికీ లేదు. ఇది ఇప్పటికీ ప్రతిచోటా ఉంది. ఇది నేటి సమాచార ఆర్థిక వ్యవస్థకు కార్యకలాపాల ఇంధనం. మరియు పెద్ద డేటా ఈ చిన్న కార్పొరేట్ డేటా అని పిలవబడే అభినందనను అందిస్తుంది, కానీ ఇది చిన్న డేటాను భర్తీ చేయదు. ఇది ఇప్పటికీ చుట్టూ ఉంది. నేను పెద్ద డేటా గురించి చాలా విషయాలు ఇష్టపడుతున్నాను, ముఖ్యంగా మెషిన్-జనరేటెడ్ డేటా వంటి అంశాలు.


ఈ రోజు, మేము బహుశా సోషల్ మీడియా డేటా గురించి కొంచెం మాట్లాడుతాము, ఇది చాలా శక్తివంతమైన విషయం కూడా. మరియు మీరు సామాజికంగా వ్యాపారాన్ని ఎలా మార్చారో గురించి ఆలోచిస్తే, ఇక్కడ మూడు శీఘ్ర వెబ్‌సైట్ల గురించి ఆలోచించండి :, లింక్డ్ఇన్ మరియు. ఐదేళ్ల క్రితం ఎవరూ ఆ రకమైన పనులు చేయలేదనే వాస్తవం గురించి ఆలోచించండి. ఈ రోజుల్లో ఒక సంపూర్ణ జగ్గర్నాట్. , వాస్తవానికి, భారీగా ఉంది. ఇది అద్భుతమైనది. ఆపై, కార్పొరేట్ నెట్‌వర్కింగ్ మరియు కమ్యూనికేషన్ కోసం లింక్డ్ఇన్ వాస్తవిక ప్రమాణం. ఈ సైట్‌లు చాలా పెద్దవి, మరియు వాటిలో ఉన్న డేటాను ప్రభావితం చేయగలిగేలా, ఇది ఆట మారుతున్న కొన్ని కార్యాచరణను పునరుద్ధరించబోతోంది. ఇది నిజంగా చాలా సంస్థలకు చాలా మంచి చేయబోతోంది - కనీసం దాని ప్రయోజనాన్ని పొందే సంస్థలు.



బగ్స్ లేవు, ఒత్తిడి లేదు - మీ జీవితాన్ని నాశనం చేయకుండా జీవితాన్ని మార్చే సాఫ్ట్‌వేర్‌ను రూపొందించడానికి స్టెప్ గైడ్ ద్వారా మీ దశ

సాఫ్ట్‌వేర్ నాణ్యత గురించి ఎవరూ పట్టించుకోనప్పుడు మీరు మీ ప్రోగ్రామింగ్ నైపుణ్యాలను మెరుగుపరచలేరు.

కాబట్టి, పాలన - పాలన ఇంకా ముఖ్యమైనది. మళ్ళీ, పెద్ద డేటా పాలన యొక్క అవసరాన్ని రద్దు చేయదు. చాలా స్పష్టంగా, పెద్ద డేటా ప్రపంచాన్ని ఎలా పరిపాలించాలనే దానిపై దృష్టి పెట్టవలసిన సరికొత్త అవసరం ఉంది. మీ విధానాలు మరియు విధానాలు మీకు ఉన్నాయని ఎలా నిర్ధారించుకోవాలి; సరైన వ్యక్తులు సరైన డేటాకు ప్రాప్యత పొందుతున్నారని; మీకు పరిచయాలు వచ్చాయని, మీరు ఇక్కడ వంశపారంపర్యంగా పాల్గొన్నారా? డేటా ఎక్కడ నుండి వచ్చిందో, దానికి ఏమి జరిగిందో మీకు నిజంగా తెలుసు. మరియు ఇవన్నీ మారుతున్నాయి.


హడూప్ పర్యావరణ వ్యవస్థను ప్రభావితం చేసే ఈ సరికొత్త ప్రపంచంలో నేను చూసిన వాటిలో కొన్నింటిని నేను నిజంగా ఆకట్టుకున్నాను, ఇది కార్యాచరణ పరంగా నిల్వ కంటే చాలా ఎక్కువ. హడూప్ ఒక గణన ఇంజిన్. మరియు ఆ గణన శక్తిని, సమాంతర ప్రాసెసింగ్ సామర్థ్యాన్ని ఎలా ఉపయోగించాలో కంపెనీ గుర్తించాలి. వారు నిజంగా మంచి పనులను చేయబోతున్నారు. మేము ఈ రోజు దాని గురించి తెలుసుకుంటాము.


ప్రస్తావించాల్సిన మరో విషయం ఏమిటంటే, ఈ మధ్య కాలంలో డాక్టర్ బ్లూర్ మాట్లాడిన విషయం ఏమిటంటే, ఇన్నోవేషన్ వేవ్ ముగియలేదు. కాబట్టి, హడూప్ చుట్టూ మేము చాలా శ్రద్ధ చూశాము. క్లౌడెరా మరియు హోర్టన్‌వర్క్స్ వంటి సంస్థలను మేము చూశాము, మీకు తెలుసా, నిజంగా కొన్ని తరంగాలు. మరియు వారు ఈ రోజు కాల్‌లో ఉన్న సంస్థలతో చాలా స్పష్టంగా భాగస్వామ్యాన్ని అభివృద్ధి చేస్తున్నారు. మరియు వారు చాలా మందితో భాగస్వామ్యాన్ని అభివృద్ధి చేస్తున్నారు. కానీ ఇన్నోవేషన్ వేవ్ ముగియలేదు. అపాచీ ఫౌండేషన్ నుండి మరిన్ని ప్రాజెక్టులు ఉన్నాయి, అవి ముగింపు బిందువుగా మాత్రమే కాకుండా, మీరు కోరుకుంటే - ప్రజలు ఉపయోగించే అనువర్తనాలు - కానీ మౌలిక సదుపాయాలు కూడా మారుతున్నాయి.


కాబట్టి, YARN యొక్క ఈ మొత్తం అభివృద్ధి - మరొక వనరు సంధానకర్త - నిజంగా పెద్ద డేటా కోసం ఆపరేటింగ్ సిస్టమ్ లాంటిది. మరియు ఇది చాలా పెద్ద విషయం. కాబట్టి, ఇది విషయాలను ఎలా మారుస్తుందో మేము తెలుసుకోబోతున్నాము. కాబట్టి, ఇక్కడ కేవలం రెండు బిట్స్ స్పష్టమైన సలహాలు ఇవ్వండి, దీర్ఘ ఒప్పందాలు ముందుకు సాగడం గురించి జాగ్రత్తగా ఉండండి, మీకు తెలుసా, ఐదు-, పదేళ్ల ఒప్పందాలు వేవ్ అవుతాయి, నాకు అనిపించే మార్గం. మీరు అన్ని ఖర్చులు లాక్-ఇన్ చేయకుండా ఉండాలని కోరుకుంటారు. మేము ఈ రోజు దాని గురించి తెలుసుకోబోతున్నాము.


కాబట్టి, ఈ రోజు మా మొదటి విశ్లేషకుడు మాట్లాడుతూ - మొత్తం ప్రోగ్రాం యొక్క మా మొదటి స్పీకర్ మైక్ ఫెర్గూసన్, UK నుండి పిలుస్తున్నారు. దానితో, నేను మీకు కీలు, మైక్ ఇవ్వబోతున్నాను మరియు దాన్ని తీసివేయనివ్వండి. మైక్ ఫెర్గూసన్, నేల మీదే.


మైక్, మీరు అక్కడ ఉన్నారా? మీరు మ్యూట్ చేయవచ్చు. నేను అతని మాట వినను. మేము అతన్ని తిరిగి పిలవవలసి ఉంటుంది. మరియు మేము రాబిన్ బ్లూర్ యొక్క స్లైడ్‌ల వరకు వెళ్తాము. రాబిన్, నేను ఇక్కడ పేద మైక్ ఫెర్గూసన్‌పై ర్యాంకును పొందబోతున్నాను. నేను ఒక్క సెకనుకు వెళ్తున్నాను.


అది మీరు, మైక్? మీరు మాకు వినగలరా? Nah. మనం మొదట రాబిన్‌తో కలిసి వెళ్లాల్సి ఉంటుందని నేను భావిస్తున్నాను. కాబట్టి, ఒక సెకను పట్టుకోండి. నేను స్లైడ్‌లకు కొన్ని లింక్‌లను కొన్ని నిమిషాల్లో లాగుతాను. కాబట్టి దానితో, కీలను రాబిన్ బ్లూర్‌కు అప్పగించనివ్వండి. రాబిన్, మీరు మైక్‌కు బదులుగా మొదట వెళ్ళవచ్చు మరియు నేను సెకనులో మైక్‌ను పిలుస్తాను.


రాబిన్: సరే.


ఎరిక్: పట్టుకోండి, రాబ్. నేను ముందుకు వెళ్లి మీ స్లైడ్‌ను ఇక్కడకు తీసుకుందాం, రాబ్. ఇది సెకను పడుతుంది.


రాబిన్: సరే.


ఎరిక్: అవును. మేము ఇక్కడ వ్యవహరిస్తున్న దాని గురించి మీరు పరిపాలన పరంగా మాట్లాడవచ్చు. మీరు పాలన గురించి మాట్లాడబోతున్నారని నాకు తెలుసు. ఇది సాధారణంగా చిన్న కార్పొరేట్ డేటా గురించి ఆలోచించబడుతుంది. కాబట్టి ఇప్పుడు, నేను రాబిన్, స్లైడ్ చేసాను. దేనినీ తరలించవద్దు. మరియు ఇక్కడ మీరు వెళ్ళండి. నేల మీదే. దాన్ని తీసివేయండి.


రాబిన్: సరే. అవును. నా ఉద్దేశ్యం, బాగా, మేము ముందుగానే ఏర్పాటు చేసాము, మైక్ విశ్లేషణాత్మక వైపు గురించి మాట్లాడుతాను మరియు నేను పాలన వైపు మాట్లాడతాను. కొంతవరకు, పాలన విశ్లేషణలను అనుసరిస్తుంది, ఇది మీరు పెద్ద డేటా అంశాలను చేస్తున్నందుకు ఒక కారణం, మరియు విశ్లేషణలను చేయడానికి మీరు అన్ని సాఫ్ట్‌వేర్‌లను సమీకరించటానికి కారణం, అక్కడ విలువ ఉంది.


సమస్య ఉంది. మరియు సమస్య ఏమిటంటే, మీకు తెలుసా, డేటా గొడవపడాలి. డేటాను మార్షల్ చేయాలి. డేటాను పూర్తి విశ్వాసంతో జరగడానికి వీలు కల్పించే విధంగా డేటాను ఒకచోట చేర్చి నిర్వహించాలి - నేను, హిస్తున్నాను, ఈ పదం. కాబట్టి, నేను ఈక్వేషన్ యొక్క పాలన వైపు మాట్లాడతాను అని అనుకున్నాను. నేను, హిస్తున్నాను, చెప్పవలసిన విషయం, నిజంగా, మీకు తెలుసా, పాలన ఇప్పటికే ఒక సమస్య. పాలన ఇప్పటికే ఒక సమస్య, మరియు ఇది మొత్తం డేటా గిడ్డంగి ఆటలో ఒక సమస్యగా మారింది.


వాస్తవానికి ఏమి జరిగిందంటే అది చాలా పెద్ద సమస్యగా మారింది. మరియు అది చాలా పెద్ద సమస్యగా మరియు ఎక్కువ డేటాగా మారడానికి కారణం, కానీ నా ఉద్దేశ్యం, ఇవి నిజంగానే కారణాలు. డేటా వనరుల సంఖ్య ఒక్కసారిగా విస్తరించింది. ఇంతకుముందు, మన వద్ద ఉన్న డేటా వనరులు డేటా గిడ్డంగికి ఏమైనా తినిపించడం ద్వారా పెద్దగా నిర్వచించబడ్డాయి. డేటా గిడ్డంగిని సాధారణంగా RTP వ్యవస్థలు తింటాయి. ఇది కొంచెం బాహ్య డేటా సాధ్యమే, ఎక్కువ కాదు.


ఇప్పుడు, మేము ఒక ప్రపంచానికి వెళ్ళాము, మీకు తెలిసిన, డేటా మార్కెట్ ప్రస్తుతం ఉనికిలోకి వస్తోంది, అందువల్ల, డేటాలో వ్యాపారం ఉంటుంది. మీరు ఇప్పటికే సంస్థకు తీసుకురాగల వివిధ స్ట్రీమింగ్ డేటా వనరులను లోడ్లు మరియు లోడ్లు పొందారు. మాకు సోషల్ మీడియా డేటా వచ్చింది, వాటిని తీసుకొని, దాని స్వంత ఖాతాలో తీసివేసి, మాట్లాడటానికి. నా ఉద్దేశ్యం, చాలా భయంకరమైనది, సోషల్ మీడియా సైట్లలోని విలువ వాస్తవానికి అవి సమగ్రమైన సమాచారం మరియు అందువల్ల ప్రజలకు అందుబాటులో ఉంటుంది.


అవి ఇప్పటికే ఉనికిలో ఉన్నట్లు మీకు తెలుసు. స్ప్లంక్ రాకతో మీకు ఇప్పటికే ఆ లాగ్ ఫైళ్లు ఉన్నాయి. త్వరలో, లాగ్ ఫైల్‌లో విలువ ఉందని స్పష్టమైంది. కాబట్టి, సంస్థలో డేటా ఉంది - వీటిని మేము కొత్త డేటా వనరులను అలాగే బాహ్య వనరులను పిలుస్తాము. కాబట్టి, ఇది ఒక విషయం. మరియు ఇది నిజంగా అర్థం, మనకు ముందు ఉన్న డేటా నిర్వహణ యొక్క ఏ నియమాలు అయినా, అవి ఒక విధంగా లేదా మరొక విధంగా విస్తరించబడాలి మరియు వాస్తవానికి పరిపాలించడానికి విస్తరించాల్సిన అవసరం ఉంటుంది. సమాచారం. కానీ మేము ఇప్పుడు ఒక విధంగా లేదా మరొక విధంగా సమీకరించటం ప్రారంభించాము.


మరియు ఈ జాబితాలోకి వెళితే మనకు స్ట్రీమింగ్ మరియు డేటా రాక వేగం ఉన్నాయి. హడూప్ యొక్క ప్రజాదరణకు కారణాలలో ఒకటి, ఇది చాలా డేటాను పట్టుకోవటానికి చాలా చక్కని ఉపయోగపడుతుంది. ఇది డేటా వేగాన్ని కూడా తీసుకోవచ్చు, మీరు దీన్ని వెంటనే ఉపయోగించాల్సిన అవసరం లేకపోతే, ఇది మంచి సమాంతర, భారీ సమాంతర వాతావరణం. కానీ ఇప్పుడు స్ట్రీమింగ్ అనలిటిక్స్ సరసమైన మొత్తంలో జరుగుతుందనే వాస్తవం మీకు వచ్చింది. ఇది స్ట్రీమింగ్ అనువర్తనాలపై ఆసక్తి ఉన్న బ్యాంకింగ్ రంగాలుగా ఉండేది, కానీ ఇప్పుడు అది ప్రపంచవ్యాప్తంగా ఉంది. మరియు ప్రతిఒక్కరూ స్ట్రీమింగ్ అనువర్తనాలను ఒక విధంగా లేదా మరొక విధంగా చూస్తున్నారు, డేటా నుండి విలువను పొందటానికి మరియు సంస్థ కోసం విశ్లేషణలు చేయడానికి సంభావ్య సాధనం.


మాకు నిర్మాణాత్మక డేటా వచ్చింది. గణాంకం, సాధారణంగా ప్రపంచంలోని డేటాలో 10% మాత్రమే రిలేషనల్ డేటాబేస్లలో ఉంది. ఇప్పుడు, దీనికి ప్రధాన కారణాలలో ఒకటి వాస్తవానికి ఇది నిర్మాణాత్మకంగా లేదు, మరియు అది - వెబ్‌లో దానిలో మంచి ఒప్పందం ఉంది, కానీ వివిధ వెబ్‌సైట్ల గురించి చాలా చక్కగా ఉంది. ఆ డేటా కూడా విశ్లేషించదగినది, ఉపయోగపడేది అని నిరూపించబడింది. మరియు క్రమంగా పరిస్థితిలోకి ప్రవేశిస్తున్న సిమాంటెక్ సాంకేతిక పరిజ్ఞానం రావడంతో, మరింత ఎక్కువ అవుతోంది.కాబట్టి, నిర్మాణాత్మకమైన డేటాను వాస్తవానికి సేకరించి నిర్వహించాల్సిన అవసరం ఉంది మరియు దీని అర్థం ఇది మునుపటి కంటే చాలా గొప్పది. నేను ఇప్పటికే పేర్కొన్న ఒక సామాజిక డేటా మాకు లభించింది, కాని దాని గురించి, దాని గురించి ప్రధాన విషయం, దీనికి శుభ్రపరచడం అవసరం.


మాకు ఇంటర్నెట్ ఆఫ్ థింగ్స్ డేటా వచ్చింది. ఇది ఒక రకమైన పరిస్థితి. చాలా ఎక్కువ ఉండే అవకాశం ఉంది, కానీ చాలా వరకు అది నడుస్తున్న ప్రదేశానికి సమీపంలో ఎక్కడో పంపిణీ చేయవలసి ఉంటుంది. కానీ మీరు కూడా ఒక విధంగా లేదా మరొక విధంగా, డేటాపై సంస్థలోని విశ్లేషణలను చేయడానికి దాన్ని లాగండి. కాబట్టి, ఇది మరో కారకాన్ని జోడించింది. మరియు ఆ డేటా వేరే విధంగా నిర్మించబడుతుంది, ఎందుకంటే ఇది బహుశా అవుతుంది - ఇది బహుశా JSON లో లేదా XML లో ఫార్మాట్ చేయబడుతుంది, తద్వారా అది స్వయంగా ప్రకటిస్తుంది. మరియు ఒక విధంగా లేదా మరొక విధంగా, మేము వాస్తవానికి డేటాను లాగుతున్నాము మరియు ఆ నిర్దిష్ట డేటాను చదివినప్పుడు స్కీమాను చేయగలుగుతాము.


మాకు రుజువు సమస్య వచ్చింది మరియు ఇది విశ్లేషణల సమస్య. మీరు డేటా చేస్తున్న ఏ విశ్లేషణలోనైనా ఫలితాలు నిజంగా ఉండకూడదు - మీకు నచ్చితే - ఆమోదించబడితే, చెల్లుబాటు అయ్యేదిగా తీసుకోబడుతుంది, మీకు డేటా నిరూపణ తెలియకపోతే. నా ఉద్దేశ్యం, ఇది డేటా శాస్త్రవేత్తల కార్యాచరణ పరంగా కేవలం వృత్తి నైపుణ్యం. కానీ మీకు తెలుసా, డేటా నిరూపణ కలిగి ఉండటానికి, అంటే మనం వాస్తవానికి డేటాను పరిపాలించాలి మరియు దాని వంశానికి ఒక గమనికను ఉంచాలి.


మాకు కంప్యూటర్ శక్తి మరియు సమాంతరాల సమస్య ఉంది మరియు అన్నింటికీ వేగంగా వెళ్లేలా చేస్తుంది. సమస్య ఏమిటంటే, మనకు లభించిన కొన్ని ప్రక్రియలు మిగతా వాటికి చాలా నెమ్మదిగా ఉండవచ్చు. కాబట్టి, వేగం విషయంలో అసమతుల్యత ఉండవచ్చు.


మాకు యంత్ర అభ్యాసం వచ్చింది. యంత్ర అభ్యాసం విశ్లేషణలను మునుపటి కంటే భిన్నమైన ఆటగా మార్చడం యొక్క ప్రభావాన్ని కలిగి ఉంది. మీకు శక్తి ఉంటేనే మీరు దీన్ని నిజంగా ఉపయోగించగలరు.


క్రొత్త విశ్లేషణాత్మక పనిభారం యొక్క వాస్తవాన్ని మేము పొందాము. మాకు సమాంతర ప్రపంచం ఉంది మరియు గరిష్ట ప్రభావం కోసం కొన్ని విశ్లేషణాత్మక అల్గోరిథంలు సమాంతరంగా అమలు చేయాలి. అందువల్ల సమస్య వాస్తవానికి మీరు ఒక విధంగా లేదా మరొక విధంగా డేటాను చుట్టూ నెట్టడం, అవి అందుబాటులో ఉంటే డేటాను ఎలా తయారు చేయాలో నియంత్రిస్తాయి. మరియు మీరు నిజంగా విశ్లేషణాత్మక పనిభారాన్ని ఎక్కడ అమలు చేస్తారు, ఎందుకంటే మీరు డేటాబేస్లోనే దీన్ని చేస్తున్నారు. కాబట్టి, మీరు దీన్ని విశ్లేషణాత్మక అనువర్తనాల్లోనే చేస్తున్నారు.


కాబట్టి, మొత్తం పాలన సవాళ్లు ఉన్నాయి. మేము ఈ సంవత్సరం ఏమి చేసాము - ఈ సంవత్సరం మేము చేసిన పరిశోధన నిజంగా పెద్ద డేటా ఆర్కిటెక్చర్ చుట్టూ ఉంది. మరియు మేము దానిని సాధారణీకరించడానికి ప్రయత్నించినప్పుడు, మేము వచ్చిన ముగింపు - మేము ముందుకు వచ్చిన రేఖాచిత్రం ఇలా ఉంది.


నేను దీనిలోకి వెళ్ళడం లేదు, ముఖ్యంగా మైక్ విశ్లేషణల కోసం డేటా ఆర్కిటెక్చర్‌పై సరసమైన మొత్తాన్ని చేయబోతోంది. కానీ ప్రజలు దృష్టి పెట్టాలని నేను నిజంగా ఇష్టపడుతున్నాను, మనం ఉన్న ఈ దిగువ ప్రాంతం, ఒక విధంగా లేదా మరొక విధంగా, డేటాను సమీకరించడం. డేటా రిఫైనరీ లేదా డేటా ప్రాసెసింగ్ హబ్ అని నేను సూచించాలనుకుంటున్నాను. అక్కడే పాలన జరుగుతుంది. కాబట్టి, మీకు తెలుసా, మేము ఒక రకమైన దృష్టి పెడితే, అది అలా కనిపిస్తుంది. మీకు తెలుసా, ఇది అంతర్గత మరియు బాహ్య మూలాల నుండి డేటా ద్వారా అందించబడుతుంది. హబ్, సిద్ధాంతపరంగా, ఉత్పత్తి అవుతున్న మొత్తం డేటాను తీసుకోవాలి. మీరు విశ్లేషణలు మరియు స్ట్రీమింగ్ డేటాను చేయవలసి వస్తే అది ప్రసారం చేయబడినట్లుగా నిర్వహించబడాలి మరియు ఆపై హబ్‌కు పంపబడుతుంది. లేదంటే, ఇదంతా హబ్‌లోకి వస్తుంది. మరియు హబ్‌లో జరుగుతున్న అనేక విషయాలు ఉన్నాయి. మరియు మీరు హబ్‌లో కొంత మొత్తంలో విశ్లేషణలు మరియు SQL జరగలేరు. డేటాను ఇతర ప్రాంతాలకు నెట్టడానికి ప్రతి సెల్‌లో డేటా వర్చువలైజేషన్ అవసరం కూడా మీకు ఉంది. ఏదైనా జరగడానికి ముందు, డేటా తయారీని మెరుగుపరచడానికి మీకు ఒక విధంగా లేదా మరొక విధంగా అవసరం. మీరు దీన్ని డేటా తయారీ అని పిలుస్తారు. ఇది దాని కంటే చాలా పెద్దది. ఇవి ఇందులో ఉన్నాయని నేను భావిస్తున్నాను.


మనకు సిస్టమ్ మేనేజ్‌మెంట్ మరియు సేవా నిర్వహణ ఉంది, ఒక విధంగా, ఇది డేటా లేయర్ యొక్క ప్రధాన భాగం, అప్పుడు మేము సాంప్రదాయకంగా అన్ని కార్యాచరణ వ్యవస్థలకు సాంప్రదాయకంగా చేసిన కార్యాచరణ సిస్టమ్ నిర్వహణ ప్రయత్నాన్ని నిర్వహించే అన్ని వ్యవస్థలను వర్తింపజేయాలి. కానీ ఈ వివిధ సేవా స్థాయిలు నెరవేరుతున్నాయో లేదో చూసుకోవటానికి ఇతర విషయాలను పర్యవేక్షించడం కూడా మాకు అవసరం, ఎందుకంటే సేవా స్థాయిలు లేదా ఏ విధమైన విశ్లేషణలు అయినా చర్య తీసుకోవలసిన అవసరం ఉంది, లేదా BI డేటా చర్య తీసుకుంటున్నారు.


మాకు పనితీరు పర్యవేక్షణ మరియు నిర్వహణ అవసరం. మరేదైనా ఉంటే, మనకు వివిధ కంప్యూటర్ వనరులను సమయానికి వివిధ సమయాల్లో కేటాయించాల్సిన అవసరం ఉందని తెలుసుకోవడానికి ఇది అవసరం. కానీ, పనిభారం చాలా భయంకరంగా ఉంది, వాస్తవానికి చాలా క్లిష్టంగా మరియు వనరుల కోసం ఒకదానితో ఒకటి పోటీ పడుతోంది. ఆ ప్రాంతంలో చేయవలసిన చాలా అధునాతనమైనది ఉంది.


మునుపెన్నడూ లేని విధంగా ఇప్పుడు మనకు డేటా జీవిత చక్రం వచ్చింది. ఇక్కడ ఉన్న ఒప్పందం నిజంగా మరేదైనా పైన మరియు మించినది, మేము డేటాను సేకరించి ముందు విసిరివేయలేదు. మేము అవసరమైన డేటాను సేకరించి, దానిని ఉంచాము, ఆపై మేము దానిని ఆర్కైవ్ చేస్తాము. కానీ మనం ఇక్కడ నుండి ఏమి చేయబోతున్నామో అనే భయం చాలా ఉంది. మీకు డేటా వద్దు, దాన్ని పాతిపెట్టండి. కాబట్టి, డేటా జీవిత చక్రాలు పరిస్థితిని బట్టి భిన్నమైనవి, కానీ డేటా యొక్క చాలా ఎక్కువ అగ్రిగేషన్ కూడా అవుతుంది. అందువల్ల, మీకు తెలుసా, మొత్తం ఎక్కడ నుండి వచ్చిందో తెలుసుకోవడం… అగ్రిగేషన్ యొక్క మూలం ఏమిటి, మరియు మొదలగునవి. ఇవన్నీ అవసరం.


డేటా వంశం సహజంగానే ఇస్తుంది. అది లేకుండా, మీరు సమస్యలను తెలుసుకోవాలి, కాబట్టి డేటా… డేటా చెల్లుబాటు అయ్యేదని మేము తెలుసుకోవాలి, కానీ వాస్తవానికి ఇది ఎంత నమ్మదగినదో.


మాకు డేటా మ్యాపింగ్ కూడా వచ్చింది, ఎందుకంటే చాలా డేటా వాస్తవానికి ఒక విధంగా లేదా మరొక విధంగా ఉంటుంది. మరియు ఇది మీకు నచ్చితే, ఇది MDM వద్ద కొంతవరకు సంబంధించినది. ఇది ఇప్పుడు చాలా క్లిష్టంగా ఉంది, ఎందుకంటే మీరు JSON చేత నిర్వచించబడిన చాలా డేటాను పొందినప్పుడు లేదా మా XML స్కీమా ఆధారంగా చదివినప్పుడు, అప్పుడు మీరు ఒక విధంగా లేదా మరొక విధంగా చాలా చురుకుగా ఉండాలి డేటా మ్యాపింగ్ కార్యాచరణ జరుగుతోంది.


MDM కన్నా ఎక్కువ మెటాడేటా నిర్వహణ పరిస్థితి ఉంది, ఎందుకంటే మీకు ఆసక్తి ఉన్న ప్రతిదానికీ ఒక రకమైన మెటాడేటా గిడ్డంగిగా నేను ఇప్పుడు ఆలోచించదలిచినదాన్ని నిర్మించటానికి ఒక విధంగా లేదా మరొక విధంగా అవసరం ఉంది. మెటాడేటా ఉంది ఆవిష్కరణ, ఎందుకంటే కొన్ని డేటా తప్పనిసరిగా దాని మెటాడేటాను ప్రకటించదు మరియు మేము దానిని వెంటనే ఉపయోగించాలనుకుంటున్నాము. ఆపై, డేటా ప్రక్షాళన ఉంది, ఇది అక్కడ ఒకరు చేయగలిగే పనుల శ్రేణి. డేటా భద్రత కూడా ఉంది. ఈ డేటా అంతా ఆమోదయోగ్యమైన స్థాయికి భద్రపరచబడాలి మరియు ఇది కొన్ని సందర్భాల్లో కూడా అర్ధం కావచ్చు - ఉదాహరణకు, చాలా విలువలను గుప్తీకరించడం.


కాబట్టి, ఈ పనిభారం అంతా వాస్తవానికి పాలన సామ్రాజ్యం. ఇవన్నీ, ఒక విధంగా లేదా మరొక విధంగా, మన విశ్లేషణాత్మక కార్యకలాపాలన్నీ ఒకే సమయంలో లేదా ముందు జరగాలి. ఇది పెద్ద సంఖ్యలో సమన్వయ అనువర్తనాలు. ఇది ఒక వ్యవస్థ. ఆపై, వివిధ సమయాల్లో దీన్ని చేయని వారు ముందుకు వెళ్ళేటప్పుడు దాని లోపంతో బాధపడతారు, ఎందుకంటే వీటిలో చాలా విషయాలు నిజంగా ఐచ్ఛికం కాదు. మీరు వాటిని చేయకపోతే మీరు ఎంట్రోపీని పెంచుతారు.


కాబట్టి, డేటా అనలిటిక్స్ మరియు పాలన పరంగా, నేను చెప్పే విషయం ఏమిటంటే, నిజంగా, ఒక చేతిని మరొకటి కడుగుతుంది. పాలన లేకుండా, విశ్లేషణలు మరియు BI సమయానికి తడబడవు. మరియు విశ్లేషణలు మరియు BI లేకుండా, ఏమైనప్పటికీ డేటాను నియంత్రించాల్సిన అవసరం ఉండదు. కాబట్టి, రెండు విషయాలు నిజంగా చేతితో నడుస్తాయి. మధ్యప్రాచ్యంలో వారు చెప్పినట్లు, "ఒక చేయి మరొక చేతిని కడుగుతుంది." వాస్తవానికి నేను చెప్పేది అంతే. నేను ఆశిస్తున్నాను - ఆశాజనక, మేము ఇప్పుడు మైక్ను తిరిగి పొందాము.


ఎరిక్: మేము చేస్తాము. మైక్, మీరు అక్కడ ఉన్నారని నేను అనుకుంటాను. నేను మీ స్లైడ్‌ను పైకి నెట్టబోతున్నాను.


మైక్: నేను. సరే, మీరు నా మాట వినగలరా?


ఎరిక్: అవును, నేను మీ మాట వినగలను. మీరు అద్భుతంగా ఉన్నారు. కాబట్టి, నన్ను పరిచయం చేద్దాం… అక్కడ మీరు వెళ్ళండి. మరియు మీరు ఇప్పుడు ప్రెజెంటర్. దాన్ని తీసివేయండి.


మైక్: సరే, ధన్యవాదాలు! గుడ్ మార్నింగ్, గుడ్ మధ్యాహ్నం, అక్కడ ఉన్న మీ అందరికీ గుడ్ ఈవినింగ్. ప్రారంభంలో ఎక్కిళ్ళు క్షమించండి. కొన్ని కారణాల వల్ల, నేను మ్యూట్ అయ్యాను మరియు ప్రతి ఒక్కరినీ చూడగలను కాని వారు నా మాట వినలేరు.


ఆల్రైట్. కాబట్టి, నేను త్వరగా చేయాలనుకుంటున్నది పెద్ద డేటా విశ్లేషణాత్మక పర్యావరణ వ్యవస్థ గురించి మీకు తెలుసు. మీరు నన్ను ప్రశ్నలు అడగాలనుకుంటే, ఈ సెషన్‌లో లేదా తరువాత, నా సంప్రదింపు వివరాలపై మీరు నన్ను పట్టుకోవచ్చు. నేను చెప్పినట్లు, ఇక్కడ అర్ధరాత్రి UK లో.


సరే, నేను మాట్లాడదలచినదాన్ని తెలుసుకుందాం. స్పష్టంగా, గత కొన్ని సంవత్సరాలుగా, వ్యాపారాలు ఇప్పుడు విశ్లేషించదలిచిన అన్ని రకాల కొత్త-డేటా డేటా యొక్క ఆవిర్భావం మనం చూశాము - క్లిక్ స్ట్రీమ్ డేటా నుండి ఆన్‌లైన్ ప్రవర్తనలను అర్థం చేసుకోవడం, ఎరిక్ మాట్లాడుతున్న సోషల్ మీడియా డేటా ఇక్కడ కార్యక్రమం ప్రారంభం. రాబిన్ JSON, BSON, XML గురించి ప్రస్తావించాడని నేను అనుకుంటున్నాను - కాబట్టి, స్వీయ-వివరించే సెమీ స్ట్రక్చర్డ్ డేటా. వాస్తవానికి, మనకు మొత్తం టన్నుల ఇతర అంశాలు కూడా ఉన్నాయి - నిర్మాణాత్మక డేటా, ఐటి మౌలిక సదుపాయాల లాగ్‌లు, సెన్సార్ డేటా నుండి ప్రతిదీ. వ్యాపారాలు ఇప్పుడు ఆసక్తిని కనబరిచిన ఈ క్రొత్త డేటా వనరులన్నీ మనకు తెలిసిన వాటిని మరింత లోతుగా చేయగల విలువైన అంతర్దృష్టిని కలిగి ఉన్నాయి.


కాబట్టి, ప్రాథమికంగా విశ్లేషణాత్మక ప్రకృతి దృశ్యం సాంప్రదాయ డేటా గిడ్డంగికి మించి కదిలింది. నిర్మాణాత్మక మరియు బహుళ-నిర్మాణాత్మక డేటా కలయిక యొక్క ప్రపంచంలోకి మేము ఇప్పటికీ డేటాను రూపొందిస్తాము, ఇక్కడ బహుళ-నిర్మాణాత్మక డేటా చాలా సందర్భాలలో ఎంటర్ప్రైజ్ లోపల లేదా వెలుపల నుండి రావచ్చు. మరియు ఈ క్రొత్త డేటా రకాలు మరియు విశ్లేషించాల్సిన కొత్త అవసరాల ఫలితంగా, కొత్త విశ్లేషణాత్మక పనిభారం యొక్క ఆవిర్భావం మనం చూశాము - చలనంలో డేటాను విశ్లేషించడం నుండి ప్రతిదీ, సాంప్రదాయ డేటా గిడ్డంగుల నిర్మాణాన్ని దాని తలపై ఏ రకంగా మారుస్తుంది, కొంతవరకు, ఇక్కడ మనం , సాంప్రదాయ సర్కిల్‌లలో, డేటాను ఏకీకృతం చేయండి, శుభ్రం చేసి, రూపాంతరం చేసి, నిల్వ చేసి, విశ్లేషించింది. కానీ కదలికలో ఉన్న డేటాను విశ్లేషించడం, మేము డేటాను సంగ్రహించడం, సమగ్రపరచడం, విశ్లేషించడం ద్వారా దాన్ని సిద్ధం చేసి, ఆపై నిల్వ చేయడం. కాబట్టి, డేటా ఎక్కడైనా నిల్వ చేయడానికి ముందే దానిపై విశ్లేషణ జరుగుతోంది.


నిర్మాణాత్మక డేటా యొక్క సంక్లిష్ట విశ్లేషణ, బహుశా మోడల్ అభివృద్ధి, గణాంక మరియు model హాజనిత నమూనా అభివృద్ధి కోసం, ఇది సాంప్రదాయ డేటా గిడ్డంగి స్థలంలో కొంతమందికి కొత్తేమీ కాదు. ఆన్-మోడల్ డేటా యొక్క అన్వేషణాత్మక విశ్లేషణ మాకు లభించింది. అక్కడ నిర్మాణాత్మక డేటా మొత్తం. గ్రాఫ్ విశ్లేషణ రూపంలో మాకు కొత్త పనిభారం వచ్చింది, ఇది ఆర్థిక సేవల్లోని నా ఖాతాదారులకు మోసం వంటి వాటిని కలిగి ఉంటుంది. ఇందులో సైబర్ సెక్యూరిటీ కూడా ఉంటుంది. ఇది సోషల్ నెట్‌వర్క్‌లను కలిగి ఉంటుంది, అయితే, ప్రభావితం చేసేవారిని అర్థం చేసుకోవడం మరియు అక్కడ ఉన్న అంశాలు. నేను నిర్వహణలో కూడా ప్రావీణ్యం సంపాదించాను, కొన్ని సంవత్సరాల గ్రాఫ్ విశ్లేషణ ఉంది.


మాకు డేటా గిడ్డంగి ఆప్టిమైజేషన్ లేదా ETL ప్రాసెసింగ్ యొక్క ఆఫ్‌లోడింగ్ లభించింది, ఇది ఒక రకమైన ఐటి వినియోగ కేసు, CIO దీనికి నిధులు సమకూరుస్తుంది. హడూప్ వంటి వాటిలో ఆన్‌లైన్‌లో ఉంచడానికి డేటా మరియు డేటా గిడ్డంగులను కూడా ఆర్కైవ్ చేస్తుంది. కాబట్టి, ఈ కొత్త విశ్లేషణాత్మక పనిభారాలన్నీ విశ్లేషణాత్మక ప్రకృతి దృశ్యానికి కొత్త ప్లాట్‌ఫారమ్‌లను, కొత్త నిల్వ ప్లాట్‌ఫారమ్‌లను జోడించాయి. కాబట్టి, సాంప్రదాయ డేటా గిడ్డంగులు, డేటా మార్ట్‌లను కలిగి ఉండకుండా, ఇప్పుడు మనకు లభించినది హడూప్. విశ్లేషణాత్మక పనిభారం కోసం తరచుగా ఉపయోగించే గ్రాఫ్ డేటాబేస్ వంటి NoSQL డేటాబేస్ మాకు లభించింది. వాస్తవానికి, మేము ఇప్పుడు హడూప్‌లోనే కాకుండా NoSQL గ్రాఫ్ DBMS లలో గ్రాఫ్ విశ్లేషణ చేయవచ్చు. రాబిన్ పేర్కొన్న స్ట్రీమింగ్ అనలిటిక్స్ మాకు లభించాయి. మోడల్స్ నిర్మించడం, బహుశా విశ్లేషణాత్మక డేటా గిడ్డంగి ఉపకరణాలపై కూడా మాకు లభించింది. కానీ ఇవన్నీ విశ్లేషణాత్మక ప్రకృతి దృశ్యాన్ని క్లిష్టతరం చేశాయి, ఇప్పుడు బహుళ ప్లాట్‌ఫారమ్‌లు అవసరం. ఫ్రంట్ ఆఫీస్ లేదా బ్యాక్ ఆఫీస్, లేదా ఫైనాన్స్, ప్రొక్యూర్‌మెంట్, హెచ్‌ఆర్ మరియు కొన్ని రకాల కార్యకలాపాలతో ఏదైనా వ్యాపారం కోసం, సాంప్రదాయ డేటా గిడ్డంగి దృశ్యంతో ఏ విశ్లేషణాత్మక ప్రాజెక్టులు సంబంధం కలిగి ఉన్నాయో గుర్తించడం అని నేను gu హిస్తున్నాను. విశ్లేషణాత్మక ప్రాజెక్టులు ఈ కొత్త పెద్ద డేటా ప్లాట్‌ఫారమ్‌లతో సంబంధం కలిగి ఉన్నాయని మరియు ఎక్కడ నడుచుకోవాలో మీకు తెలిస్తే, ఏ విశ్లేషణాత్మక పనిభారం, కానీ వ్యాపారం యొక్క దృష్టిని కోల్పోవద్దని మీకు తెలుసు - ఇది ఇప్పుడు మీరు పెద్ద కలయికగా చూస్తారు డేటా విశ్లేషణాత్మక ప్రాజెక్టులు మరియు సాంప్రదాయ పెద్ద డేటా గిడ్డంగుల ప్రాజెక్టులు కస్టమర్ చుట్టూ లేదా కార్యకలాపాల చుట్టూ, రిస్క్ చుట్టూ, లేదా ఫైనాన్స్ లేదా సుస్థిరత చుట్టూ బలోపేతం చేయడానికి అవసరం. అందువల్ల, ఇవన్నీ మా వ్యూహాత్మక వ్యాపార ప్రాధాన్యతలతో అనుసంధానించబడాలని మేము కోరుకుంటున్నాము, మేము ట్రాక్‌లో ఉండాలని, మీకు తెలుసా, లోపలికి నెట్టవలసిన సూదులను నెట్టడం, మీకు తెలుసా, వ్యాపార పనితీరును మెరుగుపరచడం, ఖర్చు తగ్గించడం, మా కంపెనీ మొత్తానికి నష్టాలు మొదలైనవి తగ్గించడానికి మీకు తెలుసు. కాబట్టి, ఇక్కడ మరొకటి పెద్ద డేటా మరియు సాంప్రదాయంతో భర్తీ చేయబడదు. ఇది రెండూ కలిసి ఉపయోగించబడుతున్నాయి. మరియు అది నిర్మాణాన్ని నాటకీయంగా మారుస్తుంది, మీకు తెలుసు.


కాబట్టి, నేను ఇక్కడ కలిగి ఉన్నది నా ఖాతాదారులతో నేను ఉపయోగించే క్రొత్త నిర్మాణం. అందువల్ల, మీరు ఇప్పుడు దిగువన చూడగలిగినట్లుగా, విస్తారమైన డేటా వనరులు, ఇకపై నిర్మాణాత్మకంగా ఉండవు. వాటిలో కొన్ని సెన్సార్ల వంటి లైవ్ డేటాను, మార్కెట్ డేటా వంటివి, ఆ రకమైన వాటిని ప్రసారం చేస్తున్నాయి. ఇది ప్రత్యక్ష క్లిక్‌స్ట్రీమ్ డేటా కూడా కావచ్చు. ఇది ప్రత్యక్ష వీడియో స్ట్రీమింగ్ డేటా కావచ్చు. కనుక ఇది నిర్మాణాత్మకంగా ఉండవలసిన అవసరం లేదు. కాబట్టి, నిజ సమయంలో స్వయంచాలక చర్యలు తీసుకోవడానికి మేము ఆ డేటాపై స్ట్రీమ్ ప్రాసెసింగ్ చేయవచ్చు, మరియు ఆసక్తి ఉన్న ఏదైనా డేటాను ఫిల్టర్ చేసి, విశ్లేషణాత్మక డేటా స్టోర్లను జనసాంద్రత చేయడానికి ఉపయోగించే ఒక సంస్థ సమాచార నిర్వహణ సాధనాలలోకి పంపవచ్చు. మీరు ఇక్కడ మిశ్రమంలో చూడలేకపోతే, ఇప్పుడు మాకు సాంప్రదాయ డేటా గిడ్డంగులు, హడూప్ మరియు NoSQL డేటాబేస్‌లు వచ్చాయి. మాకు మిశ్రమంలో మాస్టర్ డేటా నిర్వహణ కూడా ఉంది. మరియు ఇది మొత్తం డేటా మేనేజ్‌మెంట్ టూల్ సూట్‌పై మరింత ఒత్తిడి తెస్తుంది, ఈ డేటా స్టోర్లను జనాదరణ పొందడమే కాకుండా వాటి మధ్య డేటాను తరలించడానికి.


ఆ పైన, మేము యాక్సెస్ సాధనాలను సరళీకృతం చేయాలి. మేము యూజర్ వైపు తిరగలేము మరియు "ఈ డేటా స్టోర్లన్నింటినీ పొందండి, ఈ API లను పట్టుకోండి - మీ సమస్య." మీరు చేయాల్సిందల్లా ప్రాప్యతను సులభతరం చేయడం. అందువల్ల, అక్కడ చుక్కల పంక్తులలో, డేటా వర్చువలైజేషన్ మరియు ఆప్టిమైజేషన్ బహుళ డేటా నిల్వ యొక్క సంక్లిష్టతను దాచడానికి ఒక రకంగా మీరు చూస్తారు, ప్రయత్నించండి మరియు తుది వినియోగదారులకు దీన్ని ప్రాప్యత చేయడం సులభం చేస్తుంది. వాస్తవానికి, పైభాగంలో అనేక రకాల ఉపకరణాలు ఉన్నాయి, మీకు తెలుసా - సాంప్రదాయ గిరాకీ సాధనాల నుండి డేటా గిడ్డంగుల పైభాగంలో ప్రారంభించి, క్రమంగా మీ చార్ట్ యొక్క ఎడమ వైపుకు హడూప్స్‌లో కనెక్ట్ అయ్యే వరకు ఆపై ప్రపంచంలోని NoSQL డేటాబేస్.


హడూప్‌లో తరచుగా నిల్వ చేయబడిన శరీర నిర్మాణాత్మక, నిర్మాణేతర డేటా చుట్టూ జీవితానికి కొత్త లీజును పొందడం కోసం శోధన వచ్చింది. మ్యాప్‌రెడ్యూస్‌తో హడూప్ ప్లాట్‌ఫామ్‌లో కస్టమ్ విశ్లేషణాత్మక అనువర్తనాలు చేయవలసి ఉంది, కాబట్టి స్పార్క్ ఫ్రేమ్‌వర్క్, ఉదాహరణకు. మాకు గ్రాఫ్ అనలిటిక్స్ సాధనాలు వచ్చాయి, మీకు తెలుసా, అక్కడ చాలా నిర్దిష్ట పనిభారంపై దృష్టి పెట్టండి. కాబట్టి, సాధనాల శ్రేణి మరియు డేటా ప్రవాహాలు కూడా మరింత క్లిష్టంగా ఉంటాయి. ఇది ఇకపై డేటా గిడ్డంగిలో వన్-వే వీధి కాదు. ఇది ఇప్పుడు మాస్టర్ డేటా.


NoSQL లో సంగ్రహించబడిన కొత్త డేటా వనరులు మాకు వచ్చాయి, మీకు తెలుసా, మొంగోడిబి వంటి డేటా స్టోర్లు, కాసాండ్రా వంటి, HBase వంటివి. అక్కడ విశ్లేషణ మరియు డేటా తయారీ కోసం డేటాను నేరుగా హడూప్‌లోకి తీసుకువచ్చాము. హడూప్ మరియు డేటా గిడ్డంగుల నుండి మాకు కొత్త అంతర్దృష్టులు వచ్చాయి. డేటా గిడ్డంగుల నుండి హడూప్‌లోకి ఆర్కైవ్ వస్తోంది. ఇప్పుడు మనకు డేటా ఫీడ్‌లు వచ్చాయి, మీకు తెలుసా, అన్ని NoSQL డేటాబేస్‌లు మరియు డేటా మార్ట్‌లు. కాబట్టి, మీరు ఇక్కడ చూడగలిగేది ఏమిటంటే, డేటా నిర్వహణలో చాలా ఎక్కువ కార్యకలాపాలు జరుగుతున్నాయి. మరియు ఇది డేటా మేనేజ్‌మెంట్ సాఫ్ట్‌వేర్‌ను గణనీయమైన ఒత్తిడికి గురిచేస్తుందని అర్థం. ఇది ఇకపై వన్-వే వీధి మాత్రమే కాదు. ఇది రెండు-మార్గం డేటా కదలిక. ఇది చాలా ఎక్కువ కార్యాచరణలో ఉంది, అందువల్ల, డేటా-మేనేజ్‌మెంట్-టూల్ ఫ్రంట్‌తో పాటు డేటా సోర్స్‌లో స్కేలబిలిటీ ముఖ్యం.


కాబట్టి, ఈ చార్ట్ నేను ఒక క్షణం క్రితం పేర్కొన్న ఆ నిర్మాణానికి తిరిగి వెళుతుంది. ఈ ఆర్కిటెక్చర్ యొక్క వివిధ భాగాలలో నడుస్తున్న విభిన్న విశ్లేషణాత్మక పనిభారాన్ని ఇది మీకు చూపుతుంది. అక్కడ ఎడమవైపున క్రమబద్ధీకరించండి, మీకు రియల్ టైమ్ స్ట్రీమింగ్, స్ట్రీమ్ ప్రాసెసింగ్ డేటా నుండి బయటకు వస్తున్నాయి, మీకు తెలుసా, ఎలాంటి లైవ్ డేటా స్టోర్. NoSQL గ్రాఫ్ డేటాబేస్‌లలో మాకు తరగతి విశ్లేషణ జరుగుతోంది. ఇది హడూప్‌లో కూడా జరగవచ్చు. ఉదాహరణకు, స్పార్క్ ఫ్రేమ్‌వర్క్‌తో మరియు గ్రాఫ్ఎక్స్ తో, మాకు పరిశోధనాత్మక విశ్లేషణ మరియు హడూప్‌లో జరగడం గురించి రాబిన్ మాట్లాడుతున్న డేటా రిఫైనరీ వచ్చింది. మాకు సాంప్రదాయ పనిభారం ఇంకా కొనసాగుతోంది మరియు డేటా గిడ్డంగి, మీకు తెలుసా, శక్తి వినియోగదారులు గణాంక మరియు models హాజనిత నమూనాలను నిర్మిస్తున్నారు, బహుశా డేటా గిడ్డంగి ఉపకరణాలపై. అంతిమ వినియోగదారులకు సులభతరం చేయడానికి వీటన్నింటికీ ప్రాప్యతను సరళీకృతం చేయడానికి మేము ఇంకా ప్రయత్నిస్తున్నాము.


కాబట్టి, ఈ మొత్తం సెటప్ చుట్టూ విజయం కేవలం విశ్లేషణాత్మక వైపు కంటే ఎక్కువ. మీకు తెలుసా, మేము విశ్లేషణాత్మక ప్లాట్‌ఫారమ్‌లను ఉంచవచ్చు, కాని అధిక వేగం మరియు అధిక వాల్యూమ్ డేటాను మేము గ్రహించి, తీసుకోలేకపోతే, స్కేల్‌లో, ఎక్కువ పాయింట్ లేదు. మీకు తెలుసు, నేను విశ్లేషించడానికి ఏమీ లేదు. అందువల్ల, పెద్ద డేటా విశ్లేషణల విజయానికి కార్యాచరణ వ్యవస్థలు అవసరం. అంటే, కొత్త లావాదేవీలకు మద్దతు ఇవ్వగలగడం, మీకు తెలుసు, శిఖరాలు. మీకు తెలుసా, లావాదేవీయేతర డేటా అక్కడ సంగ్రహించబడితే, మీకు తెలుసా, ఏదైనా కొత్త రాక రేట్లు చాలా ఎక్కువ, సెన్సార్లు లేదా ఏదైనా తీసుకోవడం వంటి అధిక-వేగం డేటాపై చాలా ఎక్కువ రాక రేట్లు. మేము అన్నింటినీ తీర్చగలగాలి - ఈ రకమైన డేటాను సంగ్రహించి విశ్లేషణ కోసం తీసుకురాగలగాలి. మేము విశ్లేషణలను కూడా స్కేల్ చేయాలి, నేను ఇప్పటికే పేర్కొన్న డేటాకు ప్రాప్యతను సులభతరం చేయాలి. ఆపై, ఆ టై. మీకు తెలుసా, క్లోజ్డ్ లూప్ ఇవ్వడానికి మేము ఆ కార్యాచరణ వ్యవస్థల్లోకి తిరిగి మెరుగుపరచగలగాలి.


కాబట్టి, డేటాను సంగ్రహించడానికి ఇంటి కార్యాచరణ వైపు స్కేలింగ్, మీకు తెలుసా, NoSQL డేటాబేస్ ప్రపంచంలోకి తీసుకువెళుతుంది. నా ఉద్దేశ్యం, ఇక్కడ మీరు NoSQL డేటాబేస్ యొక్క ఐదు వర్గాలను చూస్తారు. ఇది వర్గం పైన పేర్కొన్న నలుగురి కలయికగా ఉంటుంది. సాధారణంగా, మీకు తెలుసా, దాని ముఖ్య విలువలు, నిల్వ చేసిన పత్రాలు మరియు కాలమ్ ఫ్యామిలీ డేటాబేస్‌లు - అక్కడ మొదటి మూడు - ఇవి లావాదేవీల మరియు లావాదేవీయేతర డేటా కోసం ఉపయోగించబడతాయి.


లక్షణాలలో మద్దతు ఇచ్చే కొన్ని డేటాబేస్లు; వాటిలో కొన్ని కాదు. ఏదేమైనా, మీకు తెలుసా, ఆ రకమైన అనువర్తనాలను స్కేల్ చేయడానికి వారి పరిచయాన్ని మేము చూస్తున్నాము. కాబట్టి, ఉదాహరణకు, కీబోర్డులలో లావాదేవీల్లోకి ప్రవేశించే ఉద్యోగుల నుండి ఇప్పుడు కస్టమర్‌లకు మరియు నవల పరికరాలను ఉపయోగించే మాస్‌కి మేము దీన్ని చేయగలిగాము. సంస్థలలోకి ప్రవేశించే లావాదేవీల సంఖ్యలో విపరీతమైన పెరుగుదల మేము చూశాము. కాబట్టి, మేము దీన్ని చేయడానికి లావాదేవీ అనువర్తనాలను స్కేల్ చేయాలి.


ఇప్పుడు, సాధారణంగా చెప్పాలంటే, ఇక్కడ చూపిన NuoDB మరియు VoltDB వంటి రిలేషనల్ డేటాబేస్ వలె NewSQL డేటాబేస్లలో చేయవచ్చు. లేదా లావాదేవీ ప్రాసెసింగ్‌కు హామీ ఇవ్వగల ACID లక్షణాలకు మద్దతు ఇచ్చే కొన్ని NoSQL డేటాబేస్‌లు అమలులో ఉండవచ్చు. లావాదేవీకి ముందు షాపింగ్ కార్ట్ డేటా వంటి లావాదేవీయేతర డేటాకు ఇది వర్తిస్తుంది, మీకు తెలుసా, ప్రజలు వస్తువులను కొనడానికి ముందు, సెన్సార్ డేటా, మీకు తెలుసా, నేను వందల మిలియన్ల సెన్సార్ రీడింగుల మధ్య సెన్సార్ పఠనాన్ని కోల్పోతున్నాను. ఏమంత పెద్ద విషయం కాదు. క్లిక్‌స్ట్రీమ్ ప్రపంచంలో క్లిక్‌లు మీకు తెలుసు - నేను ఒక క్లిక్‌ని ఉపయోగిస్తే అది పెద్ద విషయం కాదు.కాబట్టి, మీకు అక్కడ ACID లక్షణాలను కలిగి ఉండవలసిన అవసరం లేదు, మరియు తరచుగా NoSQL డేటాబేస్లు అమలులోకి వస్తాయి, అది అక్కడే ఉంది - ఈ కొత్త రకాల డేటాను సంగ్రహించడానికి చాలా ఎక్కువ, సరైన ప్రాసెసింగ్ చేయగల సామర్థ్యం.


అదే సమయంలో, విశ్లేషణలు స్కేల్ చేయాలని మేము కోరుకుంటున్నాము. అందువల్ల, డేటా స్టోర్ల నుండి డేటాను విశ్లేషణాత్మక ప్లాట్‌ఫామ్‌లకు లాగడం ఇకపై దాన్ని హ్యాక్ చేయదు ఎందుకంటే డేటా చాలా పెద్దది. మనకు నిజంగా కావలసింది విశ్లేషణలను డేటాకు నెట్టగలిగేలా విశ్లేషణలను వేరే విధంగా, ఎంటర్ప్రైజ్ డేటా గిడ్డంగిలోకి హడూప్‌లోకి, స్ట్రీమ్ ప్రాసెసింగ్‌లోకి నెట్టడం. అయినప్పటికీ, ఇది డేటాబేస్ అనలిటిక్స్లో లేదా హడూప్ అనలిటిక్స్లో ఎవరో చెప్పినందున అనలిటిక్స్ సమాంతరంగా నడుస్తుందని అర్ధం కాదు. మరియు చాలా స్పష్టంగా, మీరు డేటా గిడ్డంగి ఉపకరణాలు మరియు క్లస్టర్డ్ స్ట్రీమ్ ప్రాసెసింగ్ ఇంజిన్ల వంటి వాట్నోట్ వంటి హడూప్ వంటి ఈ కొత్త భారీ సమాంతర స్కేలబుల్ టెక్నాలజీలలో పెట్టుబడులు పెట్టబోతున్నట్లయితే, సమాంతరంగా అమలు చేయడానికి మాకు విశ్లేషణలు అవసరం.


కాబట్టి, ఇది చెక్ అవుట్ మాత్రమే. కస్టమర్ల కోసం, కార్యకలాపాల కోసం, రిస్క్ మొదలైన వాటి గురించి అంచనా వేయడంలో మాకు విశ్లేషణలు లభిస్తే మీకు తెలుసు, అవి ప్లాట్‌ఫామ్‌లో మాత్రమే కాకుండా సమాంతరంగా అమలు కావాలని మేము కోరుకుంటున్నాము. మాకు రెండూ కావాలి. సాంకేతిక పరిజ్ఞానం SAS వంటి ఈ కొత్త దృశ్య ఆవిష్కరణ సాధనాలలాంటిదని మీకు తెలుసు. ఇది వాస్తవానికి ఇక్కడ మా స్పాన్సర్‌లలో ఒకరు.


ప్రజలు కోరుకునే ఒక విషయం ఏమిటంటే కనీసం హడూప్‌లోని వారిని దోపిడీ చేయడం మరియు తరువాత డేటాబేస్ అనలిటిక్స్. అటువంటి అధిక డేటా వాల్యూమ్‌లలో అవసరమైన పనితీరును అందించగలిగేలా వారు సమాంతరంగా అమలు చేయాలని మేము కోరుకుంటున్నాము. అదే సమయంలో, వీటన్నింటికీ ప్రాప్యతను సరళీకృతం చేయడానికి మేము ప్రయత్నిస్తున్నాము. కాబట్టి, SQL ఇప్పుడు ఎజెండాలో తిరిగి వచ్చింది. మీకు తెలుసా, SQL అంటే - హడూప్‌లోని SQL ప్రస్తుతం వేడిగా ఉంది. నేను ప్రస్తుతం 19 SQL మరియు హడూప్ కార్యక్రమాలలో ట్రాక్ చేస్తున్నాను. అదనంగా, మీరు ఈ డేటాను పొందవచ్చు, మీకు తెలుసా, అనేక విధాలుగా, హడూప్‌లోనే SQL ని నేరుగా యాక్సెస్ చేస్తే, మేము SQL ను శోధన సూచికకు వెళ్ళవచ్చు. ఆ స్థలంలో కొంతమంది శోధన విక్రేతలు మీకు తెలిసిన విధంగా, హడూప్‌కు ఎక్సెల్ పట్టికలను కలిగి ఉన్న విశ్లేషణాత్మక రిలేషనల్ డేటాబేస్‌లకు మేము SQL ప్రాప్యతను కలిగి ఉండవచ్చు.


మేము ఇప్పుడు డేటా వర్చువలైజేషన్ సర్వర్‌కు SQL ప్రాప్యతను కలిగి ఉండవచ్చు, దానిని హడూప్‌లోని డేటా గిడ్డంగికి కనెక్ట్ చేయవచ్చు. నేను ఇప్పుడు ప్రత్యక్ష ప్రసార డేటాకు SQL యాక్సెస్ యొక్క ఆవిర్భావం చూడటం ప్రారంభించాను. కాబట్టి, వీటన్నింటికీ SQL యాక్సెస్ వేగంగా పెరుగుతోంది. మరియు సవాలులో భాగం, SQL యాక్సెస్ అక్కడ విక్రయించబడుతున్నందున. ప్రశ్న ఏమిటంటే, SQL సంక్లిష్ట డేటాతో వ్యవహరించగలదా? మరియు అది సూటిగా ఉండదు. JSON డేటా గూడుతో కూడుకున్నదానితో సహా ఇక్కడ అన్ని రకాల సమస్యలు ఉన్నాయి. మేము స్కీమా వేరియంట్ రికార్డులను కలిగి ఉండవచ్చు. కాబట్టి, మొదటి రికార్డుకు ఒక స్కీమా వచ్చింది. రెండవ రికార్డుకు వేరే స్కీమా వచ్చింది. రిలేషనల్ ప్రపంచంలో జరిగే వాటికి ఈ విషయాలు చాలా భిన్నంగా ఉంటాయి.


కాబట్టి, మేము ఏ రకమైన డేటాను విశ్లేషించడానికి ప్రయత్నిస్తున్నాము మరియు ఏ రకమైన విశ్లేషణాత్మక లక్షణాలు గురించి ప్రశ్నలు వేయాలి. మీరు చేయాలనుకుంటున్న ప్యానెల్ మీకు తెలుసా? ఇది యంత్ర అభ్యాసమా? ఇది గ్రాఫ్ విశ్లేషణనా? మీరు SQL నుండి చేయగలరా? మీకు తెలుసా, అది SQL నుండి ఆహ్వానించదగినదా? మేము దీన్ని ఎంతమంది ఏకకాల వినియోగదారులు చేసాము? మీకు తెలుసా, మాకు వందలాది మంది వినియోగదారులు ఉన్నారు. సంక్లిష్ట డేటాలో అది సాధ్యమేనా? మీకు తెలుసా, ఈ విషయాలన్నీ కీలక ప్రశ్నలు. కాబట్టి, నేను ఇక్కడ కొన్నింటి జాబితాను తయారు చేసాను, మీరు పరిగణించాలని నేను భావిస్తున్నాను. మీకు తెలుసా, ఎలాంటి ఫైల్ ఫార్మాట్లు? మేము ఎలాంటి డేటా రకాలను గురించి మాట్లాడుతున్నాము? సంక్లిష్ట డేటాను పొందడానికి మేము SQL నుండి ఎలాంటి విశ్లేషణాత్మక విధులను ప్రారంభించగలము? మరియు విధులు రకమైన సమాంతరంగా నడుస్తాయి. నా ఉద్దేశ్యం, మేము దీన్ని స్కేల్ చేయగలిగితే వారు సమాంతరంగా నడుస్తారు. నేను ఈ రోజు హడూప్‌లో దాని వెలుపల డేటాను చేరగలనా, మీకు తెలుసా, లేదా అది చేయలేదా? మరియు ఈ వివిధ రకాల ప్రశ్న పనిభారాలతో నేను ఏమి చేస్తాను?


నేను చూసినట్లుగా, నేను చూసిన దాని నుండి, SQL మరియు హడూప్ పంపిణీలో చాలా తేడాలు ఉన్నాయి. ఇవన్నీ నేను ట్రాక్ చేస్తున్నాను. మరియు మార్గం ద్వారా, ఇది హడూప్‌లో స్వచ్ఛమైన SQL. ఈ సమయంలో డేటా వర్చువలైజేషన్ కూడా ఇందులో లేదు. అందువల్ల, అక్కడ చాలా ఉంది మరియు ఏకీకృతం చేయడానికి చాలా స్థలం ఉంది, ఇది తరువాతి సంవత్సరంలో, పద్దెనిమిది నెలలు లేదా అంతకన్నా ఎక్కువ జరగబోతోందని నేను భావిస్తున్నాను. కానీ ఇది మరొక విషయాన్ని కూడా తెరుస్తుంది, అంటే నేను హడూప్‌లోని ఒకే డేటాలో బహుళ SQL ఇంజిన్‌లను కలిగి ఉండగలను. మరియు ఇది మీరు రిలేషనల్‌లో చేయలేని విషయం.


వాస్తవానికి, మీరు తెలుసుకోవాలి, మీకు తెలుసా, నేను ఎలాంటి ప్రశ్న పనిభారాన్ని నడుపుతున్నాను? హడూప్ చొరవపై ఒక నిర్దిష్ట SQL లో నేను దానిని బ్యాచ్‌లో అమలు చేయాలా? హడూప్ చొరవ మొదలైన వాటిపై మరొక SQL ద్వారా నేను ఇంటరాక్టివ్ ప్రశ్న పనిభారాన్ని అమలు చేయాలా, తద్వారా దేనికి కనెక్ట్ కావాలో నాకు తెలుసు? ఆదర్శవంతంగా, వాస్తవానికి, మేము అలా చేయకూడదు. మేము మీకు తెలుసు, దానిపై ఒక ప్రశ్న అడిగారు. మీకు తెలుసా, కొన్ని ఆప్టిమైజర్ దీన్ని చేయటానికి ఉత్తమమైన మార్గాన్ని సూచిస్తుంది. కానీ మేము ఇంకా పూర్తిగా అక్కడ లేము, నా అభిప్రాయం.


ఏదేమైనా, డేటా వర్చువలైజేషన్, బహుళ డేటా స్టోర్లకు ప్రాప్యతను సులభతరం చేయడానికి నేను ఇంతకు ముందు చెప్పిన చాలా ముఖ్యమైన పాత్ర ఉంది. మరియు మేము హడూప్‌లో కొత్త అంతర్దృష్టులను సృష్టించినట్లయితే, డేటా వర్చువలైజేషన్ ద్వారా డేటా-టు-డేటా మరియు సాంప్రదాయ డేటా గిడ్డంగులలో చేరడం మాకు ఖచ్చితంగా ఆమోదయోగ్యమైనది, ఉదాహరణకు, హడూప్ నుండి డేటాను సాంప్రదాయ డేటా గిడ్డంగులకు తరలించకుండా. వాస్తవానికి, మీరు కూడా దీన్ని చేయవచ్చు. నేను సాంప్రదాయ డేటా గిడ్డంగుల నుండి డేటాను హడూప్‌లోకి ఆర్కైవ్ చేస్తే అది కూడా ఆమోదయోగ్యమైనది. నేను ఇంకా దాన్ని పొందగలను మరియు మా డేటా గిడ్డంగిలో ఉన్న డేటా వర్చువలైజేషన్‌కు తిరిగి చేరగలను. కాబట్టి, నా కోసం, ఈ మొత్తం నిర్మాణంలో డేటా వర్చువలైజేషన్‌కు పెద్ద భవిష్యత్తు లభించిందని మరియు ఈ అన్ని డేటా స్టోర్‌లకు ప్రాప్యతను సులభతరం చేస్తుందని నేను భావిస్తున్నాను.


మరియు మేము ఈ క్రొత్త అంతర్దృష్టులను సృష్టించినప్పుడు, అది రిలేషనల్ లేదా NoSQL సిస్టమ్స్‌లో ఉన్నా, ఆ అంతర్దృష్టులను మా కార్యకలాపాలకు తిరిగి నడపాలని మేము కోరుకుంటున్నాము, తద్వారా మనం కనుగొన్న వాటి విలువను గరిష్టంగా పెంచుకోవచ్చు, తద్వారా మనం చేయగలం మా వ్యాపారాన్ని ఆప్టిమైజ్ చేయడానికి ఆ వాతావరణంలో మరింత ప్రభావవంతమైన, మరింత సమయానుకూల నిర్ణయాల కోసం పరపతి.


కాబట్టి, అప్పుడు మూసివేయడానికి, నేను చూస్తున్నది, అప్పుడు, మనకు అవసరమా, మీకు తెలుసా, కొత్త డేటా వనరులు వెలువడుతున్నాయి. మీరు దీన్ని నిర్వహించడానికి మరింత క్లిష్టమైన నిర్మాణంలో కొత్త ప్లాట్‌ఫారమ్‌లను పొందాము. మరియు హడూప్ చాలా, చాలా ముఖ్యమైనది, మా ద్రవ శాండ్‌బాక్స్‌ల కోసం డేటా తయారీకి, ఆర్కైవ్ ప్రశ్నకు, డేటా గిడ్డంగి నుండి ఆర్కైవ్ చేయడానికి, డేటా మేనేజ్‌మెంట్ దాని రెక్కలను విస్తరించి డేటా గిడ్డంగులకు మించి ఈ ప్లాట్‌ఫారమ్‌లన్నింటిలోనూ డేటాను నిర్వహించడానికి మరియు కొత్త సాధనాలు ఈ పరిసరాలలో డేటాను విశ్లేషించడం మరియు ప్రాప్యత చేయడం, డేటాను బాగా చొప్పించడం కోసం స్కేలబుల్ టెక్నాలజీలను కలిగి ఉండటం మరియు వాటిని మరింత సమాంతరంగా చేయడానికి ప్లాట్‌ఫామ్‌లలోకి నెట్టడం ద్వారా విశ్లేషణలను స్కేల్ చేయడం. ఆపై, ఆశాజనక, పైకి వస్తున్న SQL ద్వారా అన్నింటికీ ప్రాప్యతను సులభతరం చేయడానికి. కాబట్టి, ఇది మేము ఎక్కడికి వెళుతున్నామో మీకు ఒక ఆలోచన ఇస్తుంది. కాబట్టి, దానితో, నేను తిరిగి వెళ్తాను, నేను ess హిస్తున్నాను, ఎరిక్ ఇప్పుడు, అవునా?


ఎరిక్: సరే, ఇది అద్భుతమైనది. మరియు చేసారో, నేను చెప్పేదేమిటంటే, మీరు రాబిన్ మరియు మైక్ నుండి పొందినదానికి మధ్య, మీరు ఎక్కడైనా వెతుకుతున్నప్పుడు చూడకుండా మొత్తం ప్రకృతి దృశ్యం యొక్క అవలోకనంలో ఇది సమగ్రంగా మరియు సంక్షిప్తంగా ఉంటుంది. నేను ముందుకు వెళ్లి మొదట జార్జ్ కొరుగెడోను క్యూ కడతాను. మరియు అది ఉంది. దీన్ని త్వరగా సెకనుకు తీసుకుందాం. ఆల్రైట్, జార్జ్, నేను మీకు కీలను అప్పగించబోతున్నాను. నేల మీదే.


జార్జ్: గ్రేట్! చాలా ధన్యవాదాలు, ఎరిక్, మరియు ధన్యవాదాలు, రాబ్ మరియు మైక్. ఇది గొప్ప సమాచారం మరియు మేము అంగీకరించే చాలా విషయాలు. కాబట్టి, రాబిన్ చర్చకు తిరిగి వెళ్లండి, ఎందుకంటే, మీకు తెలుసా, రెడ్‌పాయింట్ ఇక్కడ ఉంది మరియు SAS ఇక్కడ ఉంది. రెడ్‌పాయింట్ ఎందుకంటే, మేము దాని యొక్క డేటా వైపు పరిపాలనపై, డేటా ప్రాసెసింగ్ మరియు విశ్లేషణలలో ఉపయోగం కోసం దృష్టి సారించాము. కాబట్టి, ఈ రెండు స్లైడ్‌ల ద్వారా నన్ను బార్జ్ చేద్దాం. MDM గురించి రాబిన్ యొక్క పాయింట్ గురించి నిజంగా మాట్లాడండి మరియు తెలుసుకోండి మరియు ఇది ఎంత ముఖ్యమైనది, మరియు ఎంత ఉపయోగకరంగా ఉంటుందని నేను అనుకుంటున్నాను - మరియు మేము అనుకుంటున్నాము - హడూప్ MDM మరియు డేటా నాణ్యత ప్రపంచంలో ఉంటుంది.


ఎంటర్ప్రైజ్ డేటా గిడ్డంగి ప్రపంచానికి ఇది ఎలా సంబంధం కలిగి ఉందో మీకు తెలుసా, రాబిన్ కొంచెం మాట్లాడుతున్నాడని మీకు తెలుసు - మీకు తెలుసా, నేను యాక్సెంచర్‌లో చాలా సంవత్సరాలు గడిపాను. మరియు ఆసక్తికరమైన విషయం ఏమిటంటే, మనం ఎన్నిసార్లు కంపెనీల్లోకి వెళ్లి డేటా గిడ్డంగితో ఏమి చేయాలో తెలుసుకోవడానికి ప్రయత్నించాము. డేటా గిడ్డంగి బృందం వారి నిర్మాణాన్ని వ్యాపార వినియోగదారులకు లేదా డేటా వినియోగదారులకు నిజంగా సమం చేయనందున ఇది చాలా జరిగింది. లేదా, వారు చాలా కాలం పట్టింది, వారు వస్తువును నిర్మించే సమయానికి, వ్యాపార ఉపయోగం లేదా దాని కోసం వ్యాపార హేతుబద్ధత ఉద్భవించింది.


మరియు నేను అనుకునే విషయాలలో ఒకటి, నేను చాలా సంతోషిస్తున్నాను, మాస్టర్ డేటా నిర్వహణ కోసం, డేటా నాణ్యత కోసం మరియు డేటా తయారీ కోసం హడూప్‌ను ఉపయోగించాలనే ఆలోచన, మీరు ఎల్లప్పుడూ అణు డేటాకు తిరిగి వెళ్ళవచ్చు హడూప్ డేటా సరస్సు లేదా డేటా రిజర్వాయర్, లేదా డేటా రిపోజిటరీ, లేదా హబ్ లేదా మీరు ఉపయోగించాలనుకుంటున్న బజ్ రూపం. కానీ మీరు ఎల్లప్పుడూ ఆ అణు డేటాను ఉంచుతున్నందున, వ్యాపార వినియోగదారులతో పున ign రూపకల్పన చేయడానికి మీకు ఎల్లప్పుడూ అవకాశం ఉంటుంది. ఎందుకంటే, ఒక విశ్లేషకుడిగా - ఎందుకంటే నేను నా వృత్తిని గణాంకవేత్తగా ప్రారంభించాను - మీకు తెలుసా, దారుణంగా ఏమీ లేదు, మీకు తెలుసా, ఎంటర్ప్రైజ్ డేటా గిడ్డంగులు నివేదికలను నడపడానికి అద్భుతమైనవి, కానీ మీరు నిజంగా ic హాజనిత విశ్లేషణలు చేయాలనుకుంటే, అవి నిజంగా అంత ఉపయోగకరం కాదు, ఎందుకంటే మీకు నిజంగా కావలసినది డేటా గిడ్డంగిలో సంగ్రహంగా మరియు సమగ్రపరచబడిన కణిక ప్రవర్తనా డేటా. కాబట్టి, ఇది నిజంగా ఒక ముఖ్యమైన లక్షణం అని నేను అనుకుంటున్నాను, మరియు నేను రాబిన్‌తో విభేదించవచ్చని నేను భావిస్తున్నాను, నేను వ్యక్తిగతంగా డేటా సరస్సు లేదా డేటా హబ్‌లో డేటాను వీలైనంత కాలం వదిలివేస్తాను, ఎందుకంటే ఉన్నంత కాలం డేటా ఉంది మరియు ఇది శుభ్రంగా ఉంది, మీరు దానిని ఒక దిశ నుండి, మరొక దిశ నుండి చూడవచ్చు. మీరు దీన్ని ఇతర డేటాతో విలీనం చేయవచ్చు. దానికి తిరిగి వచ్చి పునర్వ్యవస్థీకరించడానికి మీకు ఎల్లప్పుడూ ఆ అవకాశం ఉంది, ఆపై మిమ్మల్ని ఒక వ్యాపార యూనిట్‌తో మరియు ఈ యూనిట్ కలిగి ఉండవలసిన అవసరాన్ని గుర్తించండి.


దీని గురించి మరొక రకమైన ఆసక్తికరమైన విషయం ఏమిటంటే, ఇది చాలా శక్తివంతమైన గణన వేదిక కాబట్టి, మనం మాట్లాడుతున్న చాలా పనిభారం, ఇవన్నీ నేరుగా హడూప్‌లోకి రావడాన్ని మేము చూస్తాము. అయితే, మైక్ ప్రపంచంలో ఉన్న అన్ని విభిన్న సాంకేతిక పరిజ్ఞానాల గురించి మాట్లాడుతుండగా - ఈ రకమైన పెద్ద డేటా పర్యావరణ వ్యవస్థలో, గణనపరంగా ఇంటెన్సివ్ ప్రాసెసింగ్‌లో పెద్ద ఎత్తున చేయటానికి హడూప్ నిజంగా శ్రమశక్తి అని మేము భావిస్తున్నాము. మాస్టర్ డేటా మరియు డేటా నాణ్యత అవసరం. ఎందుకంటే మీరు దీన్ని అక్కడ చేయగలిగితే, మీ ఖరీదైన డేటాబేస్ల నుండి మరియు ఆర్ధిక డేటాబేస్లలోకి డేటాను తరలించే పరిపూర్ణమైన ఆర్ధికశాస్త్రం మీకు తెలుసు, ఇది నిజంగా పెద్ద సంస్థలలో ప్రస్తుతం చాలా ఎక్కువ తీసుకుంటుంది.


ఇప్పుడు, కొన్ని సవాళ్లు ఉన్నాయి, సరియైనదా? టెక్నాలజీల చుట్టూ సవాళ్లు ఉన్నాయి. వాటిలో చాలా చాలా అపరిపక్వమైనవి. మీకు తెలుసా, ఎన్ని ఉన్నాయో నాకు తెలియదు, కాని మైక్ పేర్కొన్న అనేక సాంకేతికతలు ఇప్పటికీ జీరో-పాయింట్-ఏదో విడుదలలలో ఉన్నాయి, సరియైనదా? కాబట్టి, ఈ సాంకేతికతలు చాలా చిన్నవి, చాలా అపరిపక్వమైనవి, ఇప్పటికీ కోడ్ ఆధారితవి. మరియు అది నిజంగా సంస్థలకు సవాలును సృష్టిస్తుంది. ఎంటర్ప్రైజ్-స్థాయి సమస్యలను పరిష్కరించడంలో మేము నిజంగా దృష్టి పెడుతున్నాము. అందువల్ల, వేరే మార్గం ఉండాలి అని మేము భావిస్తున్నాము, మరియు ఈ కొన్ని నూతన సాంకేతిక పరిజ్ఞానాలను ఉపయోగించడంలో కొన్ని విషయాల గురించి వేరే మార్గం మేము ప్రతిపాదిస్తున్నాము.


అందువల్ల, ఇక్కడ ఇక్కడ పేర్కొన్న ఇతర ఆసక్తికరమైన విషయం ఏమిటంటే, మీరు ఏ రకమైన హడూప్ వాతావరణంలో సంగ్రహించే డేటాను కలిగి ఉన్నప్పుడు, మీకు తెలుసా, ఇది సాధారణంగా వ్రాసేటప్పుడు స్కీమా కాకుండా చదవడానికి స్కీమా కొన్ని మినహాయింపులతో. మరియు ఆ పఠనం, ఇది చాలా మంది గణాంకవేత్తలచే చేయబడుతోంది. అందువల్ల, గణాంకవేత్తలు విశ్లేషణాత్మక ప్రయోజనాల కోసం డేటాను సరిగ్గా రూపొందించడానికి అనుమతించే సాధనాలను కలిగి ఉండాలి, ఎందుకంటే రోజు చివరిలో, డేటాను ఉపయోగకరంగా చేయడానికి, కొన్నింటిని చూడటానికి లేదా ఒక ప్రశ్నకు సమాధానం ఇవ్వడానికి లేదా ఏదో ఒక రూపంలో నిర్మించబడాలి. వ్యాపారం, కొన్ని రకాల వ్యాపారం, వ్యాపార విలువను సృష్టించండి.


కాబట్టి, మనం ఎక్కడికి వచ్చామో, మనకు చాలా విస్తృత-ఆధారిత మరియు పరిణతి చెందిన EPL, ELT డేటా క్వాలిటీ మాస్టర్ కీ మరియు మేనేజ్‌మెంట్ అప్లికేషన్ ఉన్నాయి. ఇది చాలా, చాలా సంవత్సరాలుగా మార్కెట్లో ఉంది. మరియు ఆ వృత్తాకార గ్రాఫ్‌లో రాబిన్ జాబితా చేసిన అన్ని కార్యాచరణలు లేదా ఎక్కువ కార్యాచరణను కలిగి ఉంది - మొత్తం స్వచ్ఛమైన ముడి డేటా సంగ్రహణ నుండి వివిధ రకాలైన ఫార్మాట్లలో మరియు XML నిర్మాణాలు మరియు వాట్నాట్స్‌లో, అన్ని ప్రక్షాళన చేసే సామర్థ్యం వరకు, డేటా పూర్తి, డేటా యొక్క దిద్దుబాటు, డేటా యొక్క జియోస్పేషియల్ కోర్ బిట్స్. ఈ రోజుల్లో ఇంటర్నెట్ ఆఫ్ థింగ్స్‌తో ఇది చాలా ముఖ్యమైనది. మీకు తెలుసా, మేము చేసే చాలా పనులతో లేదా ఆ డేటాతో చాలా వరకు భౌగోళిక సంబంధం ఉంది. కాబట్టి, పార్సింగ్, టోకనైజేషన్, ప్రక్షాళన, దిద్దుబాటు, ఫార్మాటింగ్, స్ట్రక్చరింగ్ మొదలైనవన్నీ మన ప్లాట్‌ఫామ్‌లో జరుగుతాయి.


ఆపై, మరియు బహుశా, మనం ముఖ్యంగా అనుకుంటున్నది తగ్గింపు ఆలోచన. మాస్టర్ డేటా మేనేజ్‌మెంట్ యొక్క ఏదైనా నిర్వచనాన్ని మీరు పరిశీలిస్తే, దాని యొక్క ప్రధాన భాగం తగ్గింపు. ఇది వివిధ డేటా వనరులలోని ఎంటిటీలను గుర్తించగలదు, ఆపై ఆ ఎంటిటీకి మాస్టర్ రికార్డ్‌ను సృష్టించగలదు. మరియు ఆ సంస్థ ఒక వ్యక్తి కావచ్చు. ఎంటిటీ ఒక విమానంలో ఒక భాగం కావచ్చు, ఉదాహరణకు. మా హెల్త్ క్లబ్ క్లయింట్లలో ఒకరి కోసం మేము చేసినట్లుగా ఈ ఎంటిటీ ఒక ఆహారం కావచ్చు. మేము వారి కోసం మాస్టర్ ఫుడ్ డేటాబేస్ను సృష్టించాము. కాబట్టి, మనం పనిచేస్తున్న ఎంటిటీలు ఏమైనప్పటికీ - మరియు సామాజిక గుర్తింపులు లేదా ఖాతాలు, వ్యక్తులతో అనుబంధించబడిన ఏ పరికరాలు, కార్లు మరియు కొన్ని విషయాలు వంటి వాటి గుర్తింపులు కోసం వ్యక్తులు మరియు ప్రాక్సీలు ఎక్కువగా ఉన్నారు. ఫోన్లు మరియు మీరు ఏమైనా అనుకోవచ్చు.


మీకు తెలుసా, మేము అన్ని రకాల సెన్సార్లను క్రీడా దుస్తులలో ఉంచే క్లయింట్‌తో కలిసి పని చేస్తున్నాము. కాబట్టి, డేటా ప్రతి దిశ నుండి వస్తోంది. మరియు ఒక విధంగా లేదా మరొక విధంగా, ఇది కోర్ ఎంటిటీ యొక్క ప్రతిబింబం లేదా ప్రాతినిధ్యం. మరియు పెరుగుతున్నది, ఆ వ్యక్తులు మరియు ఈ డేటా యొక్క అన్ని వనరుల మధ్య సంబంధాలను గుర్తించే సామర్థ్యం మరియు వారు ఆ కోర్ ఎంటిటీతో ఎలా సంబంధం కలిగి ఉంటారు, ఆపై కాలక్రమేణా ఆ కోర్ ఎంటిటీని ట్రాక్ చేయగలుగుతారు, తద్వారా మీరు ఆ ఎంటిటీ మధ్య మార్పులను విశ్లేషించి అర్థం చేసుకోవచ్చు. మరియు ఆ ఎంటిటీ యొక్క ప్రాతినిధ్యాలలో ఉన్న అన్ని ఇతర అంశాలు, ఉదాహరణకు ప్రజల దీర్ఘకాలిక మరియు రేఖాంశ విశ్లేషణకు నిజంగా కీలకం. మరియు ఇది నిజంగా చాలా ముఖ్యమైన ప్రయోజనాల్లో ఒకటి, పెద్ద డేటా మనకు తీసుకురాగలదని, ప్రజలను బాగా అర్థం చేసుకోవచ్చని మరియు దీర్ఘకాలికంగా, మరియు కాన్ ను అర్థం చేసుకోండి మరియు ప్రజలు ఏ పరికరాల ద్వారా ప్రవర్తిస్తున్నప్పుడు వారు ఎలా ప్రవర్తిస్తున్నారో అర్థం చేసుకోండి. .


కాబట్టి, త్వరగా ఇక్కడకు వెళ్దాం. ఎరిక్ YARN గురించి ప్రస్తావించాడు. మీకు తెలుసా, నేను దీన్ని కొద్ది సేపు విసిరేస్తాను, ఎందుకంటే YARN - ప్రజలు YARN గురించి మాట్లాడుతారు. YARN గురించి ఇంకా చాలా అజ్ఞానం ఉంది. మరియు చాలా మంది వ్యక్తులు నిజంగా కాదు - YARN గురించి ఇంకా చాలా అపార్థాలు ఉన్నాయి. వాస్తవం ఏమిటంటే, మీ అప్లికేషన్ సరైన మార్గంలో ఆర్కిటెక్ట్ చేయబడి ఉంటే, మరియు మీ అప్లికేషన్ ఆర్కిటెక్చర్‌లో మీకు సరైన స్థాయి లేదా సమాంతరీకరణ ఉంటే, అప్పుడు మీరు హడూప్‌ను మీ స్కేలింగ్ ప్లాట్‌ఫామ్‌గా ఉపయోగించడానికి YARN ను ఉపయోగించుకోవచ్చు. మరియు మేము చేసిన పని అదే.


YARN చుట్టూ కొన్ని నిర్వచనాలను ఎత్తి చూపడానికి మీకు తెలుసు. మాకు, నిజంగా YARN అంటే మనకు మరియు ఇతర సంస్థలకు మ్యాప్‌రెడ్యూస్ మరియు స్పార్క్, మరియు అక్కడ ఉన్న అన్ని ఇతర సాధనాలకు తోటివారిగా మారడానికి వీలు కల్పించింది. వాస్తవం ఏమిటంటే, మా అనువర్తనాలు ఆప్టిమైజ్ చేసిన కోడ్‌ను నేరుగా YARN లోకి హడూప్‌లోకి డ్రైవ్ చేస్తాయి. మైక్ ప్రస్తావించిన నిజంగా ఆసక్తికరమైన వ్యాఖ్య ఉంది, ఎందుకంటే, విశ్లేషణలు మరియు మా విశ్లేషణల గురించిన ప్రశ్న, అవి క్లస్టర్‌లో ఉన్నందున, అవి నిజంగా సమాంతరంగా నడుస్తున్నాయా? మీరు అక్కడ ఉన్న చాలా డేటా నాణ్యత సాధనాల గురించి అదే ప్రశ్న అడగవచ్చు.


చాలా రోజులలో, అక్కడ ఉన్న నాణ్యమైన సాధనాలు డేటాను బయటకు తీయాలి లేదా అవి కోడ్‌ను నెట్టివేస్తాయి. మరియు చాలా సందర్భాల్లో, ఇది డేటా యొక్క ఒకే స్ట్రీమ్, ఎందుకంటే మీరు చేయవలసిన మార్గం కారణంగా ప్రాసెస్ చేయబడుతోంది రికార్డులను సరిపోల్చండి, కొన్నిసార్లు డేటా-నాణ్యత రకం కార్యకలాపాలలో. వాస్తవం ఏమిటంటే, మేము YARN ను ఉపయోగిస్తున్నందున, మేము సమాంతరీకరణ యొక్క ప్రయోజనాన్ని పొందగలిగాము.


సాంప్రదాయ డేటాబేస్లు, కొత్త డేటాబేస్లు మొదలైనవాటిని విస్తరించగల ప్రాముఖ్యత గురించి మరొక వ్యాఖ్య చేయబడినందున, మీకు శీఘ్ర అవలోకనం ఇవ్వడానికి, మేము అమలు చేస్తాము లేదా క్లస్టర్ వెలుపల వ్యవస్థాపించాము. మరియు మేము మా బైనరీలను నేరుగా రిసోర్స్ మేనేజర్ YARN లోకి నెట్టివేస్తాము. ఆపై, ఆపై YARN క్లస్టర్‌లోని నోడ్‌లలో పంపిణీ చేస్తుంది. మరియు అది ఏమిటంటే, YARN - మేము YARN ను దాని పనిని నిర్వహించడానికి మరియు చేయటానికి అనుమతిస్తాము, అంటే డేటా ఎక్కడ ఉందో గుర్తించి, పనిని డేటాకు, కోడ్‌ను డేటాకు తీసుకెళ్లడం మరియు డేటాను చుట్టూ తరలించడం కాదు. మీరు డేటా నాణ్యత సాధనాలను విన్నప్పుడు మరియు వారు హడూప్ నుండి డేటాను తరలించడం, మీ జీవితం కోసం పరుగెత్తటం ఉత్తమమైన అభ్యాసం అని వారు మీకు చెప్తున్నారు, ఎందుకంటే ఇది కేవలం మార్గం కాదు. మీరు పనిని డేటాకు తీసుకెళ్లాలనుకుంటున్నారు. YARN మొదట అదే చేస్తుంది. ఇది డేటా ఉన్న నోడ్‌లకు మా బైనరీలను తీసుకువెళుతుంది.


మేము క్లస్టర్ వెలుపల ఉన్నందున, మేము అన్ని సాంప్రదాయ మరియు రిలేషనల్ డేటాబేస్లను కూడా యాక్సెస్ చేయవచ్చు, కాబట్టి సాంప్రదాయ డేటాబేస్లో 100% క్లయింట్ సర్వర్, 100% హడూప్ లేదా హడూప్ క్లయింట్ సర్వర్ అంతటా వెళ్ళే హైబ్రిడ్ ఉద్యోగాలు పొందవచ్చు. , ఒరాకిల్, టెరాడాటా - మీకు కావలసినది మరియు ఒకే ఉద్యోగంలో ఉన్నది, ఎందుకంటే ఒక అమలు ప్రపంచంలోని రెండు వైపులా యాక్సెస్ చేయగలదు.


ఆపై, సాధనాల నాస్సేన్సీ యొక్క మొత్తం ఆలోచనకు తిరిగి వెళుతున్నప్పుడు, మీరు ఇక్కడ చూస్తారు, ఇది కేవలం సాధారణ ప్రాతినిధ్యం. మరియు మేము చేయడానికి ప్రయత్నిస్తున్నది ప్రపంచాన్ని సరళీకృతం చేయడం. మరియు హెచ్‌డిఎఫ్‌ఎస్ చుట్టూ చాలా విస్తృతమైన కార్యాచరణను తీసుకురావడం ద్వారా మేము దీన్ని చేసే విధానం… మరియు మేము అక్కడ ఉన్న అన్ని వినూత్న సాంకేతిక పరిజ్ఞానాలను తొలగించడానికి ప్రయత్నిస్తున్నందున కాదు. ఇది సంస్థలకు స్థిరత్వం అవసరం మరియు వారు కోడ్ ఆధారిత పరిష్కారాలను ఇష్టపడరు. అందువల్ల, మేము చేయటానికి ప్రయత్నిస్తున్నది సంస్థలకు సుపరిచితమైన, పునరావృతమయ్యే, స్థిరమైన అనువర్తన వాతావరణాన్ని ఇవ్వడం, ఇది డేటాను చాలా ict హించదగిన రీతిలో రూపొందించడానికి మరియు ప్రాసెస్ చేయగల సామర్థ్యాన్ని ఇస్తుంది.


త్వరగా, ఇది మా అనువర్తనంతో మనకు లభించే రకమైన ప్రభావం. మీరు మ్యాప్‌రెడ్యూస్ వర్సెస్ పిగ్ వర్సెస్ రెడ్‌పాయింట్ - రెడ్‌పాయింట్‌లో కోడ్ యొక్క పంక్తులు లేవు. మ్యాప్‌రెడ్యూస్‌లో ఆరు గంటల అభివృద్ధి, పిగ్‌లో మూడు గంటల అభివృద్ధి, రెడ్‌పాయింట్‌లో 15 నిమిషాల అభివృద్ధి. అక్కడే మేము నిజంగా భారీ ప్రభావాన్ని చూపుతాము. ప్రాసెసింగ్ సమయం కూడా వేగంగా ఉంటుంది, కాని ప్రజల సమయం, ప్రజల ఉత్పాదకత సమయం గణనీయంగా పెరుగుతుంది.


మరియు ఇక్కడ నా చివరి స్లైడ్, నేను ఈ ఆలోచనకు తిరిగి వెళ్లాలనుకుంటున్నాను, ఎందుకంటే ఇది డేటా సరస్సు లేదా డేటా హబ్ లేదా డేటా రిఫైనరీని తీసుకోవడం యొక్క కేంద్ర బిందువుగా ఉపయోగించడం. ఆ ఆలోచనతో ఎక్కువ అంగీకరించలేదు. మరియు మేము ప్రస్తుతం ప్రధాన గ్లోబల్ బ్యాంకుల చీఫ్ డేటా ఆఫీసర్లతో చర్చలు జరుపుతున్నాము మరియు ఇది ఎంపిక యొక్క నిర్మాణం.అన్ని వనరుల నుండి డేటా తీసుకోవడం డేటా సరస్సు లోపల డేటా క్వాలిటీ ప్రాసెసింగ్ మరియు మాస్టర్ డేటా మేనేజ్‌మెంట్ చేస్తుంది, ఆపై, డేటాను మద్దతు అనువర్తనాలకు వెళ్లడానికి, BI కి మద్దతు ఇవ్వడానికి అవసరమైన చోట నెట్టండి. ఆపై, మీకు BI లో విశ్లేషణలు ఉంటే, అవి నేరుగా డేటా సరస్సు లోపల నడుస్తాయి, ఇక్కడ అన్నింటికన్నా మంచిది, అది వెంటనే ప్రారంభించవచ్చు. కానీ ఈ ఆలోచనతో బోర్డులో చాలా. ఇక్కడ ఈ టోపోలాజీ ఒకటి - మార్కెట్లో చాలా ట్రాక్షన్ పొందుతున్నట్లు మేము కనుగొన్నాము. మరియు, అది.


ఎరిక్: సరే, మంచిది. ఇక్కడే వెళ్దాం. నేను ముందుకు వెళ్లి కీత్‌కు అప్పగిస్తాను. మరియు, కీత్, మీరు ఇక్కడ ఇంటిని రాక్ చేయడానికి 10, 12 నిమిషాలు వచ్చారు. ఈ ప్రదర్శనలలో మేము కొంచెం సేపు వెళ్ళాము. మరియు దీని కోసం మేము 70 నిమిషాలు ప్రచారం చేసాము. కాబట్టి, ముందుకు వెళ్లి, ఆ స్లైడ్‌లో ఎక్కడైనా క్లిక్ చేసి, క్రింది బాణాన్ని ఉపయోగించండి మరియు దాన్ని తీసివేయండి.


కీత్: తప్పకుండా. సమస్య లేదు, ఎరిక్. నేను దాన్ని మెచ్చుకుంటున్నాను. నేను ముందుకు వెళ్లి SAS గురించి కొన్ని ముక్కలు కొట్టబోతున్నాను, ఆపై నేను SAS పెద్ద డేటా ప్రపంచంతో కలిసే టెక్నాలజీ ఆర్కిటెక్చర్లలోకి వెళ్తాను. ఈ అన్ని విషయాలలో వివరించడానికి చాలా ఉన్నాయి. మేము చాలా వివరంగా దాని ద్వారా గంటలు గడపవచ్చు, కాని పది నిమిషాలు - ఈ పెద్ద డేటా ప్రపంచంలోకి SAS విశ్లేషణలు, డేటా మేనేజ్‌మెంట్ మరియు బిజినెస్ ఇంటెలిజెన్స్ టెక్నాలజీలను ఎక్కడికి తీసుకువెళ్ళిందనే దానిపై క్లుప్త అవగాహనతో మీరు దూరంగా నడవగలరు.


మొదట, SAS గురించి కొంచెం. మీకు ఈ సంస్థ గురించి తెలియకపోతే, మేము గత 38 సంవత్సరాలుగా, పెద్ద డేటాతోనే కాకుండా, గత 38 సంవత్సరాలుగా చిన్న డేటా మరియు డేటా సంపదతో అధునాతన విశ్లేషణలు, వ్యాపార మేధస్సు మరియు డేటా నిర్వహణ చేస్తున్నాము. మనకు ఇప్పటికే ఉన్న అపారమైన కస్టమర్ అడుగు ఉంది, ప్రపంచవ్యాప్తంగా 75,000 సైట్లు, అక్కడ ఉన్న కొన్ని అగ్ర సంస్థలతో కలిసి పనిచేస్తున్నాయి. మేము సుమారు 13,000 మంది ఉద్యోగులు మరియు 3 బిలియన్ డాలర్ల ఆదాయంతో ఒక ప్రైవేట్ సంస్థ. మరియు నిజంగా నిజంగా, నేను part హిస్తున్నాను, ముఖ్యమైన భాగం మనకు సాంప్రదాయకంగా మా ఆదాయంలో గణనీయమైన మొత్తాన్ని తిరిగి మా R&D సంస్థలోకి తిరిగి పెట్టుబడి పెట్టడం యొక్క చరిత్ర ఉంది, ఇది నిజంగా ఈ అద్భుతమైన సాంకేతిక పరిజ్ఞానాలను మరియు ప్లాట్‌ఫారమ్‌లను మీరు భరించడానికి తీసుకువచ్చింది ' ఈ రోజు చూడబోతున్నాను.


కాబట్టి, నేను నిజంగా భయానక ఆర్కిటెక్చర్ రేఖాచిత్రాలలోకి వెళ్తాను. మేము నా స్లైడ్‌లలో ఎడమ నుండి కుడికి పని చేస్తాము. కాబట్టి, ఈ ప్లాట్‌ఫారమ్‌లో మీరు చూడబోయే సుపరిచితమైన విషయాలు ఉన్నాయి. ఎడమ వైపున, ఈ పెద్ద డేటా ప్లాట్‌ఫామ్‌లలోకి ప్రవేశించడం గురించి మేము మాట్లాడుతున్న అన్ని డేటా వనరులు. ఆపై, మీకు ఈ పెద్ద డేటా ప్లాట్‌ఫాం వచ్చింది.


నేను హడూప్ అనే పదాన్ని ఎగువన ఉంచలేదు, ఎందుకంటే చివరికి, ఈ రోజు నేను ఇవ్వబోయే ఉదాహరణలు ఈ పెద్ద డేటా ప్లాట్‌ఫామ్‌లతో మనం కలిసే అన్ని సాంకేతిక పరిజ్ఞానాల చుట్టూ ఉన్నాయి. హడూప్ మనకు చాలా బలమైన విస్తరణ ఎంపికలను కలిగి ఉన్న వాటిలో ఒకటిగా ఉంది, కాని మేము కూడా కొంచెం కలుస్తాము మరియు టెరాడాటా వంటి మా ఇతర ఎంటర్ప్రైజ్ డేటా గిడ్డంగి భాగస్వాములతో కొంతకాలం ఈ సాంకేతిక పరిజ్ఞానాలను కొంతకాలం అభివృద్ధి చేసాము, ఒరాకిల్, కీలకమైనవి మరియు వంటివి. అందువల్ల, అన్ని విభిన్న సాంకేతిక పరిజ్ఞానాలు ఏ ప్లాట్‌ఫామ్‌లో మద్దతు ఇస్తున్నాయో నేను గొప్ప వివరాల్లోకి వెళ్ళలేను, కాని ఈ రోజు నేను వివరించేవన్నీ ఎక్కువగా హడూప్ మరియు వాటిలో ఎక్కువ భాగం ఇతర సాంకేతిక భాగస్వాములతో కలుస్తాయి అని హామీ ఇవ్వండి. మాకు ఉంది. కాబట్టి, అక్కడ కూర్చున్న పెద్ద ప్లాట్‌ఫాం మాకు లభించింది.


తదుపరిది కుడి వైపున, మా SAS LASR Analytic Server ఉంది. ఇప్పుడు, ముఖ్యంగా, మెమరీ అనలిటిక్ అప్లికేషన్ సర్వర్‌లో భారీగా సమాంతరంగా ఉంది. ఇది మెమరీలోని డేటాబేస్ కాదని మాకు స్పష్టంగా తెలుస్తుంది. ఇది నిజంగా భూమి నుండి రూపొందించబడింది. ఇది ప్రశ్న ఇంజిన్ కాదు, విశ్లేషణాత్మక అభ్యర్ధనలను భారీ స్థాయిలో సమాంతరంగా అందించడానికి రూపొందించబడింది. కాబట్టి, అక్కడ మీరు కుడి వైపున చూసే సేవా కీ అనువర్తనాలు.


ప్రజలు ఈ విషయాలను ఎలా అమలు చేస్తారో మీకు తెలుసా. కానీ ముఖ్యంగా, అప్లికేషన్ - మీరు అక్కడ చూస్తున్నారా - మొదటిది, మా SAS అధిక-పనితీరు విశ్లేషణలు. అది జరగబోతోంది - నేను ప్రస్తుతం ఉన్న చాలా సాంకేతిక పరిజ్ఞానాన్ని మరియు ఎంటర్‌ప్రైజ్ మైనర్ లేదా కేవలం ఒక SAS వంటి ప్లాట్‌ఫారమ్‌లను ఉపయోగిస్తున్నాను మరియు మనం చేసిన సాధనాలలో నిర్మించిన కొన్ని అల్గారిథమ్‌లతో మల్టీథ్రెడింగ్ చేయడం మాత్రమే కాదు సంవత్సరాలు, కానీ వాటిని భారీగా సమాంతరంగా కూడా. కాబట్టి, ఆ పెద్ద డేటా ప్లాట్‌ఫాం నుండి డేటాను ఆ LASR ఎనలిటిక్ సర్వర్‌కు తరలించడానికి, తద్వారా మేము విశ్లేషణాత్మక అల్గారిథమ్‌లను అమలు చేయగలము - మీకు తెలుసా, చాలా కొత్త యంత్ర అభ్యాసం, న్యూరల్ నెట్స్, యాదృచ్ఛిక అటవీ రిగ్రెషన్స్, ఆ రకమైన విషయాలు - మళ్ళీ, మెమరీలో కూర్చున్న డేటా. కాబట్టి, మేము ఆ ప్లాట్‌ఫామ్‌లకు దాఖలు చేసే నిర్దిష్ట మ్యాప్‌రెడ్యూస్ పారాడిగ్మ్ అడ్డంకిని వదిలించుకోవటం, మీరు విశ్లేషణాత్మక పని చేయాలనుకునే మార్గం కాదు. కాబట్టి, మేము డేటాను ఒక సారి మెమరీ స్పేస్ లోకి ఎత్తండి మరియు దాని ద్వారా మళ్ళించగలగాలి, మీకు తెలుసా, కొన్నిసార్లు వేల సార్లు. కాబట్టి, ఇది అధిక-పనితీరు గల విశ్లేషణాత్మక LASR సర్వర్‌ను ఉపయోగించాలనే భావన.


మేము కూడా - దాని క్రింద ఉన్న ఇతర అనువర్తనాలు, విజువల్ అనలిటిక్స్, ఆ డేటాను మెమరీలో కొనసాగించడానికి మరియు అదే డేటాలో ఎక్కువ జనాభాను అందించడానికి అనుమతిస్తుంది. కాబట్టి, పెద్ద డేటా అన్వేషణ చేయడానికి ప్రజలను అనుమతిస్తుంది. కాబట్టి, మా మోడల్ డెవలప్‌మెంట్ పనులు చేయడానికి ముందు, మేము డేటాను అన్వేషిస్తున్నాము, అర్థం చేసుకోవడం, సహసంబంధాలను అమలు చేయడం, అంచనా వేయడం లేదా నిర్ణయం తీసుకునే చెట్లను - ఆ రకమైన విషయాలు - కాని జ్ఞాపకశక్తిలో కూర్చున్న డేటాపై చాలా దృశ్యమాన, ఇంటరాక్టివ్ మార్గంలో వేదిక. ఇది మీరు చూసే ప్రామాణిక రకాల రికార్డింగ్ చేయడానికి ఆ ప్లాట్‌ఫారమ్‌ను తాకిన చాలా విస్తృతమైన వినియోగదారుల స్థావరాలను కలిగి ఉన్నంతవరకు కూడా మా BI కమ్యూనిటీకి సేవలు అందిస్తుంది - ఇది మీకు తెలిసిన BI విక్రేత.


తదుపరి దశ, మేము అప్పుడు సేవలోకి వెళ్తాము. మరియు మా గణాంక శాస్త్రవేత్తలు మరియు మా అనలిటిక్స్ వారిని మెమరీలో కూర్చొని, దృశ్య విశ్లేషణలు మరియు అన్వేషణల నుండి మా దృశ్య గణాంక అనువర్తనంలోకి తీసివేసి, ఆ రకమైన తాత్కాలిక మోడలింగ్‌ను చేయగలుగుతారు. ఇది ప్రజలు తీసుకునే అవకాశం, బ్యాచ్‌లలో గణాంకాలను అమలు చేయకపోవడం, పునరావృతం చేయడం, మోడళ్లను అమలు చేయడం, ఫలితాలను చూడటం. కాబట్టి, అది మోడల్‌ను అమలు చేయగలదు, ఫలితాలను చూడండి. ఇది ఇంటరాక్టివ్ స్టాటిస్టికల్ మోడలింగ్‌లోకి దృశ్యమానంగా లాగడం మరియు వదలడం. కాబట్టి, ఇది మా గణాంక శాస్త్రవేత్తలకు మరియు మా డేటా శాస్త్రవేత్తలకు ఆ ప్రారంభ అన్వేషణాత్మక దృశ్య గణాంక పనిని చేయడానికి ఉపయోగపడుతుంది.


ఆపై, మేము మా కోడర్‌లను మరచిపోలేదు - నిజంగా కోరుకునేవారు, ఇంటర్‌ఫేస్ యొక్క పొరలను సరసన వేయగలుగుతారు, అనువర్తనాలను వ్రాయడం మరియు SAS లో వారి స్వంత కోడ్ బేస్ రాయడం. మరియు ఇది హడూప్ కోసం మా ఇన్-మెమరీ గణాంకాలు. మరియు అది - ముఖ్యంగా ఆ ఆదేశ పొరలను నేరుగా జారీ చేయడానికి మరియు మా అభ్యర్థన ఆధారంగా ఆ అనువర్తనాలను అనుకూలీకరించడానికి ఆ విశ్లేషణాత్మక LASR సర్వర్‌తో సంభాషించడానికి మాకు అనుమతించిన కోడ్ పొర. ఇది విశ్లేషణాత్మక భాగం.


ఈ విషయాలు ఎలా ఏర్పాటు చేయబడతాయి… అయ్యో, నన్ను క్షమించండి. అక్కడ మేము వెళ్తాము.


కాబట్టి, మేము దీన్ని చేయడానికి కొన్ని మార్గాలు ఉన్నాయి. ఒకటి పెద్ద డేటాతో చేయటం - ఈ సందర్భంలో, హడూప్‌తో. హార్డ్కోర్ అనలిటిక్స్ కోసం ఆప్టిమైజ్ చేయబడిన యంత్రాల ప్రత్యేక సమూహంలో నడుస్తున్న SAS LASR Analytic సర్వర్ మనకు ఉంది. ఇది బాగుంది మరియు పెద్ద డేటా ప్లాట్‌ఫామ్‌కు దగ్గరగా ఉంటుంది, ఇది పెద్ద డేటా ప్లాట్‌ఫాం నుండి విడిగా స్కేల్ చేయడానికి అనుమతిస్తుంది. కాబట్టి, ప్రజలు తమ హడూప్ క్లస్టర్‌లోని ప్రతి నోడ్ల వద్ద తినే పిశాచ సాఫ్ట్‌వేర్ వంటి లక్షణాలను నేను కలిగి ఉండకూడదనుకున్నప్పుడు వారు ఇలా చేయడం మనం చూస్తాము. మరియు అవి మెమరీ విశ్లేషణలను భారీగా ఎత్తడానికి తగిన పెద్ద డేటా ప్లాట్‌ఫారమ్‌ను స్కేల్ చేయవు. కాబట్టి, మీరు వారి హడూప్ క్లస్టర్ యొక్క 120 నోడ్లను కలిగి ఉండవచ్చు, కానీ వాటిలో 16 నోడ్ల విశ్లేషణాత్మక సర్వర్లు ఉండవచ్చు, అవి ఆ రకమైన పని చేయడానికి రూపొందించబడ్డాయి.


డేటాను మెమరీలోకి లాగడానికి పెద్ద డేటా ప్లాట్‌ఫాం నుండి ఆ సమాంతరతను కొనసాగించడానికి మాకు ఇంకా అనుమతి ఉంది. కాబట్టి, ఇది నిజంగా హడూప్ ప్లాట్‌ఫామ్‌తో SAS ను ఉపయోగిస్తుంది. వేరే అపాయింట్‌మెంట్ మోడల్ ఏమిటంటే, మనం ఆ వస్తువు ప్లాట్‌ఫామ్‌ను కూడా ఉపయోగించుకోవచ్చు మరియు దానిని నెట్టవచ్చు - ముఖ్యంగా హడూప్ ప్లాట్‌ఫామ్‌లపై అనలిటిక్ లాస్ఆర్ సర్వర్‌ను అమలు చేయండి. కాబట్టి, మేము అక్కడే ఉన్నాము… మీరు పెద్ద డేటా ప్లాట్‌ఫామ్‌లో పనిచేస్తున్నారు. ఇది మా ఇతర ఉపకరణాల విక్రేతలు కూడా. కాబట్టి, ఆ పని చేయడానికి ఆ వస్తువు ప్లాట్‌ఫారమ్‌ను ఉపయోగించడానికి ఇది మాకు అనుమతించబడుతుంది.


అధిక-పనితీరు విశ్లేషణలు, ఇది ఒకే-సేవ లేదా ఒకే-ఉపయోగ రకమైన విశ్లేషణాత్మక రన్, మీరు ఎక్కడ ఉన్న బ్యాచ్ ఓరియెంటెడ్ వంటి వాటితో ఎక్కువగా చూస్తాము - మీరు తప్పనిసరిగా హడూప్ వద్ద మెమరీ స్థలాన్ని వినియోగించడం ఇష్టం లేదు వేదిక. మేము ఈ రకమైన విస్తరణ నమూనాలో చాలా సరళంగా ఉన్నాము, ఖచ్చితంగా మేము చాలా మంచి సందర్భాలలో YARN తో కలిసి పని చేస్తున్నాము, మేము మంచి క్లస్టర్‌లను ఆడుతున్నామని నిర్ధారించుకోండి.


సరే, విశ్లేషణాత్మక అనువర్తనంతో స్పష్టంగా ఉండటానికి ఇది విశ్లేషణాత్మక ప్రపంచం. కానీ నేను ప్రారంభంలో SAS కూడా డేటా మేనేజ్‌మెంట్ ప్లాట్‌ఫామ్ అని పేర్కొన్నాను. మరియు తర్కాన్ని ఆ ప్లాట్‌ఫామ్‌లోకి తగిన చోట నెట్టడానికి తగిన విషయాలు ఉన్నాయి. కాబట్టి, మనం చేసే రెండు మార్గాలు ఉన్నాయి. ఒకటి డేటా ఇంటిగ్రేషన్ ప్రపంచంలో ఉంది, డేటాపై డేటా ట్రాన్స్ఫర్మేషన్ పని చేయడం మనం ఇంతకుముందు విన్నట్లుగా దాన్ని వెనక్కి లాగడం సమంజసం కాదు, డేటా నాణ్యత నిత్యకృత్యాలను అమలు చేయడం పెద్దది. డేటా నాణ్యత నిత్యకృత్యాలు వంటి వాటిని ఖచ్చితంగా ఆ ప్లాట్‌ఫామ్‌లోకి నెట్టాలని మేము కోరుకుంటున్నాము. ఆపై, మోడల్ స్కోరింగ్ వంటి విషయాలు. కాబట్టి, నా మోడల్ అభివృద్ధి చెందింది. నేను మ్యాప్‌రెడ్యూస్‌లో ఆ విషయాన్ని తిరిగి వ్రాయడం ఇష్టం లేదు మరియు స్థానిక డేటాబేస్ ప్లాట్‌ఫామ్‌లోకి ఆ పనిని పునరావృతం చేయడం నాకు కష్టంగా మరియు సమయం తీసుకుంటుంది.


కాబట్టి, మీరు చూస్తే, ఉదాహరణకు, హడూప్ కోసం మా స్కోరింగ్ యాక్సిలరేటర్, ఇది తప్పనిసరిగా ఒక మోడల్ తీసుకొని, SAS గణిత తర్కాన్ని ఆ హడూప్ ప్లాట్‌ఫామ్‌లోకి నెట్టివేసి, అక్కడ అమలు చేయడానికి, ఆ పెద్ద డేటా ప్లాట్‌ఫామ్‌లోని సమాంతరతను ఉపయోగించి అనుమతిస్తుంది. హడూప్‌తో సహా వివిధ ప్లాట్‌ఫారమ్‌ల కోసం మా కోడ్ యాక్సిలరేటర్‌ను కలిగి ఉన్నాము మరియు ఇది ప్లాట్‌ఫామ్‌లోని SAS డేటా స్టెప్ కోడ్‌ను భారీగా సమాంతరంగా అమలు చేయడానికి అనుమతిస్తుంది - కాబట్టి, ప్లాట్‌ఫామ్‌లో డేటా ట్రాన్స్ఫర్మేషన్ రకాల పనిని చేయడం. ఆపై మా SAS డేటా క్వాలిటీ యాక్సిలరేటర్ అక్కడ కూర్చొని నాణ్యమైన నాలెడ్జ్ బేస్ కలిగి ఉండటానికి వీలు కల్పిస్తుంది, అది లింగ సరిపోలిక, ప్రామాణీకరణ మ్యాచ్ కోడ్ వంటి పనులను చేయగలదు - ఈ రోజు మీరు ఇప్పటికే విన్న అన్ని విభిన్న డేటా నాణ్యత విషయాలు.


ఆపై, చివరి భాగం, డేటా లోడర్ ఉంది. మా వ్యాపార వినియోగదారులు ఈ పెద్ద డేటా ప్లాట్‌ఫామ్‌లలో కోడ్ రాయడం, డేటా పరివర్తన పని చేయకపోవడం మాకు తెలుసు. డేటా లోడర్ ఒక మంచి WYSIWYG GUI, ఇది ఇతర సాంకేతిక పరిజ్ఞానాలను కలిసి చుట్టడానికి అనుమతిస్తుంది. ఇది ఒక హైవ్ ప్రశ్నను అమలు చేయడం లేదా డేటా నాణ్యత దినచర్యను అమలు చేయడం మరియు ఆ సందర్భంలో కోడ్ రాయడం అవసరం లేదు.


నేను ప్రస్తావించే చివరి విషయం ఈ ముందు భాగం. మనకు - నేను ఇంతకు ముందు చెప్పినట్లుగా - ప్రపంచంలో ఒక భారీ SAS అడుగు ఉంది. మరియు, ఈ స్థలంలో ఉన్న ప్లాట్‌ఫారమ్‌లన్నింటినీ మేము వెంటనే చేయలేము. కాబట్టి, టెరాడాటా నుండి డేటాను పొందడం మరియు దానిని తిరిగి హడూప్‌లోకి ఉంచడం మరియు దీనికి విరుద్ధంగా ఈ పెద్ద డేటా ప్లాట్‌ఫామ్‌లలో కూర్చుని డేటాను పొందాల్సిన అవసరం ఉన్న వినియోగదారుల అడుగు మనకు ఖచ్చితంగా ఉంది. నా SAS సర్వర్‌లలో ఎలా అమలు చేయాలో నాకు ఇప్పటికే తెలిసిన మోడళ్లను అమలు చేస్తున్నాను, కాని ఇప్పుడు నేను హడూప్ ప్లాట్‌ఫామ్‌లో ఉంచిన డేటాను పొందాలి. కాబట్టి, అక్కడ "నుండి" అని పిలువబడే ఈ ఇతర చిన్న చిహ్నం ఉంది మరియు ఇది మా SAS యాక్సెస్ ఇంజిన్‌లను ఉపయోగించి కనెక్ట్ అవ్వడానికి అనుమతిస్తుంది - పోలాలోని హడూప్ నుండి క్లౌడెరాకు, టెరాడాటాకు, గ్రీన్‌ప్లమ్‌కు యాక్సెస్ ఇంజిన్‌లను… మరియు జాబితా కొనసాగుతుంది. ఈ ప్లాట్‌ఫారమ్‌ల నుండి డేటాను పొందడానికి ఇప్పటికే ఉన్న మా పరిపక్వ SAS ప్లాట్‌ఫారమ్‌లను ఉపయోగించడానికి ఇది అనుమతిస్తుంది, మనం పూర్తి చేయాల్సిన పనిని చేయండి, ఫలితాలను ఈ ప్రాంతాలకు తిరిగి నెట్టండి.


నేను ప్రస్తావించే చివరి విషయం ఏమిటంటే, మీరు చూసే ఈ టెక్నాలజీలన్నీ ఒకే ప్రామాణిక సాధారణ మెటాడేటా చేత నిర్వహించబడతాయి. కాబట్టి, మేము పరివర్తన పనిని పొందడం, పనిలో డేటా నాణ్యత నియమం, విశ్లేషణలు చేయగలిగేలా మెమరీలోకి మార్చడం, స్కోరింగ్‌లో మోడల్ అభివృద్ధి గురించి మాట్లాడతాము. ఈ రోజు మనం ఇంతకుముందు మాట్లాడిన అన్ని విషయాల ద్వారా సాధారణ విశ్లేషణాత్మక జీవనశైలి, జీవితచక్రం సాధారణ మెటాడేటా, పాలన ద్వారా, భద్రత ద్వారా నిర్వహించబడుతోంది.


కాబట్టి, కేవలం ఒక పునశ్చరణ, అక్కడ ఆ మూడు పెద్ద విషయాలు నిజంగా ఉన్నాయి. ఒకటి, మేము డేటా ప్లాట్‌ఫామ్‌ను ఇతర డేటా సోర్స్‌ల మాదిరిగానే వ్యవహరించవచ్చు, వాటి నుండి లాగడం, తగిన మరియు సౌకర్యవంతంగా ఉన్నప్పుడు వాటిని నెట్టడం. మేము ఆ పెద్ద డేటా ప్లాట్‌ఫామ్‌లతో పని చేయవచ్చు, డేటాను మెమరీ ప్లాట్‌ఫామ్‌లో ఉద్దేశ్యంతో నిర్మించిన అధునాతన విశ్లేషణాత్మకంగా జాబితా చేయవచ్చు. కాబట్టి, అది LASR సర్వర్.


ఆపై, చివరగా, మేము ఆ పెద్ద డేటా ప్లాట్‌ఫామ్‌లలో నేరుగా పని చేయవచ్చు, డేటాను చుట్టూ కదలకుండా వాటి పంపిణీ ప్రాసెసింగ్ సామర్థ్యాలను పెంచుతాము.


ఎరిక్: బాగా, ఇది అద్భుతమైన విషయం, చేసారో. అవును, ఇది చాలా బాగుంది! కాబట్టి, కొన్ని ప్రశ్నలకు డైవ్ చేద్దాం. మేము సాధారణంగా ఈ సంఘటనలపై 70 నిమిషాలు లేదా కొంచెం ఎక్కువసేపు వెళ్తాము. కాబట్టి, మనకు ఇంకా గొప్ప ప్రేక్షకులు అక్కడ కూర్చుని ఉన్నారని నేను చూస్తున్నాను. జార్జ్, నేను మా మొదటి ప్రశ్నను మీ వద్దకు విసిరేస్తానని gu హిస్తున్నాను. మీరు మీ బైనరీ ధ్వనిని హడూప్‌లోకి నెట్టడం గురించి మాట్లాడితే, మీరు నిజంగా గణన వర్క్‌ఫ్లోను ఆప్టిమైజ్ చేసినట్లు అనిపిస్తుంది. ఈ రకమైన రియల్ టైమ్ డేటా గవర్నెన్స్, డేటా క్వాలిటీ స్టైల్ విజయాలు చేయగలిగేలా చేయడానికి ఇది మొత్తం కీ, ఎందుకంటే ఇది మీరు పొందాలనుకునే విలువ, సరియైనదేనా? మీరు MDM యొక్క పాత ప్రపంచానికి తిరిగి వెళ్లకూడదనుకుంటే అది చాలా గజిబిజిగా ఉంటుంది మరియు ఇది చాలా సమయం తీసుకుంటుంది, మరియు మీరు నిజంగా ప్రజలను కొన్ని మార్గాల్లో పనిచేయమని బలవంతం చేయాలి, ఇది దాదాపు ఎప్పుడూ పనిచేయదు. అందువల్ల, మీరు ఏమి చేసారో, మీరు ఉన్నదాని యొక్క చక్రాన్ని ఘనీకృతమయ్యారు. దీన్ని రోజులు, వారాలు, కొన్నిసార్లు నెలలు కూడా సెకన్ల వరకు పిలుద్దాం, సరియైనదా? అదే జరుగుతుందా?


జార్జ్: ఇది ఖచ్చితంగా సరైనది, ఎందుకంటే మనకు లభించే స్కేల్ మరియు క్లస్టర్ నుండి బయటపడే పనితీరు నిజంగా అద్భుతమైనవి, మీకు తెలుసా, నేను ఎప్పుడూ బెంచ్‌మార్క్‌ల గురించి కొంచెం సంకోచించను. మాగ్నిట్యూడ్ క్రమం కోసం, మేము ఒక బిలియన్, 1.2 బిలియన్ రికార్డులను నడుపుతున్నప్పుడు మరియు పూర్తి చిరునామా ప్రామాణీకరణ చేసేటప్పుడు - నేను మిడ్-రేంజ్ HP మెషీన్ను చెప్తున్నాను - ఇది మీకు తెలిసిన ఎనిమిది ప్రాసెసర్ యంత్రాలను తీసుకుంటుంది, మీకు తెలుసు , కోర్కు 2 గిగ్స్ ర్యామ్, మీకు తెలుసా, అది అమలు చేయడానికి 20 గంటలు పడుతుంది. 12-నోడ్ క్లస్టర్‌లో మీకు ఇప్పుడు ఎనిమిది నిమిషాల్లో దీన్ని చేయవచ్చు. కాబట్టి, మేము ఇప్పుడు చేయగలిగే ప్రాసెసింగ్ యొక్క స్థాయి చాలా నాటకీయంగా భిన్నంగా ఉంటుంది - మరియు మీ వద్ద మీ వద్ద ఈ డేటా అంతా ఉందనే ఆలోచనతో ఇది చాలా చక్కగా సాగుతుంది. కాబట్టి, ప్రాసెసింగ్ చేయడం అంత ప్రమాదకరం కాదు. మీరు తప్పు చేస్తే, మీరు దీన్ని పునరావృతం చేయవచ్చు. మీకు సమయం ఉంది, మీకు తెలుసు. ఇది నిజంగా ఈ స్థాయిని మార్చింది, మీకు తెలుసా, ఆ రకమైన నష్టాలు వారు MDM పరిష్కారాలను ఆపరేట్ చేయడానికి ప్రయత్నిస్తున్నప్పుడు ప్రజలకు నిజమైన వ్యాపార సమస్యలుగా మారాయి. మీరు 30 మంది ఆఫ్‌షోర్‌లో డేటా గవర్నెన్స్ మరియు ప్రతిదీ చేయాలి. అందువల్ల, మీరు ఇంకా కొన్నింటిని కలిగి ఉండాలి, కానీ మీరు ఇప్పుడు దాన్ని ప్రాసెస్ చేయగల వేగం మరియు స్కేల్, నిజంగా మీకు చాలా ఎక్కువ శ్వాస గదిని ఇస్తుంది.


ఎరిక్: అవును, ఇది నిజంగా మంచి విషయం. నేను ఆ వ్యాఖ్యను ప్రేమిస్తున్నాను. కాబట్టి, దాన్ని మళ్ళీ పునరావృతం చేయడానికి మీకు సమయం ఉంది. ఇది అద్భుతమైనది.


జార్జ్: అవును.


ఎరిక్: సరే, ఇది డైనమిక్స్‌ను మారుస్తుంది, సరియైనదా? మీరు ప్రయత్నించబోయే దాని గురించి మీరు ఎలా ఆలోచిస్తారో ఇది మారుస్తుంది. నా ఉద్దేశ్యం, స్పెషల్ ఎఫెక్ట్స్ చేసే పరిశ్రమలో 18 సంవత్సరాల క్రితం నేను దీన్ని గుర్తుంచుకున్నాను, ఎందుకంటే నాకు ఆ స్థలంలో ఒక క్లయింట్ ఉంది. మరియు మీరు దానిని అందించడానికి బటన్లను నొక్కండి మరియు మీరు ఇంటికి వెళతారు. అది ఎలా జరుగుతుందో చూడటానికి మీరు శనివారం మధ్యాహ్నం తిరిగి వస్తారు. మీరు తప్పుగా భావిస్తే, అది చాలా, చాలా, చాలా బాధాకరమైనది. ఇప్పుడు, ఇది దాదాపుగా లేదు - ఇది బాధాకరంగా ఉండటానికి కూడా దగ్గరగా లేదు, కాబట్టి మీకు మరిన్ని అంశాలను ప్రయత్నించే అవకాశం ఉంది. నేను చెప్పేది, ఇది నిజంగా మంచి పాయింట్ అని నేను అనుకుంటున్నాను.


జార్జ్: ఇది సరిగ్గా ఉంది. అవును, మరియు మీరు మీ అదనపు కాలును చెదరగొట్టండి. మీకు తెలుసా, మీరు పాత రోజుల్లో ఉద్యోగంలో సగం వరకు ఉంటారు మరియు అది విఫలమవుతుంది, మీరు మీ SOS ను ఎగిరిపోయారు. అంతే.


ఎరిక్: కుడి. మరియు మీరు పెద్ద ఇబ్బందుల్లో ఉన్నారు, అవును. అది నిజం.


జార్జ్: అది నిజం. అది నిజం.


ఎరిక్: కీత్, నేను మీ మీదకు విసిరేస్తాను. మీ సిఐఎల్, కీత్ కాలిన్స్‌తో ఇంటర్వ్యూ చేయడం నాకు గుర్తుంది, నేను నమ్ముతున్నాను, తిరిగి, 2011 అనుకుంటున్నాను. SAS నుండి పొందిన విశ్లేషణలను కార్యాచరణ వ్యవస్థల్లోకి పొందుపరచడానికి కస్టమర్లతో కలిసి పనిచేయడానికి సంబంధించి SAS ప్రత్యేకంగా తీసుకుంటున్న దిశ గురించి అతను చాలా మాట్లాడాడు. వాస్తవానికి, మైక్ ఫెర్గూసన్ గుర్తుంచుకోవడం యొక్క ప్రాముఖ్యత గురించి మేము విన్నాము. ఇక్కడ ఉన్న మొత్తం ఆలోచన ఏమిటంటే, మీరు ఈ విషయాన్ని మీ కార్యకలాపాలతో ముడిపెట్టగలగాలి. ఎంటర్ప్రైజ్ నుండి డిస్‌కనెక్ట్ చేయబడిన శూన్యంలో విశ్లేషణను మీరు కోరుకోరు. దానికి విలువ లేదు.


మీరు విశ్లేషణలను కోరుకుంటే అది కార్యకలాపాలను ప్రత్యక్షంగా ప్రభావితం చేస్తుంది మరియు ఆప్టిమైజ్ చేస్తుంది. నేను వెనక్కి తిరిగి చూస్తే - మరియు నేను చెప్పేదేమిటంటే, ఇది మంచి ఆలోచన అని నేను అనుకున్నాను - ఇది పునరాలోచనలో నిజంగా, నిజంగా మంచి ఆలోచనలా ఉంది. నేను ess హిస్తున్నాను, ఇది మీకు ఉన్న నిజమైన ప్రయోజనం. వాస్తవానికి, ఈ గొప్ప వారసత్వం, ఈ భారీ ఇన్‌స్టాల్ బేస్ మరియు మీరు ఈ విశ్లేషణలను కార్యాచరణ వ్యవస్థల్లో పొందుపరచడంపై దృష్టి పెట్టారు, అంటే ఇప్పుడు అర్థం - మరియు మంజూరు చేయబడినది, ఇది కొంత పని చేయబోతోంది - నేను ఖచ్చితంగా మీరు ' మేము చాలా కష్టపడుతున్నాము. కానీ ఇప్పుడు, మీరు ఈ క్రొత్త ఆవిష్కరణలన్నింటినీ ప్రభావితం చేయవచ్చు మరియు మీ కస్టమర్‌లతో అన్ని అంశాలను అమలు చేయగలిగే విషయంలో నిజంగా ఉన్నారు. ఇది న్యాయమైన అంచనా?


కీత్: అవును, ఖచ్చితంగా. భావన ఏమిటంటే, నిర్ణయ రూపకల్పన లేదా నిర్ణయ శాస్త్రాల గురించి మీకు ఈ ఆలోచన వస్తుంది, ఇది మీకు కొంతవరకు అన్వేషణాత్మక, సైన్స్-వై రకమైన విషయం. మీరు ఈ ప్రక్రియలో ఇంజనీరింగ్ నిజంగా చేయకపోతే తప్ప… మీరు కారును అభివృద్ధి చేయడం గురించి ఆలోచిస్తే, మీకు ఈ అందమైన కారును తయారుచేసే డిజైనర్లు వచ్చారు, కాని ఇంజనీర్లు ఆ ప్రణాళికను ఉంచే వరకు మరియు మీ ముందు వాస్తవమైన ఆచరణీయమైన ఉత్పత్తిని తయారుచేసే వరకు కాదు వాస్తవానికి విషయాలను ఉంచవచ్చు మరియు ఇది తప్పనిసరిగా SAS చేసింది. ఇది నిర్ణయాలు - నిర్ణయం-రూపకల్పన ప్రక్రియను నిర్ణయం-ఇంజనీరింగ్ ప్రక్రియతో విలీనం చేసింది, తద్వారా మీరు యాక్సిలరేటర్ల గురించి మాట్లాడేటప్పుడు, స్కోరింగ్ యాక్సిలరేటర్లు ప్రత్యేకంగా మీకు తెలుసు, మీరు అభివృద్ధి చేసిన మోడల్‌ను తీసుకుంటే దాన్ని బయటకు నెట్టగలుగుతారు. మోడల్ అభివృద్ధికి సున్నా సమయ వ్యవధితో, మోడల్ విస్తరణకు టెరాడాటాకు లేదా ఒరాకిల్ లేదా హడూప్‌కు నెట్టండి. ఇది కీలకం, ఎందుకంటే నమూనాలు కాలక్రమేణా క్షీణిస్తాయి, ఆ నమూనాల ఖచ్చితత్వం. కాబట్టి, మీరు దానిని తీసుకొని ఉత్పత్తిలో ఉంచడానికి ఎక్కువ సమయం పడుతుంది, అది మోడల్ ఖచ్చితత్వం కోల్పోతుంది.


ఆపై, మరొక భాగం ఏమిటంటే, మీరు కాలక్రమేణా ఆ ప్రక్రియను పర్యవేక్షించగలుగుతారు మరియు నిర్వహించగలరు. మోడల్స్ పాతవి మరియు సరికానివి అయినప్పుడు మీరు వాటిని తీసివేయాలనుకుంటున్నారు. మీరు దీన్ని చూడాలనుకుంటున్నారు, కాలక్రమేణా వాటి యొక్క ఖచ్చితత్వాన్ని తనిఖీ చేయండి మరియు వాటిని పునర్నిర్మించండి. అందువల్ల, మోడల్ మేనేజ్‌మెంట్ సాధనాలను మేము పొందాము, అది కూడా పైనే ఉంటుంది, ఇది మోడల్ చేసిన ప్రక్రియ చుట్టూ ఉన్న మెటాడేటాను నిజంగా ట్రాక్ చేస్తుంది. మరియు మోడలింగ్, మీకు తెలుసా, ఆ రకమైన కాన్సెప్ట్ ఒక మోడల్ ఫ్యాక్టరీ లాంటిది, లేదా మీరు దానిని పిలవాలనుకుంటున్నారు. విషయం ఏమిటంటే, ఇది మెటాడేటా మరియు నిర్వహణను ప్రాసెస్‌లో ఉంచుతోంది మరియు ఇక్కడే మేము కొట్టే మూడు పెద్ద విషయాలు - డబ్బు సంపాదించడానికి, డబ్బు ఆదా చేయడానికి మరియు జైలు నుండి బయట ఉంచడానికి ప్రజలకు మేము సహాయం చేస్తాము.


ఎరిక్: చివరిది కూడా చాలా పెద్దది. నేను అన్నింటినీ నివారించాలని చూస్తున్నాను. కాబట్టి, దీని గురించి మాట్లాడుదాం ...నేను ఒక చివరి ప్రశ్న ఇస్తున్నాను, బహుశా మీరు ప్రతి ఒక్కరూ ఈ రకమైన జంప్ చేయవచ్చు. మన ప్రపంచం యొక్క భిన్నత్వం పెరుగుతుంది, అది నాకు అనిపిస్తుంది. హైబ్రిడ్ క్లౌడ్ పరిసరాల చుట్టూ మనం ఖచ్చితంగా కొన్ని స్ఫటికీకరణను చూడబోతున్నామని అనుకుంటున్నాను. ఏదేమైనా, మీరు చాలా మంది ప్రధాన ఆటగాళ్లను చూడబోతున్నారు. ఐబిఎం ఎక్కడికీ వెళ్ళడం లేదు. ఒరాకిల్ ఎక్కడికీ వెళ్ళడం లేదు. SAP ఎక్కడికీ వెళ్ళడం లేదు. మరియు ఈ ఆటలో పాల్గొన్న చాలా మంది విక్రేతలు ఉన్నారు.


అలాగే, కార్యాచరణ వైపు, మీకు అక్షరాలా వేల మరియు వేల రకాల అనువర్తనాలు వచ్చాయి. నేను విన్నాను - మీలో చాలామంది దీని గురించి మాట్లాడుతారు, కాని నేను చెప్పేదానికి మీరిద్దరూ అంగీకరిస్తారని నేను భావిస్తున్నాను. విశ్లేషణాత్మక ఇంజన్లు, ఆర్కిటెక్చర్‌లో కేవలం గణన శక్తి పరంగా ఈ ధోరణిని మేము ఇప్పుడు చూశాము. కంపెనీలు ఇన్ని సంవత్సరాలుగా అక్కడ ఉన్న ఇతర ఇంజిన్‌లను నొక్కడం మరియు ఒక విధమైన ఆర్కెస్ట్రేషన్ పాయింట్‌కు సేవ చేయడం గురించి మాట్లాడుతున్నాయి. జార్జ్, నేను మొదట మీకు విసిరేస్తానని gu హిస్తున్నాను. ఇది మారదు అని నాకు అనిపిస్తోంది. మేము ఈ వైవిధ్య వాతావరణాన్ని కలిగి ఉండబోతున్నాము అంటే రియల్ టైమ్ CRM మరియు డేటా నాణ్యత మరియు డేటా గవర్నెన్స్ వంటి అంశాలు ఉన్నాయి. ఆ విభిన్న సాధనాలతో ఇంటర్‌ఫేస్ చేయడానికి మీకు విక్రేతగా అవసరం. కస్టమర్‌లు కోరుకునేది అదే. వారు ఈ సాధనాలతో సరే మరియు ఆ సాధనాలతో సరిపడని ఏదో కోరుకోరు. వారు MDM మరియు CRM యొక్క స్విట్జర్లాండ్‌ను కోరుకుంటున్నారు, సరియైనదా?


జార్జ్: అది నిజం. మరియు ఇది ఆసక్తికరంగా ఉంది, ఎందుకంటే మేము దానిని చాలా స్వీకరించాము. దానిలో కొంత భాగం మనకు అంతరిక్షంలో ఉన్న చరిత్ర. మరియు స్పష్టంగా, మేము ఇప్పటికే అన్ని ఇతర డేటాబేస్లు, టెరాడాటాస్ మరియు ప్రపంచంలోని అన్ని భాగాలపై పని చేస్తున్నాము. ఆపై, అమలు ప్రక్రియలో, ప్రత్యేకంగా మేము చేసిన విధంగానే చేశాము - ఈ వివిధ డేటాబేస్‌లన్నింటిలో మీకు ఆ వ్యవధి ఉంది. నేను ఆసక్తికరంగా కనుగొన్న ఒక విషయం ఏమిటంటే, మాకు కొన్ని క్లయింట్లు ఉన్నారు, అవి అన్ని రిలేషనల్ డేటాబేస్లను తొలగించడంలో నరకం చూపిస్తాయి. మరియు ఇది ఆసక్తికరంగా ఉంటుంది. మీకు తెలుసా, నా ఉద్దేశ్యం, ఇది మంచిది. అది ఆసక్తికరంగా ఉంది. కానీ ఇది నిజంగా పెద్ద సంస్థ స్థాయిలో జరుగుతున్నట్లు నేను చూడలేదు. ఇది చాలాకాలంగా జరుగుతున్నట్లు నేను చూడలేదు. కాబట్టి, హైబ్రిడ్ ఇక్కడ చాలా కాలం పాటు ఉందని మరియు మా అప్లికేషన్ యొక్క మరొక వైపు మా ప్రచార నిర్వహణ ప్లాట్‌ఫామ్‌లో మా మెసేజింగ్ ప్లాట్‌ఫాం ఉందని నేను భావిస్తున్నాను. మేము దీన్ని ప్రత్యేకంగా రూపొందించాము. ఇప్పుడు, మేము ఆ సంస్కరణను విడుదల చేసాము మరియు అది ఇప్పుడు హైబ్రిడ్ డేటా ఎన్విరాన్‌మెంట్‌కు కనెక్ట్ కావచ్చు మరియు హడూప్‌ను ప్రశ్నించవచ్చు లేదా ఏదైనా డేటాబేస్, ఏదైనా విశ్లేషణాత్మక డేటాబేస్ను ప్రశ్నిస్తుంది. కాబట్టి, ఇది భవిష్యత్ తరంగం అని నేను అనుకుంటున్నాను. వర్చువలైజేషన్ ఖచ్చితంగా ఇందులో పెద్ద పాత్ర పోషిస్తుందని నేను అంగీకరిస్తున్నాను, కాని మేము కేవలం - మేము మా అన్ని అనువర్తనాల డేటాకు వెళ్తాము.


ఎరిక్: సరే, చాలా బాగుంది. మరియు, కీత్, నేను దానిని మీ వద్దకు విసిరేస్తాను. ఒక రకమైన అడుగుగా వ్యవహరించడంలో మేము ఎదుర్కొంటున్న భిన్న ప్రపంచం గురించి మీరు ఏమనుకుంటున్నారు?


కీత్: అవును, ఇది నిజంగా మనోహరమైనది. నేను అనుకుంటున్నాను, మనం ఎక్కువగా కనుగొన్నది - విషయాల డేటా మేనేజ్‌మెంట్ వైపు మాత్రమే కాదు - కానీ ప్రస్తుతం నిజంగా మనోహరమైనది అనలిటిక్స్ బేస్ యొక్క ఓపెన్ సోర్స్ స్వభావం. కాబట్టి, స్పార్క్ వంటి సంస్థలు, లేదా పైథాన్ మరియు ఆర్ మరియు ఈ ఇతర ఓపెన్-సోర్స్ టెక్నాలజీలను ఉపయోగిస్తున్న వ్యక్తులను మేము చూస్తాము. ఇది ఒక విధమైన సంఘర్షణ లేదా కొంతవరకు ముప్పుగా భావించవచ్చని నేను భావిస్తున్నాను. వాస్తవికత ఏమిటంటే, ఆ ఓపెన్ సోర్స్ టెక్నాలజీలతో మాకు కొన్ని అద్భుతమైన అభినందనలు ఉన్నాయి. నా ఉద్దేశ్యం, ఒకదానికి, మేము దేవుని కొరకు ఓపెన్ సోర్స్ ప్లాట్‌ఫాంల పైన పనిచేస్తున్నాము.


కానీ, ఏకీకృతం చేయగలిగినట్లుగా, ఉదాహరణకు, ఒక R మోడల్‌ను SAS ఉదాహరణగా మార్చడం వలన మీరు రెండు ప్రపంచాలలోని ఉత్తమమైన వాటిని ఉపయోగించడానికి అనుమతిస్తుంది, సరియైనదా? ఇలా, కాబట్టి విద్యా ప్రపంచంలో కొన్ని ప్రయోగాత్మక విషయాలు మరియు కొన్ని మోడల్ అభివృద్ధి పనులు అసాధారణమైనవి మరియు మోడల్ అభివృద్ధి ప్రక్రియలో సూపర్ సహాయకారిగా ఉన్నాయని మాకు తెలుసు. కానీ, మీరు దానిని ప్రొడక్షన్ క్లాస్ రకమైన సాధనంతో జత చేయగలిగితే, ఇది చాలా ప్రక్షాళన మరియు నాణ్యతను చేస్తుంది మరియు తనిఖీ చేస్తుంది మరియు మోడల్‌కు ఇచ్చే డేటా అని నిర్ధారించుకోండి, ఇది సరిగ్గా ప్రిపేర్ చేయబడింది కాబట్టి ఇది విఫలం కాదు అమలులో. ఆపై, ఓపెన్-సోర్స్ మోడళ్లతో ఛాంపియన్ ఛాలెంజర్ మోడల్స్ వంటి పనులను చేయగలుగుతారు. అవి ఎనేబుల్ చెయ్యడానికి మేము చూస్తున్నవి, మరియు ఈ సాంకేతిక పరిజ్ఞానాల యొక్క నిజంగా భిన్నమైన పర్యావరణ వ్యవస్థలో భాగంగా. అవును, కాబట్టి ఇది చాలా ఎక్కువ - మాకు, ఇది ఆ సాంకేతికతలను స్వీకరించడం మరియు అభినందనలు చూడటం గురించి ఎక్కువ.


ఎరిక్: బాగా, ఇది అద్భుతమైన విషయం, చేసారో. మేము ఇక్కడ కొంచెం సేపు వెళ్ళాము, కాని మేము వీలైనన్ని ఎక్కువ ప్రశ్నలను పొందాలనుకుంటున్నాము. మేము ఈ రోజు మా సమర్పకులకు ప్రశ్నోత్తరాల ఫైల్‌ను పంపుతాము. కాబట్టి, మీరు అడిగిన ఏ ప్రశ్నకైనా సమాధానం ఇవ్వకపోతే, దానికి సమాధానం లభించేలా చూస్తాము. మరియు చేసారో, ఇది 2014 కి ముగుస్తుంది. రేపు మరియు వచ్చే వారం DM రేడియోలో మీది నిజంగానే, ఆపై ఇవన్నీ పూర్తయ్యాయి మరియు ఇది సెలవుదినం.


ఈ అద్భుతమైన వెబ్‌కాస్ట్‌లన్నింటినీ అంటిపెట్టుకున్నందుకు మీ సమయం మరియు శ్రద్ధకు మీ అందరికీ చాలా ధన్యవాదాలు. మాకు 2015 సంవత్సరానికి గొప్ప సంవత్సరం లభించింది. మరియు మేము త్వరలో మీతో మాట్లాడతాము. మళ్ళీ ధన్యవాదాలు. మేము జాగ్రత్త తీసుకుంటాము. వీడ్కోలు.