![పెద్ద డేటా: మీరు ఎందుకు శ్రద్ధ వహించాలి?](https://i.ytimg.com/vi/ji18sDbWI_k/hqdefault.jpg)
విషయము
మూలం: Nmedia /Dreamstime.com
Takeaway:
పెద్ద డేటా ప్రతిచోటా పెద్ద వ్యాపారం, కానీ ఈ సాంకేతిక పరిజ్ఞానాన్ని ఎక్కువగా ప్రభావితం చేసే కొన్ని నిర్దిష్ట ప్రాంతాలు.
నేను ఈ కథనాన్ని ప్రారంభించినప్పుడు, వివిధ రకాల పెద్ద డేటా ప్లాట్ఫారమ్లను జాబితా చేయాలనుకుంటున్నాను. కానీ, మూడు వేర్వేరు డేటా సమర్పణలను - రిలేషనల్ వర్సెస్ నాన్-రిలేషనల్, SQL వర్సెస్ NoSQL మరియు డేటాబేస్ వర్సెస్ ఫ్రేమ్వర్క్ - కొన్ని క్రమం యొక్క క్రమంలో, ఆ గందరగోళాన్ని నివారించాలని నిర్ణయించుకున్నాను.
గాయానికి అవమానాన్ని జోడించడానికి, వ్యాసంలో భాగంగా "పెద్ద డేటా" అనే పదాన్ని సృష్టించిన వ్యక్తిని పరిచయం చేయాలని నేను ఆశించాను. కానీ, నేను కూడా అలా చేయలేను. అంగీకరించిన సమాధానం లేదు. వాస్తవానికి, పెద్ద డేటాతో ఎవరు ముందుకు వచ్చారో పరిశీలించడానికి పూర్తిస్థాయి పరిశోధన ప్రాజెక్ట్ ఉంది. బదులుగా, నేను పెద్ద డేటాను ఉపయోగించే కొన్ని ముఖ్య మార్గాలను పరిశీలించబోతున్నాను. చాలా ముఖ్యమైనది. మరియు మీరు అనుకున్నదానికంటే ఇది మరింత ఆసక్తికరంగా మరియు ఆశ్చర్యకరంగా ఉంది.
హౌ ఇట్ హాపెండ్
సాంప్రదాయ డేటా మైనింగ్ ఉపయోగించే విశ్లేషకులు కొన్నేళ్లుగా డేటాను తారుమారు చేస్తున్నారు. ఇదే విశ్లేషకులు ఇప్పుడు వ్యాపారాలు, ప్రైవేట్ సంస్థలు మరియు ప్రభుత్వ సంస్థలు సేవ్ చేస్తున్న మొత్తాన్ని మరియు వివిధ రకాల డేటాను ఎదుర్కోవడం కష్టమవుతోంది.
డేటా మైనింగ్లో తదుపరి పరిణామ దశ అయిన పెద్ద డేటాను నమోదు చేయండి. నేటి డిజిటల్ ప్రపంచంలో సృష్టించబడుతున్న భారీ డేటాబేస్ మరియు అనేక రకాల డేటాను నిర్వహించడానికి పెద్ద డేటా రూపొందించబడింది. "భారీ" మీరు గూగుల్ గురించి మరియు అది సేకరించే మొత్తం డేటా గురించి ఆలోచిస్తుంటే, మీరు బాల్ పార్క్ లో ఉంటారు. మీకు ఆశ్చర్యం కలిగించే విషయం ఏమిటంటే, ప్రపంచంలోని అతిపెద్ద డేటాబేస్ల యొక్క టాప్ టెన్ జాబితాలో గూగుల్ నాల్గవ స్థానంలో ఉంది. జనవరి 2014 నాటికి, వరల్డ్ డేటా సెంటర్ ఫర్ క్లైమేట్ 220 టెరాబైట్ల డేటాతో అగ్రస్థానంలో ఉంది మరియు కొన్ని ప్రభుత్వ సంస్థలచే నియంత్రించబడే డేటాబేస్ల పరిమాణంలో ఇది ఎవరికైనా అంచనా.
వాస్తవానికి, పెద్ద డేటా బయలుదేరింది, ఎందుకంటే ఇది చాలా ఎక్కువ మొత్తంలో అసమాన డేటాను మార్చడం మరియు అద్భుతమైన - మరియు అద్భుతంగా వివరణాత్మక మరియు వ్యక్తిగత విషయాలను కనుగొనడం సాధ్యం చేస్తుంది. హెచ్ఆర్ పరిశ్రమ విశ్లేషకుడు జాన్ సమ్సర్ ఈ క్రింది ఉదాహరణను అందిస్తుంది:
"ఈ రోజు మనం పరికల్పనలను సృష్టించి, డేటాను సేకరిస్తాము. రేపు మనం విలోమం చేస్తాము. స్థిరమైన, స్థిరమైన డేటా చేరడం మనం ప్రశ్నలను రూపొందించే ముందు డేటాను చూడటానికి వీలు కల్పిస్తుంది. అంటే మనం చేయని ప్రశ్నలకు సమాధానాలు లభిస్తాయి." అడగడానికి తెలియదు. మేము వాస్తవాలుగా భావించే మొత్తం విషయాల గురించి ఆలోచించలేము. "వాస్తవానికి, ఈ డేటా ఉపయోగించటానికి కొన్ని గగుర్పాటు మార్గాల గురించి మనం అందరం విన్నాము, యువతుల గర్భధారణను ఆమె కుటుంబం తెలుసుకునే ముందు టార్గెట్స్ సామర్థ్యం వంటివి. కానీ పెద్ద డేటా చాలా తక్కువ చెడు కారణాల కోసం కూడా ఉపయోగించబడుతోంది. దీన్ని ఎక్కువగా ప్రభావితం చేసే కొన్ని సంస్థలు ఇక్కడ ఉన్నాయి:
సాఫ్ట్వేర్ నాణ్యత గురించి ఎవరూ పట్టించుకోనప్పుడు మీరు మీ ప్రోగ్రామింగ్ నైపుణ్యాలను మెరుగుపరచలేరు.
ఎలక్ట్రానిక్ హెల్త్ రికార్డులను వైద్య సంస్థలలో సురక్షితంగా మరియు కచ్చితంగా నిర్వహించడంలో పెద్ద డేటా సహాయపడే ఒక స్పష్టమైన ప్రాంతం. ఖచ్చితమైన రికార్డులు కలిగి ఉంటే రోగులకు మెరుగైన సేవ మరియు లోపాలు తగ్గుతాయి. రోగి గోప్యతకు సంబంధించి ప్రభుత్వ నిబంధనలకు అనుగుణంగా ఆరోగ్య సంరక్షణ క్షేత్రం స్పష్టమైన కారణాల వల్ల పెద్ద డేటాను నెమ్మదిగా తీసుకుంటుంది.
ఇంతకు ముందే చెప్పినట్లుగా, పెద్ద డేటా అవాంఛనీయ ప్రశ్నలకు సమాధానాలు ఇవ్వడానికి ప్రసిద్ది చెందింది. ఆరోగ్య సంరక్షణ రంగంలో, కొత్త drug షధాన్ని లేదా చికిత్సను కనుగొనడం దీని అర్థం. మెకిన్సే & కంపెనీ ప్రకారం, పెద్ద డేటా భవిష్యత్తులో ఈ క్రింది వాటిని సాధ్యం చేస్తుంది:
- జీవ ప్రక్రియలు మరియు drugs షధాల యొక్క ప్రిడిక్టివ్ మోడలింగ్ మరింత అధునాతనమైనది మరియు విస్తృతంగా మారుతుంది.
- సోషల్ మీడియా వంటి మరింత సమాచార వనరుల ఆధారంగా రోగులను క్లినికల్ ట్రయల్స్లో నమోదు చేయడానికి గుర్తించారు.
- భద్రత లేదా కార్యాచరణ సమస్యలను వేగంగా గుర్తించడానికి ట్రయల్లను నిజ సమయంలో పర్యవేక్షిస్తారు.
- దోపిడీ చేయడం కష్టతరమైన కఠినమైన డేటా గోతులు కాకుండా, డేటా ఎలక్ట్రానిక్గా సంగ్రహించబడుతుంది మరియు వివిధ యూనిట్ల మధ్య సులభంగా ప్రవహిస్తుంది.
పెద్ద డేటా, పెద్ద అవకాశం
కొన్ని నిర్దిష్ట ప్రాంతాలలో పెద్ద డేటా పరపతి పొందుతున్నప్పుడు, ఇది క్రింది ప్రాంతాలలోని అన్ని సంస్థలకు అవకాశాన్ని అందిస్తుంది:
ఏదైనా కంప్యూటింగ్ మరియు నెట్వర్కింగ్ పరికరం డేటాను లాగ్ చేస్తుంది. త్వరగా లాగిన్ అవుతున్న డేటా మొత్తం విపరీతంగా మారుతుంది. పెద్ద డేటా ఆ డేటాను సులభంగా నిర్వహించగలదు, నెట్వర్క్ కార్యాచరణను పర్యవేక్షించడానికి, సమస్యలను నిర్ధారించడానికి లేదా రూబిన్ నాకు ఇచ్చిన ఉదాహరణలో, మాల్వేర్ కార్యాచరణను సూచించే కొన్ని నెట్వర్క్ ట్రాఫిక్ నమూనాల కోసం చూడండి.
మీరు ఈ కథనాన్ని చదువుతుంటే, ఓపెన్ఎస్ఎస్ఎల్ చుట్టూ ఉన్న హృదయపూర్వక సమస్య గురించి మీకు తెలుసు. సాంకేతిక సమస్యతో పాటు, చాలా సంవత్సరాలుగా దుర్బలత్వం ఉందనే ఆందోళన ఉంది. హానికరమైన హృదయ స్పందనల కోసం అన్ని నెట్వర్క్ లాగ్లను శోధించే ప్రోగ్రామ్ను రూపొందించడానికి డేటా విశ్లేషకులతో కలిసి పనిచేసే నెట్వర్క్ నిర్వాహకులను పెద్ద డేటా అనుమతిస్తుంది అని రూబిన్ పేర్కొన్నారు. ఈ EFF పోస్ట్ పేర్కొంది:
"విస్తృతమైన ప్యాకెట్ లాగ్లు ఉన్న ఏదైనా నెట్వర్క్ ఆపరేటర్లు హానికరమైన హృదయ స్పందనల కోసం తనిఖీ చేయవచ్చు, ఇవి సాధారణంగా 18 03 02 00 03 01 లేదా 18 03 01 00 03 01 (లేదా బహుశా 18 03 03 00 03 01) యొక్క TCP పేలోడ్ను కలిగి ఉంటాయి."కింది ఉదాహరణ షో ఆడిట్ కమాండ్ నుండి నమూనా అవుట్పుట్:
రూటర్ # షో ఆడిట్
* సెప్టెంబర్ 14 18: 37: 31.535:% ఆడిట్ -1-RUN_VERSION: హాష్:
24D98B13B87D106E7E6A7E5D1B3CE0AD వాడుకరి:
* సెప్టెంబర్ 14 18: 37: 31.583:% ఆడిట్ -1-రూన్_కాన్ఫిగ్: హాష్:
4AC2D776AA6FCA8FD7653CEB8969B695 వాడుకరి:
* సెప్టెంబర్ 14 18: 37: 31.595:% ఆడిట్ -1-STARTUP_CONFIG: హాష్:
95DD497B1BB61AB33A629124CBFEC0FC వాడుకరి:
* సెప్టెంబర్ 14 18: 37: 32.107:% ఆడిట్ -1 ఫైల్సిస్టమ్: హాష్:
330E7111F2B526F0B850C24ED5774EDE వాడుకరి:
* సెప్టెంబర్ 14 18: 37: 32.107:% ఆడిట్ -1-హార్డ్వేర్_కాన్ఫిగ్: హాష్:
32F66463DDA802CC9171AF6386663D20 వాడుకరి:
మీరు సమయ స్టాంపులను అనుసరిస్తే, ఆ ఎంట్రీలన్నింటికి సమయ విరామం ఒక సెకను కన్నా తక్కువ. నేను దానిని ఒక రోజుకు విడదీయడానికి కూడా ఇష్టపడను, రెండేళ్ళు మాత్రమే!
చూడవలసినది
మీరు ఉద్యోగ ప్రకటనలను తనిఖీ చేస్తే, పెద్ద డేటా నిపుణుల అవసరం చాలా ఉంది. నేను దీని గురించి రూబిన్ను అడిగాను. అతను అంగీకరించాడు, తన విద్యార్థులు వారి అవకాశాల గురించి సంతోషిస్తున్నారని పేర్కొన్నారు. పెద్ద డేటా ప్లాట్ఫారమ్లు, ముఖ్యంగా ఓపెన్ సోర్స్గా పరిగణించబడేవి, లైనక్స్ ప్రధాన స్రవంతిగా మారిన దానికి సమానమైన కాలక్రమం అనుసరిస్తున్నాయని నేను గ్రహించాను.
విశ్వవిద్యాలయాలు పెద్ద-డేటా ప్లాట్ఫారమ్ల యొక్క ఓపెన్-సోర్స్ సంస్కరణలను స్వీకరిస్తాయి, ప్రత్యేకించి హడూప్, ఎందుకంటే అవి ఉచితం, మరియు విద్యార్థులు సోర్స్ కోడ్ను మార్చవచ్చు. కాబట్టి ఆ ఉద్యోగ అవకాశాలన్నింటినీ పూరించే గ్రాడ్యుయేట్లు ఓపెన్ సోర్స్ ప్లాట్ఫామ్లతో పనిచేయడానికి ఇష్టపడతారు, ఎందుకంటే ఇది వారికి బాగా తెలుసు. ఇది చూడటానికి ఆసక్తికరంగా ఉంటుంది.