పెద్ద డేటాలో ఎప్పుడైనా ఎక్కువ డేటా ఉందా?

రచయిత: Laura McKinney
సృష్టి తేదీ: 4 ఏప్రిల్ 2021
నవీకరణ తేదీ: 1 జూలై 2024
Anonim
The Bad World of Bad Loans - Manthan w Vivek Kaul [Subtitles in Hindi & Telugu]
వీడియో: The Bad World of Bad Loans - Manthan w Vivek Kaul [Subtitles in Hindi & Telugu]

విషయము

Q:

పెద్ద డేటాలో ఎప్పుడైనా ఎక్కువ డేటా ఉందా?


A:

ప్రశ్నకు సమాధానం అవును. పెద్ద డేటా ప్రాజెక్ట్‌లో ఖచ్చితంగా చాలా ఎక్కువ డేటా ఉండవచ్చు.

ఇది జరగడానికి అనేక మార్గాలు ఉన్నాయి మరియు సరైన ఫలితాలను పొందడానికి నిపుణులు డేటాను ఎన్ని మార్గాల్లో పరిమితం చేయాలి మరియు క్యూరేట్ చేయాలి. (పెద్ద డేటా గురించి 10 పెద్ద అపోహలు చదవండి.)

సాధారణంగా, నిపుణులు "సిగ్నల్" ను "శబ్దం" నుండి ఒక నమూనాలో వేరు చేయడం గురించి మాట్లాడుతారు. మరో మాటలో చెప్పాలంటే, పెద్ద డేటా సముద్రంలో, సంబంధిత అంతర్దృష్టి డేటాను లక్ష్యంగా చేసుకోవడం కష్టం అవుతుంది. కొన్ని సందర్భాల్లో, మీరు గడ్డివాములో సూది కోసం చూస్తున్నారు.

ఉదాహరణకు, కస్టమర్ బేస్ యొక్క ఒక విభాగంలో నిర్దిష్ట అంతర్దృష్టులను రూపొందించడానికి ఒక సంస్థ పెద్ద డేటాను ఉపయోగించడానికి ప్రయత్నిస్తుందని అనుకుందాం మరియు ఒక నిర్దిష్ట సమయ వ్యవధిలో వారి కొనుగోళ్లు. (చదవండి పెద్ద డేటా ఏమి చేస్తుంది?)

అపారమైన డేటా ఆస్తులను తీసుకోవడం వలన యాదృచ్ఛిక డేటా తీసుకోవడం సంబంధితంగా ఉండదు, లేదా ఇది ఒక దిశలో లేదా మరొక దిశలో డేటాను వక్రీకరించే పక్షపాతాన్ని కూడా ఉత్పత్తి చేస్తుంది.


కంప్యూటింగ్ వ్యవస్థలు పెద్ద మరియు పెద్ద డేటా సెట్లతో కుస్తీ చేయవలసి ఉన్నందున ఇది ప్రక్రియను నాటకీయంగా తగ్గిస్తుంది.

అనేక రకాలైన ప్రాజెక్టులలో, డేటా ఇంజనీర్లకు డేటాను పరిమితం చేయబడిన మరియు నిర్దిష్ట డేటా సెట్‌లకు క్యూరేట్ చేయడం చాలా ముఖ్యమైనది - పై సందర్భంలో, అది అధ్యయనం చేయబడిన కస్టమర్ల యొక్క ఆ విభాగానికి మాత్రమే డేటా అవుతుంది, ఆ సమయంలో డేటా మాత్రమే ఫ్రేమ్ అధ్యయనం చేయబడుతోంది మరియు అదనపు ఐడెంటిఫైయర్‌లను లేదా విషయాలను గందరగోళపరిచే లేదా వ్యవస్థలను నెమ్మదింపజేసే నేపథ్య సమాచారాన్ని కలుపుకునే విధానం. (రీడ్‌జాబ్ పాత్ర: డేటా ఇంజనీర్.)

మరింత కోసం, యంత్ర అభ్యాస సరిహద్దులో ఇది ఎలా పనిచేస్తుందో చూద్దాం. (మెషిన్ లెర్నింగ్ 101 చదవండి.)

యంత్ర అభ్యాస నిపుణులు "ఓవర్ ఫిట్టింగ్" అని పిలుస్తారు, ఇక్కడ కొత్త ఉత్పత్తి డేటాపై యంత్ర అభ్యాస కార్యక్రమం వదులుగా మారినప్పుడు అధిక సంక్లిష్ట నమూనా తక్కువ ప్రభావవంతమైన ఫలితాలకు దారితీస్తుంది.

సంక్లిష్ట డేటా పాయింట్ల సమితి ప్రారంభ శిక్షణా సెట్‌తో బాగా సరిపోలినప్పుడు ఓవర్‌ఫిటింగ్ జరుగుతుంది మరియు ప్రోగ్రామ్‌ను కొత్త డేటాకు సులభంగా స్వీకరించడానికి అనుమతించదు.


ఇప్పుడు సాంకేతికంగా, ఓవర్ ఫిటింగ్ చాలా డేటా నమూనాల ఉనికి వల్ల కాదు, కానీ చాలా డేటా పాయింట్ల పట్టాభిషేకం ద్వారా సంభవిస్తుంది. కానీ ఎక్కువ డేటాను కలిగి ఉండటం ఈ రకమైన సమస్యకు దోహదం చేస్తుందని మీరు వాదించవచ్చు. డైమెన్షియాలిటీ యొక్క శాపంతో వ్యవహరించడం మునుపటి పెద్ద డేటా ప్రాజెక్టులలో చేసిన కొన్ని టెక్నిక్‌లను కలిగి ఉంటుంది, ఎందుకంటే నిపుణులు వారు ఐటి వ్యవస్థలకు ఏమి ఆహారం ఇస్తున్నారో గుర్తించడానికి ప్రయత్నించారు.

బాటమ్ లైన్ ఏమిటంటే పెద్ద డేటా కంపెనీలకు ఎంతో సహాయపడుతుంది లేదా ఇది పెద్ద సవాలుగా మారుతుంది. దీని యొక్క ఒక అంశం ఏమిటంటే, కంపెనీకి సరైన డేటా ఉందా అనేది. అన్ని డేటా ఆస్తులను హాప్పర్‌లోకి దింపడం మరియు ఆ విధంగా అంతర్దృష్టులతో ముందుకు రావడం మంచిది కాదని నిపుణులకు తెలుసు - కొత్త క్లౌడ్-నేటివ్ మరియు అధునాతన డేటా సిస్టమ్‌లలో, మరింత ఖచ్చితమైన మరియు డేటాను పొందడానికి డేటాను నియంత్రించడానికి మరియు నిర్వహించడానికి మరియు క్యూరేట్ చేయడానికి ప్రయత్నం చేస్తుంది. డేటా ఆస్తుల నుండి సమర్థవంతమైన ఉపయోగం.