డేటా కాటలాగ్స్ మరియు మెషిన్ లెర్నింగ్ మార్కెట్ పరిపక్వత

రచయిత: Roger Morrison
సృష్టి తేదీ: 28 సెప్టెంబర్ 2021
నవీకరణ తేదీ: 19 జూన్ 2024
Anonim
మెషిన్ లెర్నింగ్ మరియు AI కోసం డేటాను ఎలా సిద్ధం చేయాలి
వీడియో: మెషిన్ లెర్నింగ్ మరియు AI కోసం డేటాను ఎలా సిద్ధం చేయాలి

విషయము


మూలం: Nmedia / Dreamstime.com

Takeaway:

MLDC మార్కెట్ పెరుగుతోంది, మరియు యంత్ర అభ్యాసంతో పెద్ద డేటాను సమర్థవంతంగా ప్రభావితం చేయాలనుకునే సంస్థలు ఈ రంగంలోని అగ్ర పేర్లు మరియు వాటి వ్యక్తిగత ర్యాంకింగ్‌ల గురించి తెలుసుకోవాలి.

ఇది పెద్ద డేటా యొక్క వయస్సు. మేము సమాచారంతో మునిగిపోతాము మరియు దాని నుండి విలువను నిర్వహించడం మరియు సేకరించడం వ్యాపారాలు సవాలుగా భావిస్తాయి.

నేటి పెద్ద డేటా ప్రవాహం వాల్యూమ్, వైవిధ్యం మరియు వేగం మాత్రమే కాదు, సంక్లిష్టతను కూడా కలిగిస్తుంది. బిగ్ డేటా హిస్టరీ మరియు కరెంట్ పరిగణనలలో SAS గుర్తించినట్లుగా, "బహుళ వనరుల నుండి, ఇది వ్యవస్థల్లోని డేటాను లింక్ చేయడం, సరిపోల్చడం, శుభ్రపరచడం మరియు మార్చడం కష్టతరం చేస్తుంది." (పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? (పెద్ద) డేటా బిగ్ ఫ్యూచర్ చూడండి.)

విలువైన అంతర్దృష్టిని కనుగొనడం అనేది సాధ్యమైనంత ఎక్కువ డేటాను సేకరించడం యొక్క ప్రశ్న కాదు, సరైన డేటాను కనుగొనడం. మాన్యువల్ ప్రక్రియలతో దాని ద్వారా పనిచేయడం అసాధ్యం. అందువల్లనే ఎక్కువ వ్యాపారాలు "డేటా ప్రాప్యతను ప్రజాస్వామ్యం చేయడానికి డేటా కేటలాగ్‌లను ఆశ్రయిస్తున్నాయి, గిరిజన డేటా పరిజ్ఞానాన్ని సమాచారాన్ని క్యూరేట్ చేయడానికి, డేటా విధానాలను వర్తింపజేయడానికి మరియు వ్యాపార విలువ కోసం అన్ని డేటాను త్వరగా సక్రియం చేయడానికి."


ఇక్కడే డేటా కేటలాగ్‌లు (కొన్నిసార్లు ఇన్ఫర్మేషన్ కేటలాగ్స్ అని కూడా పిలుస్తారు) చిత్రంలో ప్రవేశిస్తాయి. ఇక్కడ నిర్వచించినట్లుగా, వారు "వినియోగదారులకు అవసరమైన డేటా వనరులను అన్వేషించడానికి మరియు అన్వేషించిన డేటా వనరులను అర్థం చేసుకోవడానికి అధికారం ఇస్తారు మరియు అదే సమయంలో వారి ప్రస్తుత పెట్టుబడుల నుండి ఎక్కువ విలువను సాధించడానికి సంస్థలకు సహాయం చేస్తారు." ఇది చేసే మార్గాలలో ఒకటి, డేటాకు ఎక్కువ ప్రాప్యతను ప్రారంభించడం ద్వారా, వివిధ రకాలైన వినియోగదారులలో, దానిని ఉపయోగించుకోగల లేదా దోహదపడే.

ఇన్ఫోనోమిక్స్ ఇంపెరేటివ్

2017 చివరిలో డేటా కేటలాగ్‌లకు అనూహ్యంగా పెరిగిన డిమాండ్‌ను గమనించిన గార్ట్‌నర్ వాటిని "కొత్త నలుపు" అని పిలిచారు. వారు "పంపిణీ చేయబడిన మరియు అస్తవ్యస్తంగా ఉన్న డేటా ఆస్తులను జాబితా చేయడానికి మరియు వర్గీకరించడానికి మరియు వారి సమాచార సరఫరా గొలుసులను మ్యాప్ చేయడానికి" శీఘ్ర మరియు ఆర్థిక పరిష్కారంగా గుర్తించబడుతున్నారు. "ఇన్ఫోనామిక్స్" యొక్క పెరుగుదల కారణంగా దీని అవసరం తలెత్తింది, ఇది ఇతర వ్యాపార ఆస్తుల నిర్వహణకు సమాచార మార్పిడికి అదే సూక్ష్మతను వర్తింపజేయాలని పిలుస్తుంది. (సరఫరా గొలుసుల గురించి మరింత తెలుసుకోవడానికి, యంత్ర అభ్యాసం సరఫరా గొలుసు సామర్థ్యాన్ని ఎలా మెరుగుపరుస్తుందో చూడండి.)


గార్ట్‌నర్స్ ది ఫారెస్టర్ వేవ్ ™: మెషిన్ లెర్నింగ్ డేటా కాటలాగ్స్, క్యూ 2 2018 తో జిబ్స్ తీసుకుంటారు. ఆ నివేదికలో సర్వేలో పాల్గొన్న వారిలో సగం మందికి పైగా తమ డేటా కేటలాగ్ అమలును రూపొందించాలని యోచిస్తున్నట్లు చెప్పారు. ప్రతి ఒక్కరూ తమ సంస్థలో కనీసం ఏడు డేటా సరస్సులను కలిగి ఉండడం వల్ల వారు ఎక్కువగా ప్రేరేపించబడ్డారు. గార్ట్నర్ డేటా కేటలాగ్‌లను వివరించినట్లుగా, డేటా కేటలాగ్‌లు ముఖ్యంగా డేటా సరస్సులో వర్గీకరించని రూపంలో మిగిలి ఉన్న "కాన్, అర్ధం మరియు డేటా విలువ" ను బయటకు తీయడానికి ఉపయోగపడతాయి.

2017 లో మూడవ వంతు డేటా మరియు అనలిటిక్స్ నిర్ణయాధికారులు 1,000 టిబి లేదా అంతకంటే ఎక్కువ డేటాతో వ్యవహరిస్తున్నారని ఫారెస్టర్ నివేదిస్తుంది, ఈ మొత్తం అంతకు ముందు సంవత్సరం 10 మరియు 14 శాతం మధ్య మాత్రమే నివేదించబడింది. ఆ స్థాయిలో డేటాను నిర్వహించడం పెరుగుతున్న సవాలు లేదా ప్రత్యేకంగా రెండు సవాళ్లు:

"1) ఇప్పటికే ఉన్న వ్యాపార ప్రక్రియలను మూల డేటాతో విశ్లేషించడం మరియు అంతర్దృష్టులను అమలు చేయడం మరియు 2) డేటా పెరుగుతున్న కొద్దీ సోర్సింగ్, సేకరించడం, నిర్వహించడం మరియు పరిపాలించడం."

బగ్స్ లేవు, ఒత్తిడి లేదు - మీ జీవితాన్ని నాశనం చేయకుండా జీవితాన్ని మార్చే సాఫ్ట్‌వేర్‌ను రూపొందించడానికి స్టెప్ గైడ్ ద్వారా మీ దశ

సాఫ్ట్‌వేర్ నాణ్యత గురించి ఎవరూ పట్టించుకోనప్పుడు మీరు మీ ప్రోగ్రామింగ్ నైపుణ్యాలను మెరుగుపరచలేరు.

వ్యాపారాల కోసం డేటా కేటలాగ్‌లు ఏమి చేయగలవు

సమాచారం మరియు ఉత్పాదకత యొక్క సంస్థల ప్రవాహాన్ని డేటా కేటలాగ్‌లు మెరుగుపరచగల నిర్దిష్ట మార్గాలను గార్ట్నర్ గుర్తిస్తాడు:

  • సంస్థకు అందుబాటులో ఉన్న నవీన సమాచార ఆస్తి జాబితాను సేకరించడం మరియు కమ్యూనికేట్ చేయడం.

  • సంస్థల డేటా యొక్క అర్థ వివరణ మరియు అర్థాన్ని నిర్వచించే వ్యాపార పదాల యొక్క సాధారణ పదకోశాన్ని సృష్టించడం, తద్వారా నిర్వచన అసమానతలను మధ్యవర్తిత్వం చేయడానికి మరియు పరిష్కరించడానికి మార్గాలను అందిస్తుంది.

  • వ్యాపారం మరియు ఐటి సహోద్యోగులపై డేటాపై వ్యాఖ్యానించడానికి, డాక్యుమెంట్ చేయడానికి మరియు పంచుకునేందుకు డైనమిక్ మరియు చురుకైన సహకార వాతావరణాన్ని ప్రారంభిస్తుంది.

  • వంశ మరియు ప్రభావ విశ్లేషణతో డేటా వినియోగ పారదర్శకతను అందించడం.

  • సమాచార పరిపాలన ప్రక్రియలకు మద్దతుగా డేటాను పర్యవేక్షించడం, ఆడిటింగ్ చేయడం మరియు గుర్తించడం.

  • డేటా వినియోగం మరియు పునర్వినియోగం, ప్రశ్న ఆప్టిమైజేషన్ మరియు డేటా ధృవీకరణ యొక్క అంతర్గత విశ్లేషణను మెరుగుపరచడానికి మెటాడేటాను సంగ్రహించడం.

  • ఏ డేటా ఉనికిలో ఉంది, అది ఎక్కడ నుండి వస్తుంది, ఏ కాన్స్ లో ఉపయోగించబడుతుంది, ఎందుకు అవసరం, ప్రక్రియలు మరియు వ్యవస్థల మధ్య ఎలా ప్రవహిస్తుంది, దానికి ఎవరు జవాబుదారీగా ఉంటారు, దాని అర్థం ఏమిటి? మరియు దాని విలువ ఏమిటి.

డేటాను సరిగ్గా గుర్తించడం మరియు సంస్థలోని ముఖ్య వ్యక్తులకు అందుబాటులో ఉంచడం చాలా ముఖ్యం, గార్ట్నర్ నివేదిక "డిజిటల్ వ్యాపార ఫలితాల కోసం డేటా ఆస్తులను డబ్బు ఆర్జించడానికి" మార్గాన్ని కనుగొనడం కోసం మాత్రమే కాదు, వారు పరిశ్రమ అయినా నిబంధనలకు లోబడి ఉండాలి. హెల్త్ ఇన్సూరెన్స్ పోర్టబిలిటీ అండ్ అకౌంటబిలిటీ యాక్ట్ (HIPAA) లేదా జనరల్ డేటా ప్రొటెక్షన్ రెగ్యులేషన్ (GDPR) వంటి సాధారణ స్వభావం.

యంత్ర అభ్యాసంలో కలుపుతోంది

కానీ దాని లోపాలు లేకుండా ఏమీ లేదు. డేటా కేటలాగ్‌ల కోసం, సమస్య నెమ్మదిగా మరియు శ్రమతో కూడుకున్న ప్రక్రియ, వాటిని అన్ని మెటాడేటాతో మాన్యువల్‌గా నిర్మించడంలో అవసరం. ఇక్కడే యంత్ర అభ్యాస భాగం వస్తుంది.

ఫారెస్టర్ అంచనా వేసిన డేటా కేటలాగ్‌లను MLDC లు అని పిలుస్తారు, ఎందుకంటే అవి AI యొక్క భాగాలలో ఒకటైన యంత్ర అభ్యాస శక్తిని ఉపయోగిస్తాయి. పోడియం డేటా బ్లాగ్ వివరించినట్లుగా, ఇది "మెటాడేటా యొక్క నిరంతర రిపోజిటరీని నిర్మించి, ఆపై అంతర్లీన డేటా ఆస్తుల చుట్టూ ఉపయోగకరమైన అంతర్దృష్టులను బహిర్గతం చేయడానికి మరియు బహిర్గతం చేయడానికి ML / AI ని వర్తింపజేయడం" సాధ్యం చేస్తుంది.

ఎలా ఎంచుకోవాలి

ఏ వ్యాపారాలు ఎన్నుకోవాలో అంచనా వేయడానికి సంస్థలకు సహాయపడటానికి, ఫారెస్టర్ టాప్ 12 MLDC లకు 29 పాయింట్ల మూల్యాంకనాన్ని వర్తింపజేసింది. ఈ మార్కెట్‌లోని నాయకులను ఇది గుర్తించింది: ఐబిఎం, రెలిటో, యూనిఫై సాఫ్ట్‌వేర్, అలేషన్ మరియు కొల్లిబ్రా. ఇన్ఫార్మాటికా, ఒరాకిల్, వాటర్‌లైన్ డేటా, ఇన్ఫోగిక్స్, కేంబ్రిడ్జ్ సెమాంటిక్స్ మరియు క్లౌడెరా. హోర్టన్వర్క్స్ "పోటీదారు" హోదాలో ఒంటరిగా నిలుస్తుంది.

ఏదేమైనా, మొత్తం ర్యాంకింగ్స్ ద్వారా మాత్రమే వెళ్ళకూడదు. నివేదిక ప్రతి ఒక్కరి యొక్క నిర్దిష్ట బలాలు మరియు బలహీనతలను విచ్ఛిన్నం చేస్తుంది. దీని ప్రకారం, పరిశోధన మరియు అభివృద్ధి వంటి ఒక ప్రత్యేక లక్షణం ఒక సంస్థకు అత్యంత ప్రాముఖ్యత కలిగి ఉంటే, అది హోర్టన్‌వర్క్‌లను ఆ అంశానికి IBM మరియు కొలిల్‌బ్రాకు సమానంగా పరిగణించవచ్చు, ఎందుకంటే ఆ ముగ్గురు ఆ నాణ్యత కోసం ఐదు స్కోరును పంచుకుంటారు, అంటే అలేషన్ మరియు కొలౌడెరా కంటే రెండు పాయింట్లు మరియు కేంబ్రిడ్జ్ సెమాంటిక్స్ కంటే నాలుగు పాయింట్లు మెరుగ్గా ఉన్నాయి.

దీని ప్రకారం, ఫారెస్టర్ నివేదిక తన నివేదికను మార్గదర్శకత్వం కోసం ఉపయోగించేవారికి అగ్రశ్రేణి సంస్థ అందరికీ ఉత్తమ ఎంపిక అని అనుకోవద్దని సలహా ఇస్తుంది. వారి ప్రత్యేక అవసరాలకు అనుగుణంగా ఏమిటో తెలుసుకోవడానికి వారు అంచనా యొక్క విచ్ఛిన్నంపై చాలా శ్రద్ధ వహించాలి.