నేను డెడ్ పీపుల్ విన్నాను? నేచురల్ లాంగ్వేజ్ టెక్ గత మరియు ప్రస్తుత స్వరాలను సజీవంగా చేస్తుంది

రచయిత: Judy Howell
సృష్టి తేదీ: 5 జూలై 2021
నవీకరణ తేదీ: 21 జూన్ 2024
Anonim
హాటెప్ జీసస్‌తో వివరించవద్దు (WiM156)
వీడియో: హాటెప్ జీసస్‌తో వివరించవద్దు (WiM156)

విషయము


Takeaway:

తయారుగా ఉన్న స్వరాలను మర్చిపో; నిజమైన వాటిని పునరుత్పత్తి చేయడం సహజ భాషా ప్రాసెసింగ్ కోసం కొత్త లక్ష్యం.

ఈ రోజుల్లో, చాలా కంప్యూటర్ వాయిస్‌లు పాస్. మీ ఫోన్‌లోని "డ్రాయిడ్" మీకు బిల్ చెల్లింపుతో సహాయం చేయడంలో లేదా మీకు ఏ విభాగం కావాలని అడిగినప్పుడు మీరు సైబోర్గ్‌లు మరియు రోబోట్‌ల గురించి పెద్దగా ఆలోచించలేరు. కార్ట్ సమాచారం కోసం కర్ట్ కోబెన్ మిమ్మల్ని ప్రోత్సహిస్తున్నట్లు మీరు విన్నట్లయితే? లేదా ముందస్తు ఓటింగ్ యొక్క అద్భుతాల గురించి జాన్ ఎఫ్. కెన్నెడీ మీకు చెప్తున్నారా? లేదా ఎల్విస్ "హంక్, ప్రేమను కాల్చే హంక్" గా ప్రవేశించే ముందు మీ పేరు మరియు చిరునామాను పొందుతున్నారా?

ఇవన్నీ ... చాలా విచిత్రమైనవి, కానీ మరింత ఆకర్షణీయమైనవి ఏమిటంటే సాంకేతికత ప్రాథమికంగా ఇక్కడే ఉంది. కేవలం ఒక దశాబ్దం లేదా అంతకుముందు, కంప్యూటర్ల సామర్థ్యం గురించి మేము ఆశ్చర్యపోయాము. ఇప్పుడు, మనకు తెలిసిన వ్యక్తుల మాదిరిగానే ధ్వనించే ఉచిత శ్రేణి, కంప్యూటర్ సృష్టించిన స్వరాల ద్వారా మేము ఫ్లోర్ చేయబోతున్నాం.

ఎన్‌ఎల్‌పిలో పెద్ద మార్పులు

మీరు సహజ భాషా ప్రాసెసింగ్ (ఎన్‌ఎల్‌పి) రంగంపై శ్రద్ధ వహిస్తుంటే, మా గ్లోబల్ పొజిషనింగ్ సిస్టమ్స్ (జిపిఎస్) మరియు ఆటోమేటెడ్ బిజినెస్‌లో ఇప్పుడు మనం వింటున్న కొన్ని తయారుగా ఉన్న వర్చువల్ అసిస్టెంట్ వాయిస్‌లకు మించిన కొన్ని ఇటీవలి పురోగతుల గురించి మీరు విన్నాను. ఫోన్ లైన్లు.

ఎన్‌ఎల్‌పి ప్రారంభానికి మానవ ప్రసంగం యొక్క సాధారణ మెకానిక్స్‌పై చాలా పరిశోధనలు అవసరం. పరిశోధకులు మరియు ఇంజనీర్లు వ్యక్తిగత ఫొనెటిక్‌లను గుర్తించి, పదబంధాలను మరియు వాక్యాలను రూపొందించడానికి ఎక్కువ అల్గారిథమ్‌లుగా మడవాలి, ఆపై వాస్తవంగా అనిపించేదాన్ని ఉత్పత్తి చేయడానికి మెటా స్థాయిలో ఇవన్నీ నిర్వహించడానికి ప్రయత్నించాలి. కాలక్రమేణా, ఎన్‌ఎల్‌పి నాయకులు దీనిని స్వాధీనం చేసుకున్నారు మరియు మానవులు ఏమి చెబుతారో అర్థం చేసుకోవడానికి అధునాతన అల్గోరిథంలను నిర్మించడం ప్రారంభించారు. ఈ రెండింటినీ కలిపి చూస్తే, కంపెనీలు నేటి వర్చువల్ అసిస్టెంట్లు మరియు పూర్తిగా డిజిటల్ బిల్-పే క్లర్క్‌ల కోసం డ్రైవర్లతో ముందుకు వచ్చాయి, వారి పద్ధతులు - బాధించేటప్పుడు - మీరు వాటిలో వెళ్ళిన పని గురించి ఆలోచించడం మానేసినప్పుడు ఇప్పటికీ ఆశ్చర్యంగా ఉన్నాయి.

ఇప్పుడు, కొన్ని కంపెనీలు మరింత నిర్దిష్ట వ్యక్తిగతీకరించిన ఫలితాన్ని కలిపేందుకు సాధారణ వర్చువల్ వాయిస్‌కు మించిపోతున్నాయి. దీనికి ఒక నిర్దిష్ట వ్యక్తి యొక్క నిఘంటువు గుండా వెళ్లి పెద్ద మొత్తంలో ప్రత్యేకమైన వాయిస్ వీడియోను సేకరించడం అవసరం, ఆపై ఈ ఆర్కైవ్‌ను ఫొనెటిక్స్, ప్రాముఖ్యత, కాడెన్స్ మరియు భాషా శాస్త్రవేత్తలు తరచుగా "ప్రోసోడి" యొక్క విస్తృత బ్యానర్‌లో సమూహపరిచే అన్ని ఇతర చిన్న సూచనల కోసం సంక్లిష్టమైన లయలకు వర్తింపజేయడం అవసరం.

శ్రోతలు ఒక నిర్దిష్ట వ్యక్తికి "యాజమాన్యంలో" ఉన్నట్లు భావించే స్వరం - వారికి తెలిసిన మరియు మాట్లాడిన వ్యక్తి లేదా వ్యక్తుల కీర్తి ఫలితంగా వారు గుర్తించిన వ్యక్తి.

ఎల్విస్ నుండి మార్టిన్ లూథర్ కింగ్ వరకు, ఎవరి స్వరాన్ని ఇప్పుడు ఈ విధంగా "క్లోన్" చేయవచ్చు - వారి ప్రసంగం గురించి ముందస్తుగా రికార్డ్ చేయబడిన రికార్డ్ ఉంటే. వ్యక్తిగత చిన్న శబ్దాలకు మరింత వివరణాత్మక విశ్లేషణ మరియు తారుమారు చేయడం ద్వారా, కంపెనీలు ఒకరి స్వరం యొక్క వర్చువల్ కార్బన్ కాపీని తయారు చేయగలవు, అది అసలు విషయం లాగా ఉంటుంది.

వివోలో "టు వాయిస్" క్రియేషన్స్ ఉత్తేజకరమైనవి

వివో, ఉదాహరణకు, ఆడియోబుక్స్ నుండి ఇంటరాక్టివ్ వాయిస్ రెస్పాన్స్ (ఐవిఆర్) వరకు అన్ని రకాల ప్రచారాలకు కృత్రిమ మానవ గాత్రాల వాడకాన్ని విప్లవాత్మకంగా మార్చడానికి పనిచేస్తున్న ఒక సంస్థ. వివో వద్ద, పరిశోధన మరియు ఉత్పత్తి బృందాలు సిద్ధాంతపరంగా, ఓల్ బ్లూ ఐస్ వంటి మరణించిన ప్రముఖుల గొంతులను ప్రత్యేకంగా ప్రతిబింబించే ప్రక్రియలపై పనిచేస్తున్నాయి.

"ఫ్రాంక్ సినాట్రా యొక్క స్వరాన్ని క్లోన్ చేయడానికి, మేము అతని రికార్డ్ చేసిన వారసత్వం ద్వారా వెళ్తాము" అని వివో సిఇఒ గెర్షాన్ సిల్బర్ట్ ఈ రకమైన సాంకేతిక పరిజ్ఞానం ఎలా పనిచేస్తుందనే దాని గురించి చెప్పారు.

ప్రస్తుతం, వివో ఈ రకమైన ఐటి పయనీర్ ప్రాజెక్టుకు మోడల్‌గా సైన్ అప్ చేసిన ఎన్‌పిఆర్ కరస్పాండెంట్ నీల్ కోనన్ వంటి మాతో ఉన్న వారి గొంతులను ఆర్కైవ్ చేయడానికి కృషి చేస్తున్నారు. కోనన్ నుండి అందించిన వాయిస్ ఇన్‌పుట్‌ను ఉపయోగించి వివో కార్మికులు శబ్ద కోడ్ మాడ్యూళ్ళను శ్రమతో సృష్టిస్తున్నట్లు ప్రచార వీడియో చూపిస్తుంది. అప్పుడు వారు నాటకీయంగా మానవ మరియు వ్యక్తిత్వ ఫలితాన్ని ప్రేరేపించే ప్రసంగం (టిటిఎస్) సాధనాల కోసం నమూనాలను సృష్టిస్తారు.

వివోలో స్ట్రాటజీ అండ్ బిజినెస్ డెవలప్‌మెంట్ వైస్ ప్రెసిడెంట్ బెన్ ఫీబుల్‌మాన్ ప్రకారం, కంప్యూటర్ ఒక వ్యక్తి మానవ స్వరానికి ప్రోసోడిక్ మోడల్‌కు అనుగుణంగా ఫోన్‌మే స్థాయిలో (ప్రసంగం యొక్క అతి చిన్న ప్రత్యేకమైన భాగాలను ఉపయోగించి) పనిచేస్తుంది.

"వాయిస్ ఎలా మాట్లాడుతుందో ఇది తెలుసు," "యూనిట్ ఎంపిక" ను ఉపయోగించడం ద్వారా కంప్యూటర్ ఒకే చిన్న పదాన్ని కలిపి ఉంచడానికి అనేక ముక్కలను ఎన్నుకుంటుంది, ఇక్కడ "ఫ్రైడే" అనే పదాన్ని అభివృద్ధి చేయడానికి సహాయపడే ఐదు భాగాలు ఇవ్వబడ్డాయి ప్రత్యేక ప్రాముఖ్యత మరియు టోనల్ ఫలితం.

మార్కెటింగ్‌లో కృత్రిమ వాయిస్

కాబట్టి, మార్కెటింగ్‌లో ఇది ఎలా పని చేస్తుంది? లక్ష్య ప్రేక్షకులను చేరుకోగల ఆడియోబుక్స్ వంటి ఉత్పత్తులను రూపొందించడంలో వివో యొక్క ఉత్పత్తులు చాలా ఉపయోగకరంగా ఉంటాయి. ఉదాహరణకు, వినోద సంబంధిత ఉత్పత్తులను విక్రయించడానికి ఉపయోగించినట్లయితే ఎల్విస్ వాయిస్ నేటి సాధారణ, డెడ్‌పాన్, ఆటోమేటెడ్ వాయిస్‌లతో పోల్చడం ఎంత ప్రభావవంతంగా ఉంటుంది?

లేదా, రాజకీయాల్లో ఎలా ఉంటుంది? మరింత ప్రభావవంతమైన సందేశం అవసరమయ్యే కంపెనీలు లేదా ఇతర పార్టీలకు మార్కెటింగ్ మెరుగుపరచడానికి ఇలాంటి ప్రాజెక్టులను ఉపయోగించడం కోసం ఫీబుల్మాన్ వివిధ ఆలోచనలపై కృషి చేస్తున్నారు.

"అధ్యక్షుడిగా పోటీ చేస్తున్న రాజకీయ నాయకులు మీకు తెలిస్తే, దీనికి 10 మిలియన్ల స్వింగ్-స్టేట్ ఓటర్లు అభ్యర్థి నుండి వ్యక్తిగత కాల్ పొందవచ్చు, వారి మద్దతుకు ధన్యవాదాలు, వారు ఓటు వేయడానికి ఎక్కడికి వెళ్లాలి, వాతావరణం మరియు అన్ని కత్తిరింపులు ఎన్నికలకు ముందు రాత్రి, "ఫీబుల్మాన్ అన్నారు.

మీ వాయిస్ లైవ్స్ ఆన్

ఈ టెక్నాలజీకి మరో స్పష్టమైన అప్లికేషన్ ఉంది. వివో వంటి సహజ భాషా కంపెనీలు వ్యక్తిగత సేవను సృష్టించగలవు, అది కస్టమర్ యొక్క వాయిస్ డేటాను ఉత్పత్తిలోకి అప్‌లోడ్ చేస్తుంది, అది ఆ వ్యక్తిని "ఎప్పటికీ మాట్లాడటానికి" అనుమతిస్తుంది.

ప్రాక్టికల్ ఇంప్లిమెంటేషన్ మనం మాట్లాడే స్వరాలను ఎలా వింటాము మరియు అంతర్గతీకరిస్తుంది అనే దాని గురించి అనేక ప్రశ్నలను లేవనెత్తుతుంది. ఉదాహరణకు, ధ్వని ప్రసారం ఎవరో ఒకరిలాగా ధ్వనించడానికి ఏమి పడుతుంది? ఒక నిర్దిష్ట స్వరాన్ని గుర్తించడానికి ఒక వ్యక్తిని మనం ఎంత బాగా తెలుసుకోవాలి? మరియు, ఆసక్తికరంగా, సహజమైన భాషా సేవ బలవంతపు అనుకరణ కాకుండా ముడి వ్యంగ్య చిత్రాలను ఉత్పత్తి చేస్తే ఏమి జరుగుతుంది?

ఫలితాలను మూల్యాంకనం చేయడం, కాన్ యొక్క పరిశీలనపై తరచుగా ఆధారపడి ఉంటుంది. ఉదాహరణకు, పిల్లలు సాధారణంగా కథ విన్నప్పుడు ఎవరు మాట్లాడుతున్నారనే దాని గురించి ప్రశ్నలు అడగరు అని అతను చెప్పాడు. వారు మరింత కావాలి. నిష్క్రియాత్మక ప్రసారం లేదా ఫోన్ వంటి ఒక నిర్దిష్ట దృష్టాంతంలో, చాలా మంది పెద్దలు వారితో ఎవరు మాట్లాడుతున్నారో ఆలోచించకపోవచ్చు. అలాగే, ఫోన్ ద్వారా కంప్యూటర్ ద్వారా మోసపోవటం చాలా సులభం, ఎందుకంటే మఫ్డ్ చేసిన శబ్దం కంప్యూటర్ ఫలితాలకు మరియు మానవ స్వరానికి మధ్య అవాంతరాలు లేదా ఇతర వ్యత్యాసాలను ముసుగు చేస్తుంది.

"వాయిస్ యొక్క ప్రామాణికతను సవాలు చేయడం మీకు సంభవించదు" అని ఫీబుల్మాన్ చెప్పారు.

2525 సంవత్సరంలో

ఉత్పత్తులు మరియు సేవలను అభివృద్ధి చేయడంలో మరియు ఈ ప్రశ్నలకు సమాధానమివ్వడంలో కంపెనీలు ముందుకు వెళుతున్నప్పుడు, "జీవన ప్రసంగం" సాంకేతికతలు సాంకేతిక పరిజ్ఞానం మరియు మానవ మనస్సు యొక్క కలయిక వైపు మనలను ముందుకు తీసుకువెళతాయి, దీనిని శాస్త్రీయంగా కృత్రిమ మేధస్సు (AI) అని పిలుస్తారు.

కంప్యూటర్లు మనలాగే మాట్లాడగలిగితే, వారు మనలాగే ఆలోచిస్తారని ఆలోచిస్తూ ఇతర వినియోగదారులను మోసగించగలరు, ఏకవచనం యొక్క పెద్ద సూత్రానికి ఆహారం ఇస్తారు, 1950 ల నాటి టెక్ పయినీరు జాన్ వాన్ న్యూమాన్ మా నిఘంటువులోకి ప్రవేశించినట్లుగా, రచయితలు సువార్త ప్రకటించారు. మరియు రే కుర్జ్‌వీల్ వంటి ఆలోచనాపరులు. కుర్జ్‌వీల్స్ 2005 పుస్తకం, "ది సింగులారిటీ ఈజ్ నియర్", కొంతమందిని ఉత్తేజపరుస్తుంది మరియు ఇతరులను భయపెడుతుంది. 2045 నాటికి, "తెలివితేటలు" ఒక దృగ్విషయంగా మానవ మెదడు నుండి బాగా విడదీయబడతాయని మరియు సాంకేతిక పరిజ్ఞానంలోకి వలసపోతాయని కుర్జ్‌వీల్ అంచనా వేసింది, యంత్రాలు మరియు వారి మానవ మాస్టర్‌ల మధ్య రేఖలను అస్పష్టం చేస్తుంది.

జాగర్ & ఎవాన్స్ "ఇన్ ది ఇయర్ 2525" యొక్క సాహిత్యంలో అమరత్వం పొందారు (ఈ కుర్రాళ్ళలాగా గగుర్పాటు లేని సైన్స్ ఫిక్షన్ బల్లాడ్స్ ఎవరూ చేయరు)…

4545 సంవత్సరంలో
మీరు మీ దంతాలు కావాలి, అవసరం లేదు
మీ కళ్ళు
మీరు నమలడానికి ఒక విషయం కనుగొనలేరు
నోబోడీస్ మీ వైపు చూస్తారు

5555 సంవత్సరంలో
మీ చేతులు మీ వైపులా ఉంటాయి
మీ కాళ్ళు చేయటానికి నోటిన్ వచ్చింది
కొన్ని యంత్రాలు మీ కోసం అలా చేస్తాయి

కంప్యూటర్ వాయిస్‌లు ఈ దిశలో ఒక అడుగునా? మానవ శరీరం యొక్క కొన్ని విధులను అవుట్సోర్స్ చేయడానికి ఒక కొత్త మార్గంగా (లేదా సాధారణంగా, వాటిని అనుకరించడానికి), ఈ రకమైన సాంకేతిక పురోగతి అతి పెద్దది - మరియు బహుశా తక్కువగా నివేదించబడినది - మేము ఏక భవిష్యత్తును పరిశీలిస్తున్నప్పుడు హోరిజోన్లో పురోగతి . (విల్ కంప్యూటర్స్ మానవ మనస్సును అనుకరించగలదా?) లోని "సింగులారిటీ" గురించి మరింత చదవండి.)