Root NationNuachtNuacht TFAithníonn AI cainte Meta os cionn 4 teanga labhartha

Aithníonn AI cainte Meta os cionn 4 teanga labhartha

-

meta chruthaigh samhail teanga AI nach clón ChatGPT é. Is féidir le tionscadal Massively Multilingual Speech (MMS) na cuideachta níos mó ná 4 teanga labhartha a aithint agus urlabhra (téacs-go-hurlabhra) a atáirgeadh i níos mó ná 000 teanga. Cosúil le formhór na dtionscadal AI a fógraíodh go poiblí, déanann Meta rochtain oscailte do MMS inniu chun cabhrú le héagsúlacht teanga a chaomhnú agus le spreagadh a thabhairt do thaighdeoirí í a fhorbairt. "Inniu táimid ag roinnt go poiblí ár samhlacha agus cód ionas gur féidir le baill eile den phobal taighde cur lenár gcuid oibre," a scríobh an chuideachta. "A bhuíochas leis an obair seo, tá súil againn cur go mór le caomhnú éagsúlacht teanga dochreidte an domhain."

meta

Is gnách go mbíonn oiliúint de dhíth ar shamhlacha aitheantais cainte agus téacs-go-hurlabhra ar na mílte uair an chloig de thaifeadtaí fuaime agus lipéid trascríobh ag gabháil leo. Ach do theangacha nach labhraítear go forleathan i dtíortha tionsclaithe – a bhfuil go leor acu i mbaol díothaithe sna blianta amach romhainn – “níl na sonraí seo ann go simplí,” a deir Meta.

Ghlac Meta cur chuige neamhchoitianta maidir le bailiú sonraí fuaime: éisteacht le taifeadtaí fuaime de théacsanna reiligiúnacha aistrithe. “D’iompaíomar ar théacsanna reiligiúnacha, ar nós an Bhíobla, a aistríodh go leor teangacha éagsúla agus a ndearnadh staidéar forleathan ar a gcuid aistriúcháin le haghaidh taighde aistriúcháin bunaithe ar théacs,” a dúirt an chuideachta. "Tá taifeadtaí fuaime ar fáil go poiblí ag na haistriúcháin seo de dhaoine a léann na téacsanna seo i dteangacha éagsúla." Trí iontrálacha neamh-mharcáilte ón mBíobla agus téacsanna comhchosúla a áireamh, mhéadaigh na taighdeoirí Meta líon na dteangacha a bhí ar fáil don mhúnla go breis agus 4.

"Cé go bhfuil ábhar na dtaifeadtaí fuaime reiligiúnach, léiríonn ár n-anailís nach ndéanann sé seo difear do tháirgeadh cainte níos reiligiúnaí an tsamhail," a scríobh Meta. "Creidimid go bhfuil sé seo toisc go n-úsáidimid cur chuige aicmithe ama nascach (CTC), atá i bhfad níos teoranta i gcomparáid le samhlacha móra teanga (LLM) nó múnlaí seichimh le haghaidh aitheantais cainte." Chomh maith leis sin, in ainneoin gur léigh fir an chuid is mó de na téacsanna reiligiúnacha, níor tháinig claonadh fir as seo - d'aithin an córas guthanna ban agus fireann araon chomh maith céanna.

Tar éis múnla ailínithe a oiliúint chun na sonraí a dhéanamh níos inúsáidte, d'úsáid Meta wav2vec 2.0, samhail "foghlaim ionadaíochta teanga féin-mhaoirsithe" na cuideachta ar féidir léi foghlaim ar shonraí gan lipéad. Bhí torthaí iontacha mar thoradh ar an meascán d’fhoinsí sonraí neamhthraidisiúnta agus múnla cainte féintreoraithe. "Léiríonn ár dtorthaí go n-éiríonn go maith le samhlacha ollchraolacháin ilteangacha i gcomparáid leis na samhlacha atá ann cheana féin agus go gclúdaíonn siad 10 n-uaire níos mó teangacha." Go háirithe, chuir Meta MMS i gcomparáid le OpenAI's Whisper, agus sháraigh na torthaí ionchais. "Fuair ​​​​muid go bhfuil samhlacha oilte ar shonraí Urlabhra ollmhór Ilteangach leath an céatadán de na hearráidí focal, ach clúdaíonn Massively Multilingual Speech 11 uair níos mó teangacha."

Tugann Meta rabhadh nach bhfuil a samhlacha nua foirfe. "Mar shampla, tá riosca áirithe ann go bhféadfadh an tsamhail urlabhra-go-téacs focail nó frásaí aonair a aistriú go mícheart," a scríobhann an chuideachta. “Ag brath ar an toradh, d’fhéadfadh teanga maslach agus/nó mhíchruinn a bheith mar thoradh air. Creidimid i gcónaí go bhfuil comhoibriú laistigh den phobal AI ríthábhachtach d’fhorbairt fhreagrach teicneolaíochtaí AI.”

meta

Anois go bhfuil MMS eisithe ag Meta le haghaidh taighde foinse oscailte, tá súil aige an treocht maidir le líon na dteangacha ar fud an domhain a laghdú go 100 nó níos lú a aisiompú, agus tá an chuid is mó díobh tacaithe ag mórtheicneolaíochtaí. Feiceann sí domhan ina ligeann teicneolaíocht chúnta, TTS agus fiú teicneolaíochtaí VR / AR do gach duine labhairt agus foghlaim ina dteanga dhúchais. Deir sé: "Samhlaíonn muid domhan ina bhfuil a mhalairt de thionchar ag an teicneolaíocht, ag spreagadh daoine chun a dteangacha a choinneáil beo mar go bhfuil siad in ann teacht ar fhaisnéis agus teicneolaíocht a úsáid agus iad ag labhairt a dteanga dhúchais."

Léigh freisin:

FoinseEngadget
Clarú
Fógra a thabhairt faoi
aoi

0 Comments
Léirmheasanna Leabaithe
Féach ar gach trácht