Corpws Enghreifftiol Cyweiriau Iaith



Mae’r Gymraeg yn iaith gyfoethog iawn yn ei gwahanol gyweiriau. Dyw pobl ddim yn ysgrifennu’r un ffordd wrth greu adroddiad swyddogol neu gofnod ar gyfer Facebook neu Twitter, a dydyn nhw ddim yn siarad yr un ffordd wrth roi darlith ac wrth siarad gyda ffrindiau. Mae nodweddion gwahanol o ran geirfa a gramadeg i’r gwahanol gyweiriau hyn.

Rydyn ni’n ymchwilio i weld a oes modd i gyfrifiadur adnabod rhai o’r cyweiriau yn awtomatig. Bydd hynny’n cynorthwyo sawl maes technoleg Gymraeg, gan gynnwys systemau cof cyfieithu a chyfieithu peirianyddol. Ar gyfer project ein gwaith datblygu adnabod lleferydd Cymraeg fodd bynnag, mae’n prif ddiddordeb ni yn y gwahaniaeth rhwng y cyweiriau llafar a’r cyweiriau ysgrifenedig.

Rydyn ni wedi bod yn defnyddio corpws mewnol Cysill Ar-lein fel deunydd crai i adnabod y gwahanol gyweiriau hyn. Mae rhai o nodweddion y gwahanol gyweiriau i’w gweld yn ein matrics cyweiriau iaith, ac rydym wedi codi detholiad o segmentau addas allan o gorpws Cysill Ar-lein, eu tagio’n briodol, a’u gosod yn y corpws enghreifftiol hon.

Defnyddiwch rhai o’r nodweddion diagnostig sydd i’w gweld yn y matrics cyweiriau i ddod o hyd i frawddegau sy’n arddangos y nodweddion hyn a’r cywair perthnasol.