Mae hwn yn ddadansoddiad amlder geiriau o 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, a seiliwyd ar 500 o samplau o tua 2000 o eiriau yr un. Fe’u detholwyd o ystod gynrychioliadol o destunau rhyddiaith Gymraeg gyfoes (o 1970 ymlaen yn bennaf).
Y nod oedd cynnig rhywbeth cyffelyb i ddadansoddiad Kucera a Francis o Saesneg Americanaidd, a’r corpws LOB o Saesneg Prydeinig. Y disgwyl oedd y byddai corpws a ddadansoddwyd fel hyn yn cynnig offer ymchwil ar gyfer nifer o ddisgyblaethau academaidd:
- seicoleg a seicoieithyddiaeth
- plant yn caffael ail iaith
- ieitheg gyffredinol
- ieitheg y Gymraeg Cyfoes, gan gynnwys dadansoddi llenyddol.
Roedd y sampl yn cynnwys:
- deunyddiau o feysydd nofelau a straeon byrion
- ysgrifennu crefyddol
- llenyddiaeth plant (ffeithiol a dychmygol)
- deunyddiau ym meysydd addysg, gwyddoniaeth, busnes, gweithgareddau hamdden, etc.
- darlithoedd cyhoeddus
- papurau newydd a chylchgronau – cenedlaethol a lleol
- atgofion
- ysgrifennu academaidd
- deunyddiau gweinyddu cyffredinol (yn llythyrau, adroddiadau,
Dadansoddwyd y corpws i gynhyrchu cyfrifon amlder geiriau yn eu ffurf grai yn ogystal â chyfrifon o lemata lle mae pob arwydd wedi ei ddad-dreiglo a’i dagio yn ôl ei wreiddyn. Rhydd y dadansoddiad yma hefyd wybodaeth sylfaenol am amlder y gwahanol ddosbarthiadau geiriol, ffurfdroadau, treigliadau a nodweddion gramadegol eraill.
Dylai unrhyw erthyglau a seiliwyd ar ddefnydd y gronfa ddata ddyfynnu:
Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. (2001). Cronfa Electroneg o Gymraeg (CEG): A 1 million word lexical database and frequency count for Welsh. [On-line]