Corpws Electronig o’r Gymraeg (CEG)


Casgliad 1 miliwn o eiriau Cymraeg wedi eu casglu o 500 samplau o destun 2000 o eiriau o ryddiaith gyfoes amrywiol.

Mae hwn yn ddadansoddiad amlder geiriau o 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, a seiliwyd ar 500 o samplau o tua 2000 o eiriau yr un. Fe’u detholwyd o ystod gynrychioliadol o destunau rhyddiaith Gymraeg gyfoes (o 1970 ymlaen yn bennaf).

Y nod oedd cynnig rhywbeth cyffelyb i ddadansoddiad Kucera a Francis o Saesneg Americanaidd, a’r corpws LOB o Saesneg Prydeinig. Y disgwyl oedd y byddai corpws a ddadansoddwyd fel hyn yn cynnig offer ymchwil ar gyfer nifer o ddisgyblaethau academaidd:

  • seicoleg a seicoieithyddiaeth
  • plant yn caffael ail iaith
  • ieitheg gyffredinol
  • ieitheg y Gymraeg Cyfoes, gan gynnwys dadansoddi llenyddol.

Roedd y sampl yn cynnwys:

  • deunyddiau o feysydd nofelau a straeon byrion
  • ysgrifennu crefyddol
  • llenyddiaeth plant (ffeithiol a dychmygol)
  • deunyddiau ym meysydd addysg, gwyddoniaeth, busnes, gweithgareddau hamdden, etc.
  • darlithoedd cyhoeddus
  • papurau newydd a chylchgronau – cenedlaethol a lleol
  • atgofion
  • ysgrifennu academaidd
  • deunyddiau gweinyddu cyffredinol (yn llythyrau, adroddiadau,

Dadansoddwyd y corpws i gynhyrchu cyfrifon amlder geiriau yn eu ffurf grai yn ogystal â chyfrifon o lemata lle mae pob arwydd wedi ei ddad-dreiglo a’i dagio yn ôl ei wreiddyn. Rhydd y dadansoddiad yma hefyd wybodaeth sylfaenol am amlder y gwahanol ddosbarthiadau geiriol, ffurfdroadau, treigliadau a nodweddion gramadegol eraill.

Dylai unrhyw erthyglau a seiliwyd ar ddefnydd y gronfa ddata ddyfynnu:

Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N.  (2001). Cronfa Electroneg o Gymraeg (CEG): A 1 million word lexical database and frequency count for Welsh. [On-line]