Besedilni korpus je elektronska zbirka besedil, po kateri lahko iščemo.
Nastane tako, da raziskovalci zberejo ogromno količino elektronskih besedil. To so recimo članki iz časopisov in revij, strokovne in leposlovne knjige, besedila s spleta in podobno. Ta besedila uredijo in s posebnim računalniškim program označijo vsako besedo, tako da ji določijo njeno osnovno obliko (npr. drevo za besedo drevesa), katere vrste je (samostalnik, pridevnik, glagol ...), v katerem spolu, sklonu, številu je in podobno. Tako urejeno zbirko vključijo v poseben iskalnik, prilagojen za iskanje po korpusih, ki se imenuje konkordančnik. V njem lahko iščemo besede ali besedne nize in dobimo vse primere, v katerih se pojavijo v besedilih.
Največji besedilni korpus za slovenščino je Gigafida. Zanj je razvit poseben konkordančnik, ki ti omogoča enostavno iskanje po korpusu. V iskalno okence vpiši besedo ali niz besed, ki te zanima. Morda se sprašuješ, ali je ustreznejši zapis ponavadi (pisano skupaj) ali po navadi (pisano narazen). Če nimaš časa iskati razlage in se poglobiti v vprašanje, lahko v korpus Gigafida vpišeš najprej prvi, nato pa še drugi zapis. Prvo iskanje pokaže več kot 40.000 zadetkov, drugo pa več kot 10.000 zadetkov. Velika verjetnost je, da je pogostejši način zapisa tudi ustreznejši ali vsaj bolj običajen v sodobni slovenščini, zato ga brez skrbi lahko uporabljaš tudi ti.
Korpus Gigafida je največji, nikakor pa ni edini korpus za slovenski jezik. Slovenski konzorcij CLARIN.SI vzdržuje konkordančnika Kontext in noSketchEngine, v katerih najdeš še veliko drugih zanimivih korpusov, kot so spremljevalni korpus Trendi, korpus akademskih besedil KAS, govorni korpus GOS ali korpus uporabniških spletnih vsebin JANES.
| Korpus | Povezava | Primeren za |
| Gigafida | https://viri.cjvt.si/gigafida/ | preverjanje pogostosti besed, ugotavljanje primernejšega zapisa |
| Trendi | https://www.clarin.si/ske/#dashboard?corpname=trendi | preverjanje pogostosti besed, ugotavljanje primernejšega zapisa v najsodobnejših besedilih |
| Korpus akademskih besedil KAS | https://www.clarin.si/ske/#dashboard?corpname=kas | preverjanje besed in zapisa v strokovnih besedilih |
| Korpus govorjene slovenščine GOS | https://viri.cjvt.si/gos/ | ugotavljanje značilnosti govorjenega jezika |
| Korpus uporabniških spletnih vsebin JANES | https://www.clarin.si/ske/#dashboard?corpname=janes | ugotavljanje značilnosti spletne slovenščine |