Možnosti a meze gramatiky
češtiny ve světle Českého národního korpusu (2003 - 2005)
Registrační číslo projektu: 405/03/0377
Záměrem projektu je vytyčit první kontury principiálně nového gramatického
popisu češtiny, založeného na prohledávání a gramatické analýze velkých
a žánrově reprezentativních počítačových korpusů textů a na důkladném
studiu a vyhodnocování získaných nálezů.
Dnešní jazyk se proti stavu
zachycenému v gramatikách změnil a dosavadní nemnohé české gramatiky
a syntaxe, které byly za celé 20. století publikovány (viz seznam
literatury v závěru tohoto zdůvodnění), jsou tedy dnes již zčásti zastaralé,
zčásti podávají jen neúplný, často neexplicitní a někdy i rozporuplný přehled
a výklad i mnohých značně frekventovaných a neperiferních jevů morfologie a
syntaxe češtiny, nemluvě o jevech méně centrálních a okrajových. Navíc
tyto gramatiky
nemohly vycházet z dostatečných dat a jejich výklad musel tudíž být často nutně
subjektivní. O tom, že ani mnohé centrální a frekventované jevy české morfologie
a syntaxe nejsou dostatečně popsány či jejich výklad zcela schází i ve velké
akademické Mluvnici češtiny, svědčí i poradenská zkušenost lingvistů z Ústavu
pro jazyk český AV ČR.
Záměrem tohoto projektu je konkrétně na bázi Českého národního korpusu
(viz níže):
(a) evidovat problémové jevy velmi či značně frekventované, které navzdory
tomu nebyly dosud v gramatikách představeny buď vůbec, anebo jen neúplně
či nahodile
nebo byl nahodile a s nedostatečným množství příkladů zhodnocen jejich systémový
a funkční status, neboť před existencí korpusů nebylo možno dané jevy studovat
v potřebném množství textů;
(b) evidovat i jevy málo frekventované, mezní a řídké nebo sporné, jejichž
popis dosud buď zcela schází, anebo je neúplný, nahodilý či mylný vzhledem
k tomu,
že - ve srovnání s nynějšími možnostmi - vycházel z velmi omezeného jazykového
materiálu nebo je plodem subjektivního náhledu lingvistova;
(c) podat statistická data o evidovaných jevech a vyvodit z nich údaje o
jejich typičnosti nebo okazionalitě a o jejich stylové hodnotě;
(d) na základě této evidence vytvořit materiálovou a metodologicko-teoretickou
bázi pro budoucí velkou gramatiku češtiny
Obecná charakteristika zamýšleného projektu
Projekt je koncipován primárně jako strukturovaný týmový výzkum typických
monopolních i konkurenčních, včetně periferních gramatických forem
a struktur soudobé češtiny vzhledem k tomu, jak jsou či nejsou obsaženy
v Českém národním korpusu, a to v jeho centrální a největší složce,
nazvané SYN 2000 (dále ČNK), obsahující v současnosti 100 milionů slovních
forem. Jako doplňkové a korektivní korpusy budou využívány i ostatní
korpusy a anotované soubory textů soudobé češtiny, zejména Pražský
závislostní korpus a další.
Projekt je z tohoto hlediska zaměřen na výzkum a popis morfologie, slovotvorby
a syntaxe větné i nadvětné; nezahrnuje tedy výzkum a popis fonologie,
fonetiky a intonace, neboť tyto jevy nelze na dosavadních korpusech systematicky
studovat.
Institucionální, personální a technické vybavení projektu
Na projektu se kromě ÚJČ AV ČR podílejí i hlavní české univerzity a pět
univerzit zahraničních.
Účast předních zahraničních bohemistů z Německa, Anglie a Itálie, jmenovaných
v části A návrhu, je podstatným personálním aspektem projektu, a to z
následujících důvodů: (a) korpusově již orientovaných českých gramatiků
nebo těch, kteří by se chtěli tímto směrem orientovat, není mnoho; (b)
lingvisté, kteří nejsou rodilými mluvčími jazyka, mají schopnost vidět
a odhalovat vlastnosti studovaného jazyka, které by mohly uniknout pozornosti
rodilých badatelů; (c) zahraniční bohemisté jmenovaní v návrhu jsou zkušení
a zanícení zkoumatelé českého jazyka a mají značné zkušenosti s korpusovou
lingvistikou a konkrétně i s vyhledáváním v ČNK.
Na projektu budou spolupracovat jak přední čeští lingvisté, převážně
morfologové a syntaktikové, tak - pod jejich vedením - začínající lingvisté,
kteří mají zájem pracovat s velkými počítačovými korpusy a dobírat se
objektivních pravd o komunikativním fungování gramatických forem a struktur
soudobé psané češtiny.
Bezprecedentnost korpusové orientace
Projekt je vzhledem k soustředěnosti velkého kolektivu lingvistů na výzkum
velkého počítačového korpusu (ten bude - nedojde-li k přerušení prací
pro nedostatek financí - v několika dalších letech pravděpodobně rozšířen
o několik dalších stovek milionů slovních forem) v oblasti lingvistického
výzkumu bezprecedentním podnikem. Je to dáno už samotnou nedlouhou
a revoluční existencí korpusu, která projekt motivovala. Tato situace
je však zároveň historicky jedinečnou možností prostřednictvím korpusu
získat velké množství takových poznatků o gramatické stavbě přirozeného
jazyka a textové distribuci jejích elementů, které se vymykaly dosavadním
možnostem i představám lingvistů pracujících tradičními, avšak před
existencí korpusu jedině možnými metodami observačně-analytickými a/nebo
teoreticky deduktivními.
Korpusová lingvistika, do jejíhož oboru projekt spadá, spočívá ve výzkumu
rozsáhlých a relativně reprezentativních souborů textů různých žánrů
a stylů uložených v paměti počítače, a umožňuje tím nesrovnatelně hlubší
poznání přirozeného jazyka, jeho přirozeně se vyvinuvších a dále se vyvíjejících
pravidel, norem, tendencí, zákonitostí, ale i nepravidelností a rozporů,
než to bylo v minulosti možné při lingvistových reflexích o jazyce, ne
vždy a vždy jen zčásti - podle lingvistova naturelu - opřených o výpisky
z psaných textů. Jakkoli těchto excerpt dokázali někteří výjimeční lingvisté
(J. Gebauer, V. Šmilauer a jiní) s pomocí svých studentů nashromáždit
veliké množství (také autor tohoto projektu má ve své sbírce tisíce dokladových
lístků) - to jistě nelze přehlížet -, ani oni neměli možnost kdykoli
u kteréhokoli z tisíců dílčích gramatických jevů zjišťovat či ověřovat
podmínky jeho textového a tím mnohdy i šíře komunikativního fungování (byť
šlo pouze o komunikaci psanou). Rozsáhlé počítačové korpusy textů to
umožňují. Samozřejmě: nalezené doklady, jakkoli utříděné, musí lingvista
prostudovat a vyhodnotit. V konečné fázi je vždy třeba lingvistova
zhodnocení
a závěru.
Korpus poskytuje lingvistovi poprvé v historii možnost podrobně
porovnat četnost výskytu všech gramatických struktur v textech desítek
básníků, stovek prozaiků,
tisíců žurnalistů i příležitostných dopisovatelů novin a zjistit i nulové
výskyty struktur, které by bylo možno teoreticky předpokládat
nebo které jsou běžné
v jiných jazycích.
Obecné metodologické aspekty projektu
Takto zamýšlený projekt předpokládá spolupráci lingvistů ochotných provádět
rozsáhlé počítačové rešerše, čítající desítky, stovky až desetitisíce
dokladů mnoha (stovek až tisíců) dílčích gramatických jevů, tato množství
dokladů pozorně studovat, analyzovat a vyhodnocovat.
Tento výzkum ovšem nelze provádět bez znalosti dosavadních poznatků a
postulátů o gramatice češtiny. Ty bude naopak třeba respektovat jako
teoretické východisko výzkumu, při němž půjde i o to, dosavadní postuláty
a tvrzení analýzou nalezených dokladů potvrdit, doplnit, nebo vyvrátit.
I k tomu, k této široce koncipované resumující teoretické práci je zapotřebí
spolupráce řady lingvistů, specialistů v dílčích oblastech české, obecné
i srovnávací gramatiky.
Pokud jde o návaznost projektu na dosavadní výsledky bádání o gramatice
češtiny, základnou k tomu budou publikované gramatiky a syntaxe češtiny
od Trávníčka, Havránka-Jedličky, Šmilauera, Kopečného, Grepla-Karlíka,
akademická Mluvnice češtiny, česko-německá srovnávací gramatika F. Štíchy,
výsledky badatelské práce F. Daneše a dalších předních českých gramatiků
a v neposlední řadě výsledky badatelské práce kolektivu Sgall-Hajičová-Panevová
(viz seznam literatury na konci tohoto zdůvodnění); tyto výsledky bádání
o gramatice češtiny se právě analýzou korpusu zevrubně ověřují.
Pokud jde o obecné aspekty gramatiky, bude využito zejména skvělých výsledků
anglických korpusových gramatik. Pokud jde o gramatiky kontrastivní,
bude možno se mj. opřít o Česko-německou srovnávací gramatiku navrhovatele
projektu, která je v edičním plánu nakl. Argo pro rok 2002 a na které
autor pracoval posledních deset let, aniž ovšem měl k dispozici Český
národní korpus v té podobě, ve které existuje od r. 2000. Všechna tato
díla nijak nezkracují a nezjednodušují práci na chystaném projektu, o
jehož institucionálně-finanční podporu je žádáno. Naopak: tato díla neustále
nově a stále více vyjevují obrovskou variabilitu přirozeného jazyka,
která nejenže plně nepodléhá libovůli a rozmarům individuálních mluvčích,
ale je naopak ovládána takovým množstvím pravidel či pravidelností a
tendencí, které dosud sotva dokážeme dohlédnout či odhadnout.
Úkolem tříleté soustředěné práce týmu specialistů má být odhalit a popsat
pravidla a tendence hlavních problémových jevů i některých jevů okrajových,
periferních a řídkých, jejichž studium bude preferováno, evidovat z tohoto
hlediska vše, na co korpus dokáže upozornit, a podat relativně úplný
(tj. ne výběrový a ne pouze příkladový) obraz reálné a realizovatelné
komunikativní existence studovaných gramatických jevů, a tím vyjevit
možnosti a meze jejich použití v komunikaci.
Specifické metodologicko-teoretické aspekty projektu
Zaměření výzkumu na konkurenční, problémové a periferní jevy české morfologie
a syntaxe větné i nadvětné bude metodologicky vázáno i na řešení teoretických
otázek vztahu úzus - norma - systém, parole - langue, typičnosti a okrajovosti,
toho, co je běžné, obvyklé, normální, časté a naopak toho, co je méně běžné
až řídké, neobvyklé či anomální. Tím jde zároveň o teoreticky pojatý vztah
centra a periférie jazykového systému. Zatímco pojmy centra a periférie byly
v Pražské škole vázány spíše jen na oblast fonetiky a fonologie, popř. morfologie
a později též slovní zásoby, vztah centra a periférie v oblasti syntaxe,
které tvoří podstatnou část projektového záměru, byly dosud mnohde opomíjeny.
Takto koncipovaný projekt neznamená statické, mechanické a ryze pozitivistické
omezení na korpusová fakta získaná rešeršemi. Naopak: bezprecedentně
bohatá, reprezentativní, objektivní a neselektivní korpusová fakta
bude možno v mnoha
případech chápat jako reflexi saussurovského ´langue´, postulovaného
jako lingvistické abstraktum, a tato fakta umožní, aby se lingvista
neomezoval jen na svou introspekci
a na ní budované teoretické konstrukce, ale dovolí mu efektivněji a
kompetentněji klást a řešit teoretické otázky po statusu "langue potenciálního".
Konkurenční, problémové a periferní jevy české morfologie a syntaxe budou soustavně
sledovány v úplnosti jejich výskytu v korpusech češtiny, zejména v ČNK, a budou
v úplnosti statisticky vyhodnocovány. Centrálním záměrem při tom je odlišit
otevřené třídy gramatických jevů od tříd uzavřených a případy uzavřených tříd
prezentovat plnými výčty jejich prvků. Evidence problémových jevů bude otevřenou
základnou pro jejich další studium a popis.
Úseky projektu
Projekt bude mít tyto úseky:
A. Pojmenování a slovo
I. Soustavy tvarů slov (deklinační a konjugační paradigmata jmen a sloves
- vlastnosti
II. Významy tvarů slov (číslo substantiv; časové, vidové, modální a rodové
formy slovesa; slovesa zvratná)
III. Valence slova (slovesné vazby a jejich konkurence, valence substantiv
a adjektiv)
IV. Tvorba pojmenování (včetně víceslovných) a tvoření slov
B. Věta
I. Struktura jmenné skupiny (v rámci věty jednoduché)
II. Větné struktury nepodléhající slovosledu (struktury nelineární)
III. Spojování větných struktur (struktury souvětné)
IV. Transformace, nominalizace a hierarchizace větných struktur
V. Slovosled a aktuální členění
C. Hlavní aspekty sdělovací funkce jazyka a výstavby promluvy
Význam projektu pro praxi a výstup projektu
Zjištěná empirická fakta a zmíněné teoretické aspekty výzkumu, které
budou na tato empirická fakta vázány, povedou k praktickému využití
výsledků projektu: teoretické závěry spolu s objektivními nálezy, na
jejichž základě a/nebo s ohledem na něž budou vyvozeny, poskytnou základnu
(a) pro argumenty při hodnotících soudech a preskriptivní činnosti
při poradenské a osvětové činnosti Ústavu pro jazyk český AV ČR i jiných
bohemistických jazykovědných pracovišť; (b) pro tvorbu učebnic a gramatik
češtiny pro Čechy i cizince.
Projekt je koncipován jako "gramatikotvorný" výzkum v tom smyslu,
že jeho výstupem bude popis a výklad především těch gramatických jevů
současné češtiny, které jsou v dosavadním "gramatikopisectví" tradičně
známy a
prezentovány - explicite či implicite - jako problémové, hraniční,
mezní, a to jak z hlediska systémového, tj. z hlediska (stupně) gramatičnosti,
tak z hlediska komunikativního, tj. z hlediska (stupně) textové adekvátnosti
a komunikativní přijatelnosti.
V souboru studií, které budou publikovány v domácích i zahraničních časopisech
a sbornících, bude vzdělaným zájemcům (jakými jsou např. učitelé, novináři
a spisovatelé) poskytnuta soustava objektivně podložených výkladů o přirozeně
existujících a respektovaných i doporučovaných normách a pravidlech při výběru
tvarů slov a tvorbě složených pojmenování, vět a celého textu. Objektivní údaje
budou zahrnovat - na rozdíl od dosavadních možností - i údaje o frekvenci,
stylu a textové distribuci gramatických elementů, jak budou doloženy zejména
v textech ČNK.
Bude vytvořena elektronická verze souborné studie, která bude mít
název totožný s názvem projektu a bude základním krokem k principiálně
novému gramatickému
zpracování češtiny. Na tuto studii bude možno v budoucnu navázat při
práci na nové velké gramatice češtiny vycházející materiálově i teoreticky
z rozsáhlých
textových "vzorků" daného stavu jazyka.
Základní referenční literatura:
1. Mluvnice a skladby češtiny:
(uspořádáno chronologicky)
Šmilauer, V. Novočeská skladba. 1. vyd. Praha 1947.
Trávníček, F.: Mluvnice spisovné češtiny I, II. Praha 1951.
Havránek, B.-Jedlička, A.: Česká mluvnice. 1. vyd. Praha 1952.
Kopečný F.: Základy české skladby. SPN Praha 1958. Mluvnice češtiny I-III. Praha: Academia, 1986-1987. Příruční mluvnice češtiny. (kol. autorů ÚČJ FF MU). Praha: Lidové noviny,
1995.
Čechová, M. a kol: Čeština-řeč a jazyk. Praha 1996.
Grepl. M.-Karlík, P.: Skladba češtiny. Olomouc: Votobia, 1998.
Štícha, F.: (v tisku) Česko-německá srovnávací gramatika. Praha: Argo,
2002
2. Knižní monografie
Běličová, H.: Sémantická struktura věty a kategorie pádu. Praha: Academia
1982.
Daneš, F.: Věta a text. Praha: Academia 1985.
Daneš, F.-Hlavsa, Z. a kol.: Větné vzorce v češtině. Praha: Academia
1987.
Daneš, F.-Dokulil, M.-Kuchař, J. a kol.: Tvoření slov v češtině
II. Odvozování podstatných jmen. Praha: Academia 1967.
Dokulil, M.: Tvoření slov v češtině I. Teorie odvozování slov. Praha:
Academia 1962.
Dvořák E.: Přechodníkové konstrukce v nové češtině. Praha: UK 1983
Hajičová, E.: Negace a presupozice ve významové stavbě věty. Praha: Academia
1975.
Hrabě, V: Polovětné vazby a kondenzace "druhého sdělení" v ruštině
a češtině. Praha 1964.
Panevová, J.: Formy a funkce ve stavbě české věty. Praha: Academia 1980.
Piťha, P.: Posesivní vztah v češtině. Praha 1992.
Sgall, P.-Hajičová, E.-Buráňová, E.: Aktuální členění věty v
češtině.
Praha: Academia 1980.
Sgall, P.-Hajičová, E.-Panevová, J.: The Meaning of the Sentence
in Its Semantic and Pragmatic Aspects. Prague, Academia a Dordrecht, Reidel
1986.
Štícha, F.: Utváření a hierarchizace struktury větného znaku. Praha:
UK 1984.
Uhlířová, L.: Knížka o slovosledu. Praha: Academia 1987.
Zimová, L.: Způsoby vyjadřování větných členů v textu. Konkurence
pojmenování, pronominalizace a elize. Ústí nad Labem 1994.
Korpusově orientované studie:
Bémová A. et al. 1997: Anotace na analytické rovině. Technical Report
No. 4, UFAL/MFF UK.
Čermák, F. 1995: Jazykový korpus: Prostředek a zdroj poznání. SaS 56,
119-140.
Hajič J. 1998: Building a Syntactically Annotated Corpus: The Prague
Dependency Treebank. In: Issues of Valency and Meaning, red.E. Hajičová,
Praha: Karolinum 106 - 132.
Hajič, J.-Hajičová, E.-Panevová, J.-Sgall, P. 1998: Syntax v českém národním
korpusu, SaS 59, s.168-177.
Sgall, P.-Hajičová, E.-Panevová, J. 2000: Manuál pro tektogramatické
značkování, Tech. Report 7, UFAL/MFF.
Štícha, F. 1997: Komputační korpusy a empirická gramatika. SaS 58, 26-34.
Štícha F. 2001: Kritéria gramatičnosti (Korpus jako argument a inspirace).
Slovo a slovesnost, 62.