Az Országgyűlés működésének legfontosabb követelménye a nyilvánosság. Egy demokrácia polgáraként jogunk van ahhoz, hogy a minket érintő legfontosabb döntések meghozataláról és a bennük részt vevőkről minden információhoz hozzájuthassunk. Ma már nem adja a TV a parlamenti üléseket, de az informatika fejlődése számos új lehetőséget kínál a törvényhozás sokdimenziós elemzésére. Ehhez a parlamenti adatok megnyitása szükséges: szkennelt oldalak helyett gépileg feldolgozható formában. A 2017-es nemzetközi Nyílt Jogalkotási Hét (GLOW) eseményeihez kapcsolódva a K-Monitor a magyar parlamenti adatok hasznosításával foglalkozó kutatásának első elemzését mutatja be.
TovábbA képviseleti demokrácia egyik legfontosabb helyszíne a parlament. Választott képviselőink az Országházban vitatják meg az életünkre hatással lévő törvényeket és számos országos jelentőséggel bíró ügyet. A benyújtott törvényjavaslatok vitái során különféle témák merülnek fel, érvek és ellenérvek ütköznek. A plenáris üléseken egyebek mellett mód van napirenden kívüli felszólalásokra, interpellációkra és kérdésekre. Ezek révén formálódik a politikai napirend, amiről a közviták folynak. Ennek a folyamatnak a lehető legnagyobb nyilvánossága fontos közügy, hiszen a parlamentarizmus lényege éppen az, hogy a döntések nem zárt ajtók mögött születnek.
A kormányok azonban folyamatos küzdelmet folytatnak a médiával, melynek során lépésről-lépésre kiszorították az újságírókat az ülésteremből. Ma egyedül a közmédia kamerái lehetnek jelen a teremben, ám egyetlen csatornája sem közvetíti élőben az üléseket. Az érdeklődők a Parlament honlapján követhetik élőben az orszgágyűlés munkáját, sajtóbeszámolókból értesülhetnek a fejleményekről vagy visszakereshetnek korábbi beszédeket a Parlament honlapján elérhetővé tett felszólalások között. A Parlament által közzétett információ mennyisége példás, általános probléma azonban, hogy a felület igen nehézkesen használható.
Csapatunkkal egy olyan eszközt fejlesztünk, amelynek célja, hogy a felszólalásokat könnyen elérhetővé tegye az érdeklődők számára. Ebbe a munkába nyújt bepillantást jelen írás, amely azt vizsgálja, hogy hogyan beszéltek a képviselők és hogy mely témák merültek fel hangsúlyosabban az egyes időszakokban a rendszerváltástól napjainkig.
Elemzésünk alapját a parlament.hu-n elérhető felszólalások alkotják, amelyeket gépi segítséggel letöltöttünk, a szöveget megszabadítottuk a gyakran előforduló töltelékszavaktól (pl.: “az”, “mert”, “hogy”), illetve az elemzés szempontjából irreleváns kifejezésektől (pl.: “tisztelt”, “képviselő”, “indítvány”), így létrehoztuk az elemzés tárgyát képező korpuszt. Az elemzést megelőzően elvégeztük a szöveg egységesítését (karakterkódolás egységesítése, kisbetűs alakra hozás, szótövezés).
A lexikai diverzitás a legegyszerűbb mérőszáma annak, hogy egy adott szövegben mekkora a szóismétlések gyakorisága. Értékét úgy kapjuk meg, hogy a vizsgált szöveg szavainak számát elosztjuk a szöveg egyedi szavainak számával, például a “lenni vagy nem lenni” kifejezésben négy szó és három egyedi szó fordul elő, így lexikai diverzitása 4/3 (azaz 1.33). Látható, hogy minél magasabb ez az érték, annyival gyakrabban vannak szóismétlések a vizsgált szövegben. Könnyű belátni, hogy ez a mutató érzékeny a szöveg hosszára, az egyszavas “Igen” diverzitása egy, még egy átlagos magyar online cikk érték öt körül szokott lenni.
De mit árul el egy beszélőről szövegeinek lexikai diverzitása? Sajnos a magyar nyelv esetében nem ismertek széleskörű adatok arra nézve, hogy különböző nemű, korú és iskolázottságú emberek esetében hogyan alakul ez a mutató írott és beszélt nyelv esetében. A nemzetközi kutatások alapján annyit elmondhatunk, hogy a kor és iskolázottság hatással van a lexikai diverzitásra, de leginkább attól függ, hogy a szöveg milyen kontextusban született, illetve, hogy spontán vagy szerkesztett-e. Ennek tükrében megállapíthatjuk, hogy az első magyar országgyűlésben elhangzott szövegek erősen szerkesztettek és formálisak voltak. Ha a topikokat tartalmazó ábrára is vetünk egy pillantást, akkor láthatjuk, hogy a “Formaságok” téma uralja ezt az időszakot, azaz sok kérdés, köszönet nyilvánítás, rövid megjegyzés hangzott el az 1990 és 1994 közötti ülésnapokon.
1995-ben hirtelen ugrás történik (azaz megnő egy szó átlagos ismétlésének száma), de ez a megugrás 1995-től egészen 2014-ig állandósul az 1.3 körüli értéknél kisebb-nagyobb kitéresekkel. A legutóbb megválasztott parlamentben elhangzott felszólalások esetében azonban hirtelen sokkal nagyobb kilengések jelennek meg. Ha vetünk egy pillantást a lexikai diverzitást pártok szerinti bontásban ábrázoló plotra, láthatjuk, hogy ennek oka a Fidesz és a KDNP felszólalásainak megváltozásában keresendő.
Mielőtt bárki azt a messzemenő következtetést vonná le, hogy a parlament nyelvhasználata lezüllött 1990 óta, emlékezzünk arra, hogy az online sajtó lexikai diverzitása öt körül van, ilyen magas értéket csak 2016 júliusában produkált a Fidesz. A sajtó nyelve erősen szerkesztett, messze áll a beszélt nyelvtől ami tele van szóismétlésekkel, félbehagyott mondatokkal, kihagyásokkal, közbeiktatásokkal még tanult emberek esetében is. A nyelv része, hogy redundáns, sokszor ismétlünk, mindent megerősítünk verbális és nonverbális eszközökkel is, ezért egy hosszú, teljesen spontán beszéd lexikai diverzitása akár tíz felett is lehet. De az ismétlések magas száma sem mond semmit a szöveg minőségéről, hiszen a versek és dalszövegek tele vannak refrénekkel, ami sokszor inkább növeli, mint csökkenti esztétikai értéküket. Amint láthattuk, inkább a sajtónyelvnek való megfelelésnek tudható be és a korábbi szabad sajtó hiányában érthető, hogy az első parlament képviselői inkább más formákhoz nyúltak. 1994 után vélhetően fontossá vált, hogy egy felszólalás idézhető is legyen, amit úgy látszik hamar megtanultak a politikusok. (Az 1990-1994 közötti adatok az eltérő formátumok miatt hiányosak, ezeket később pótoljuk - ez okozza az 1 alatti értékeket a diverzitás elemzésénél.)
Megnéztük, hogy összességében milyen témák voltak leginkább napirenden a rendszerváltás óta eltelt negyedszázadban. (A látens Dirichlet allokáció gépi tanulást alkalmazó algoritmus segítségével összesen 19 csoportot, és az ezeket alkotó legjellemzőbb szavakat sikerült azonosítani.) A módszertanról részletesebben lásd a Precognox egy korábbi elemzését. Az egyes témákat, avagy topikokat a hozzájuk tartozó szavak alapján neveztük el: mely téma volt az, amit a legátütőbbnek éreztünk. A topikok elnevezései szubjektívek és a módszertan sajátosságaiból fakadóan nem vegytiszták. A projekt későbbi szakaszán ezek a topikok változhatnak, bővülhetnek. Az első ábrán azt tekintjük át, hogy az egyes években miről beszéltek inkább a parlamenti képviselők. A pontokra állva látható, hogy az adott évben az adott téma a parlamenti beszédek mekkora részét képezte. A második ábrán pedig ugyanígy az oszlopokra állva láthatókká válnak a témákat alkotó szavak is a teljes időszakra.
Az talán nem meglepő, hogy a parlamenti vita a legjellemzőbb topik, itt találhatók a parlamenti liturgiához kapcsolódó szavak. Az már inkább érdekesnek tűnik, hogy arányaiban az oktatás, a család- és a szociálpolitika milyen kevéssé hangsúlyos témák a parlamenti megszólalások teljes korpuszához képest. A médiával és korrupcióval asszociált klaszter a 2000-es évek fordulóján és a 2010-es években mutat kiugrást, részben vélhetően a médiatörvény-csomaggal kapcsolatos viták miatt. Az adóügyek, nyugdíj, társadalombiztosítás (TB) témaköre állandóan napirenden van a Parlamentben, legnagyobb intenzitással 2011-ben. Az energia és sporttal kapcsolatos csoport a legutóbbi időkben vált igen hangsúlyossá - ez a topik tartalmazza a labdarúgással és atomenergiával kapcsolatos beszédeket. Az önkormányzat, alkotmány elnevezésű topikból kivehető az alaptörvényhez köthető vita 2011-ben. A mezőgazdaság, vidékfejlesztés témán a földtörvények hagytak nyomot a rendszerváltás óta.
Ezzel a betekintéssel egy átfogó képet szerettünk volna nyújtani arról a fejlesztésről, amelyet a parlamenti beszédek jobb kereshetősége érdekében végzünk. A projekt fő célja, hogy a parlamenti üléseken elhangzott beszédeket a rendszerváltástól napjainkig könnyen elérhetővé tegyük újságírók, kutatók és a közügyek iránt érdeklődő állampolgárok számára. Mindezt egy egyszerűen kezelhető oldalon keresztül akár összetett keresésekkel is elvégezhetnénk azáltal, hogy szűrhetünk a találatok között. További terveink között szerepel annak bemutatása, hogyan változott az egyes politikusok legjellemzőbb szókészlete időrendben, illetve összehasonlíthatóvá tennénk az egyes politikusok, illetve pártok beszédeit ugyanezen paraméter alapján.
A projektet a K-Monitor a Global Legislative Openness Week keretében készítette.
Nyitókép: Andrew Shiva / Wikipedia, Hungarian Parliament Building, Budapest, Hungary, 2015. CC BY-SA 4.0
Az oldal a Start Bootstrap - Creative template felhasználásával készült