Sémantické prostory českého zpravodajství

Algoritmus word2vec, zjednodušeně řečeno, umožňuje vyhledat ve velkých textových korpusech sémanticky blízká slova. V podstatě jde o natrénovanou neuronovou síť, která se snaží předpovědět jaké slova budou tvořit kontext konkrétního slova. My jsme se v naší aplikaci inspirovali projektem serveru Pro Publica How Machines Learn to Be Racist, který naučil tuto neuronovou síť najít blízká slova v korpusech amerických médií.

Pro naše účely jsme vytvořili korpusy pro pět skupin českých médií pro která jsme měli dostatek dat. Oproti původní typologii tak některá chybí. V případě médií hlavního proudu jsme ještě zdroje rozdělili na dva. Do prvního jsme zařadili samostatně Novinky.cz, které mají spíš středolevé a levicové publikum, do druhé pak média se spíše středopravicovým a pravicovým publikem.

  • Antisystémové: Nová republika, Vlastenecké noviny, Rukojmí, Svobodné noviny, AC 24, Czech Free Press, ČeskoAktuálně, Aeronet, NWOO, Protiproud, Bez Politické Korektnosti, Outsider Media a Zvědavec
  • Politický bulvár: Parlamentní listy, První zprávy a Eurozprávy
  • Bulvár: Blesk a Aha Online
  • Hlavní proud - levý střed: Novinky
  • Hlavní proud - pravý střed: iHned, iDnes, Lidovky a Aktuálně

Tyto korpusy obsahují všechny články publikované na těchto serverech v době mezi zářím 2017 a zářím 2018. Pro lepší výsledek jsme strojově převedli všechny tato slova do základních tvarů (tzv. lemmatizovali) pomoci knihovny UDPipe. Výsledky jsou seřazeny podle abstraktní vzdálenosti. Tučně jsou pak zvýrazněna ta slova, která jsou typická pro jednotlivé druhy médií.

Tento projekt byl připraven ve spolupráci se Studii nových médií FF UK.