Korpus Dekady

W ramach projektu „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce” (Dariah.lab) prowadzonego przez konsorcjum naukowe DARIAH-PL Zespół Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN oraz Instytut Języka Polskiego PAN prowadzą wspólnie prace nad uzupełnieniem danych korpusowych współczesnej polszczyzny. Budujemy Korpus Dekady 2011-2020 oraz lat następnych. Powstały w wyniku poprzednich grantów naukowych Narodowy Korpus Języka Polskiego zawiera teksty do roku 2010. Udostępnienie nowszych danych korpusowych traktujemy jak obowiązek wobec językoznawców, badaczy piśmiennictwa i kultury polskiej, twórców, redaktorów, studentów i uczniów.

Korpus to zrównoważony gatunkowo zbiór tekstów, bez którego nie da się dziś prowadzić badań językoznawczych, kulturoznawczych czy historycznych, pisać słowników, tworzyć programów technologii językowej. Korpusy narodowe, liczone w setkach milionów słów, tworzone przez instytucje naukowe, mają dziś niemal wszystkie języki europejskie. Podstawowy dla polszczyzny Narodowy Korpusu Języka Polskiego, tworzony przez Instytut Podstaw Informatyki PAN, dostępny do dziś pod adresem nkjp.pl zawiera teksty kilkuset książek i tysięcy artykułów z kilkuset tytułów prasowych od początku XX wieku do roku 2011. W tym roku IPI PAN rozpoczyna prace nad uzupełnieniem korpusu ostatniej dekady. Więcej o korpusie dekady, innych korpusach i technologii językowej na stronie: http://korpus-dekady.ipipan.waw.pl.

Na stronie znajduje się również prezentacja wideo o korpusie, jego roli dla języka oraz o zasadach wykorzystania tekstów. http://korpus-dekady.ipipan.waw.pl/multimedia.html

Napisz do nas

Korpus Dekady

© 2020, Polskie Towarzystwo Wydawców Książek. Wykonanie - Linx

Polityka prywatności

Cookies

Deklaracja dostępności