lingventa

NASZE
PROJEKTY

OPRACOWANIE TECHNOLOGII REDUKCJI BŁĘDÓW TYPU FALSE POSITIVES WYKRYWANYCH PRZEZ ALGORYTMY KOREKTY TEKSTÓW NA POTRZEBY WYKONANIA PLATFORMY DO AUTOMATYCZNEJ KOREKTY KONTEKSTOWEJ DOKUMENTÓW Z ELEMENTAMI REDAKCJI, WYKORZYSTUJĄCEJ METODY UCZENIA MASZYNOWEGO I MODELE JĘZYKOWE

Opis projektu

Lingventa (spółka z ograniczoną odpowiedzialnością) realizuje projekt: „Opracowanie technologii redukcji błędów typu false positives wykrywanych przez algorytmy korekty tekstów na potrzeby wykonania platformy do automatycznej korekty kontekstowej dokumentów z elementami redakcji, wykorzystującej metody uczenia maszynowego i modele językowe”.

Celem projektu jest opracowanie innowacyjnej na skalę światową technologii redukcji błędów typu false positive wykrywanych przez algorytmy korekty tekstów napisanych w języku polskim. Odbiorcą rozwiązania będą wydawnictwa, portale, urzędy, kancelarie prawne i firmy pracujące z dużą ilością dokumentów (m.in. korespondencja z klientami), a także użytkownicy indywidualni (uczniowie, dziennikarze, naukowcy, tłumacze, blogerzy). Wytworzona technologia pozwoli wykonać nowy produkt przeznaczony do automatycznej korekty kontekstowej dowolnych tekstów w języku polskim.

Instytucja pośrednicząca:
Narodowe Centrum Badań i Rozwoju, www.ncbir.gov.pl

W ramach działania:
Projekty B+R przedsiębiorstw Programu Operacyjnego Inteligentny Rozwój 2014-2020

Oś priorytetowa:
Wsparcie prowadzenia prac B+R przez przedsiębiorstwa

Okres realizacji projektu:
1 listopada 2021 r. – 31 grudnia 2023 r.

Dane:
Nr umowy: POIR.01.01.01-00-1790/20

Wartość ogółem:
4 188 970,59 zł

Wkład UE:
3 221 823,53 zł

  • SYNAMET

    Mikrokorpus metafor synestezyjnych. Formalizacja opisu i wypracowanie efektywnych metod analizy metafor w dyskursie
    expand

    Opis projektu

    Pierwszym celem projektu było zbadanie, jak w tekstach opisuje się różne wrażenia zmysłowe (zapachowe, smakowe, słuchowe) za pomocą języka figuratywnego. Następnie stworzono korpus metafor synestezyjnych. Na koniec sprawdzono, czy model synestezji zaproponowany przez S. Ullmanna ma zastosowanie również w języku polskim.
    Polski Korpus Metafor Synestezyjnych SYNAMET jest pierwszym polskim korpusem metafor i pierwszym korpusem metafor synestezyjnych na świecie. To nowe narzędzie, które można wykorzystać w badaniach językoznawczych, literaturoznawczych czy kulturoznawczych.

    Lingventa była odpowiedzialna za przygotowanie oprogramowania do budowy korpusu metafor synestezyjnych:

    • aplikacji do ekstrakcji tekstów z internetu,
    • aplikacji przeznaczonej do anotacji tekstów,
    • aplikacji przeznaczonej do prezentacji korpusu wraz z wyszukiwarkami na stronie internetowej.

    Strona internetowa:
    synamet.uw.edu.pl

    Korpus udostępniono na stronie:
    synamet.polon.uw.edu.pl

    Projekt finansowany przez:
    Narodowe Centrum Nauki (nr projektu: 2014/15/B/HS2/00182)

    Okres realizacji zadań:
    listopad 2015 r. – październik 2019 r.

    Wykonawca:
    Instytut Języka Polskiego Uniwersytetu Warszawskiego

    Kierownik projektu:
    dr hab. Magdalena Zawisławska

  • KORBA

    Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do roku 1772)
    expand

    Opis projektu

    Celem projektu było stworzenie korpusu dawnych tekstów polskich. Korpus liczy 13 453 367 segmentów. Składa się z 718 plików tekstowych (każdy plik tekstowy zawiera pełny tekst napisany w latach 1601–1772 albo obszerny fragment takiego tekstu). Udostępniono go pod adresem: www.korba.edu.pl.

    Korpus poszerza Narodowy Korpus Języka Polskiego (NKJP) o teksty dawne, a dzięki temu pozwala na zapoznanie się z ewolucją języka ojczystego. Jest nowym narzędziem badawczym przydatnym w analizach z zakresu językoznawstwa, literaturoznawstwa, kulturoznawstwa, historii, socjologii.

    Zadanie Lingventy polegało na anotacji morfosyntaktycznej 551 próbek, superanotacji 470 próbek tekstów korpusu barokowego oraz na sporządzeniu listy frekwencyjnej leksemów występujących w korpusie oraz indeksów porównawczych z indeksem zawartości SXVII.

    Strona internetowa:
    korba.edu.pl

    Projekt finansowany przez:
    Ministerstwo Nauki i Szkolnictwa Wyższego (nr projektu: 0036/NPRH2/H11/81/2012)

    Wykonawca:
    Pracownia Historii Języka Polskiego XVII i XVIII w. IJP PAN oraz Zespół Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN

    Okres realizacji zadania:
    styczeń – marzec 2018 r.

    Kierownik projektu:
    prof. Włodzimierz Gruszczyński

  • CLARIN-PL-Biz

    CLARIN-PL Biz to projekt R&D, dzięki któremu powstało konsorcjum jednostek naukowych CLARIN-PL i firm
    expand

    Opis projektu

    Celem projektu było stworzenie największej infrastruktury służącej do przetwarzania języka naturalnego w Polsce. Samo przedsięwzięcie to unikatowe rozwiązanie w ramach sieci CLARIN: innowacyjne produkty naukowe oparte na uczeniu maszynowym stały się dostępne dla klientów biznesowych. W ramach projektu udostępnione zostały nie tylko narzędzia, lecz także wiedza ekspercka i zasoby lingwistyczne.

     

    Lingventa była odpowiedzialna za użyczenie oprogramowania (wkład niepieniężny).

    Strona internetowa:
    clarin-pl.eu/business

    Projekt jest finansowany w ramach Programu Operacyjnego Inteligentny Rozwój 2014-2020, Priorytet IV: Zwiększenie potencjału naukowo-badawczego, Działanie 4.2: Rozwój nowoczesnej infrastruktury badawczej sektora nauki, nr POIR.04.02.00-00C002/19, CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna”.

     

    Okres realizacji zadania:
    2020–2023

    Lider projektu:
    Politechnika Wrocławska

lingventa

Skontaktuj się z nami!

    Lingventa sp. z o.o.
    ul. Rodziny Połanieckich 29/67

    01-924 Warszawa
    NIP 118-20-81-854

    REGON 145918004

    KRS 0000404830

    Kapitał zakładowy 30 000 PLN