Clone wiki

iLindeCSV / Home

Janusz S. Bień: Elektroniczny indeks haseł do słownika Lindego (druga wersja wstępna)


Podstawowe informacje

Elektroniczny indeks stanowi utwór pochodny w stosunku do opracowania:

Renata Grzegorczykowa, Zofia Kurzowa, Jadwiga Puzynina
Witold Doroszewski (redaktor)
Indeks a tergo do Słownika języka polskiego S. B. Lindego
Wydawnictwa Uniwersytetu Warszawskiego
Warszawa 1965
Dygitalizacja dostępna pod adresem http://wbl.klf.uw.edu.pl/19/
(adres może ulec zmianie)

Tworzenie utworów pochodnych jest możliwe dzięki udostępnieniu oryginalnego utworu na swobodnej licencji, za co serdeczne podziękowania należą się wszystkim aktualnym właścicielom praw autorskich do indeksu a tergo: Renacie Grzegorczykowej, Agnieszce Kurz, Andrzejowi Kurzowi, Jadwidze Puzyninie, Janowi Doroszewskiemu, Urszuli Doroszewskiej. Podziekowania należą się również Ryszardowi Burkowi, dyrektorowi Wydawnictw Uniwersytetu Warszawskiego, który szybko potwierdził brak praw Wydawnictw do utworu.

Początkowe etapy przygotowania indeksu elektronicznego były częściowo finansowane przez projekt IMPACT.

Licencja

Indeks dostępny jest na licencji

Creative Commons
Uznanie autorstwa, Na tych samych warunkach

(por. http://creativecommons.org/licenses/by-sa/3.0/pl/)

Oznacza to w skrócie:

Wolno

  • kopiować i rozpowszechniać utwór,
  • tworzyć i rozpowszechniać utwory zależne (pochodne),

pod warunkiem

  • oznaczenia autorstwa
  • rozpowszechniania utworu oryginalnego i utworów zależnych tylko na zasadach takiej samej licencji.

Korzystanie z elektronicznego indeksu

Obecnie najwygodniej korzystać z indeksu za pomocą programu djview4poliqarp (opracowanego w ramach projektu Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych) przeznaczonego m.in. do przeglądania dygitalizacji drugiego wydania słownika Lindego udostępnianej razem z wyszukiwarką przez Katedrę Lingwistyki Formalnej Uniwersytetu Warszawskiego pod adresem

http://korpusy.klf.uw.edu.pl/slownik-lindego/.

(adres wkrótce ulegnie zmianie).

Indeks może być jednak wykorzystywany do innych celów i w inny sposób.

Aktualnie rekomendowaną formą powoływania się na elektroniczny indeks w publikacjach naukowych jest cytowanie referatu:

Janusz S. Bień
Elektroniczny indeks do słownika Lindego (wersja wstępna)
V Glosa do leksykografii polskiej
Instytut Języka Polskiego Uniwersytetu Warszawskiego
Warszawa, 18-19 września 2014~r.
http://bc.klf.uw.edu.pl/379

Zrzut ekranu djview4poliqarp{Program djview4poliqarp - porównanie wyszukiwania za pomocą kwerendy i indeksu}

Format indeksu

Indeks ma postać pliku CSV (Comma Separated Values) ze średnikiem jako separatorem pól.

Reprezentacja znaków piśmiennych jest zgodna ze standardem Unicode i formatem UTF-8.

Każdy wiersz zawiera trzy pola:

  1. Wyrażenie hasłowe, które w ogólnym wypadku może być wielowyrazowe i zawierać znaki nieliterowe.

  2. Adres wyrażenia hasłowego w dygitalizacji słownika udostępnionej przez Katedrę Lingwistyki Formalnej UW; pewna liczba haseł nie ma jeszcze wypełnionego tego pola.

  3. Komentarz. Komentarz zaczynający się od wykrzyknika powoduje ukrycie hasła przez program djview4poliqarp tzn. jest ono wyświetlane dopiero po wyborze odpowiedniej opcji.

Warianty indeksu

Pierwsza wersja indeksu została sporządzona dla udostępnionych w 2010 r. tzw. starych skanów (adres wkrótce ulegnie zmianie), których jakość niestety nie była zadowalająca. W październiku 2016 r. został udostępniony indeks do tzw. nowych skanów (adres wkrótce ulegnie zmianie); nazwy nowego indeksu zaczynają się od napisu Linde600dpi.

Aktualnie wszelkie poprawki są nanoszone tylko na indeks do nowych skanów.

Indeks dostępny jest do pobrania w dwóch wariantach w postaci skompresowanych plików o objętości około 1.5 MB każdy:

  • Plik uporządkowany w kolejności występowania haseł w indeksie a tergo; podhasła indeksu i hasła uznane za błędne są domyślnie ukryte.
  • Plik uporządkowany według numerów stron słownika, na których występują hasła (uwzględnienie kolejności haseł na stronie jest przewidziane w przyszłości); hasła niezlokalizowane znajdują się na końcu listy.

Wariant uporządkowany w kolejności występowania haseł w indeksie a tergo jest wariantem podstawowym, a jego najnowsza wersja jest dostępna w repozytorium; skompresowane pliki do pobrania będą przygotowywane tylko co jakiś czas.

Historia zmian wariantu podstawowego jest dostępna tutaj.

Zastosowania

Przykłady

Zrzuty zostały wykonane dla maszyny wirtualnej dostępnej tutaj.

Updated