Đi đến phần nội dung

Komputa lingvistiko por Esperanto

viết bởi AleksandrSup, Ngày 19 tháng 1 năm 2023

Tin nhắn: 6

Nội dung: Esperanto

AleksandrSup (Xem thông tin cá nhân) 18:00:07 Ngày 19 tháng 1 năm 2023

Esperanto estas bonega lingvo kun multaj aktivaj parolantoj, sed mi ne scias eĉ iun indan korpuson de Esperantaj tekstoj. Ankaŭ Esperanto havas sufiĉe simplan gramatikon, tial ĝi povus uzati por prototipi, fari iajn eksperimentajn pri komputa lingvistiko.
Por tio mi petas informi pri ĉiuj projektoj farantaj:
  • grandan korpuson de tekstoj (por havi materialon por laboro);
  • morfologian analizilon (por determini gramatikajn formojn de vortoj);
  • vort-vektorojn (por konverti vortojn al vektorojn por analizi senca proksimeco);
  • eble eĉ sintaksan analizilon aŭ iajn aliajn komputajn ilojn?

AleksandrSup (Xem thông tin cá nhân) 18:40:32 Ngày 19 tháng 1 năm 2023

La nura komputa projekto rilata al Esperanto, kiun mi scias, estas fastText, kiu faris vort-vektorojn por 157 lingvoj inkluzive Esperanton. Ĝi uzis Vikipedion kiel korpuso. Mi ne ŝatas la rezulton, ĉar oni ne konvertis vortojn al la vortara formo, sekve oni havas diversajn vektorojn por esti kaj estas, lando kaj landoj, kio ne plej utilas laŭ mia opinio.

Frano (Xem thông tin cá nhân) 20:24:36 Ngày 19 tháng 1 năm 2023

Altebrilas (Xem thông tin cá nhân) 13:51:05 Ngày 20 tháng 1 năm 2023

Kio estas vortvektoro?

Mi iam verkis programeton en python por distrancxi radikojn el vortoj. Oni devas disponi pri listo de radikaro kaj, post forjxeto de la terminajxoj, vidi cxu la listigitaj radikoj aperas komence aux fine de la vorto. La programo printas la nerekonitajn vortojn, kaj la uzanto povas aldoni radikon en la listo aux korekti eraron.

Mi ne konas aliajn laborojn, sed multe supozas, ke tiaj ekzistas, cxar auxtomata tradukado bezonas tiajn ilojn.

AleksandrSup (Xem thông tin cá nhân) 17:13:17 Ngày 21 tháng 1 năm 2023

Altebrilas:Kio estas vortvektoro?
Tio estas iom da nombroj reprezentantaj iun vorton, komputitaj per statistiko pri aperoj de la vorto en tekstoj apud aliaj vortoj. Ideale vortvektoroj de vortoj kun similaj sencoj estas proksimaj en vektora spaco. Vi povas legi pli en ekzemple angla Vikipedio (Word embedding).

Frano (Xem thông tin cá nhân) 19:30:58 Ngày 22 tháng 1 năm 2023

Quay lại