ورود به محتوا

[peto] Esperanta Tekstaro elŝutebla por NLP?

از ba200ka, 27 مارس 2015

پست‌ها: 7

زبان: Esperanto

ba200ka (نمایش مشخصات) 27 مارس 2015،‏ 22:21:53

Saluton ĉiuj,
Maldelonge mi eklernas pri NLP (NauturLingva Prilaborado) kaj interesiĝas fari NLP-studo per Esperanto. Por NLP-studo ofte necesas Tekstaro ("corpus" angle) de la cellingvo, do mi scivolas, ĉu ekzistas Esperanta tekstaro tiu, kiun oni povas elŝuti senpaga kaj perlaboras?

Studante mi trovis, certe, la
http://tekstaro.com/
Ĝi eble estas la plej riĉa tia tekstaro, kun bona serĉilo-interfaco. Sed bedaŭrinde ne povas oni elŝuti la enhavon. Mi komprenas, ke eble temas pri aŭtorrajtohavaj enhavoj en la tekstaro. Sed mi scivolas, ĉu ne bonas se la sen-aŭtorrajta (publika) parto de la tekstaro estus elŝutebla? Mi sendis mesaĝon al ESF sed ĝisnune ne respondas ili.

Nu, mi ankaŭ trovis publikaĵon tiuj, kiuj mencias aliaj historiaj tekstaroj, ekzemple la libro:
http://www.esperanto.ie/en/PDF_files/Esperanto_a_c...
menciis tekstaron uzitan kun 1,563,500 vortoj, sed ne donis ĝin.

Bonvolu helpi min, samideanoj

Bernadox (نمایش مشخصات) 28 مارس 2015،‏ 6:36:31

ba200ka:Studante mi trovis, certe, la
http://tekstaro.com/
Ĝi eble estas la plej riĉa tia tekstaro, kun bona serĉilo-interfaco.
Tekstaro estas helpa, sed certe ne la plej riĉa korpuso de Esperanto. Ĝi nome bone kovras la plej fruan epokon ĝis ĉ. 1930. Poste venas duonjarcenta "truo" ĝis la komenco de la (ĝenerale disvastigita) elektronika epoko ĉ. la jaro 1990. Tekstaro kiel tuto pro tio donas erarigan impreson pri fakta moderna Esperanto.

Kontrolu ĉiam ankaŭ en la multe pli ampleksaj

* Lepsika Korpuso
* CorpusEye
* DeepDict
* Kukolo

Ĉiuj uzas la tutan esperantlingvan interneton (kaj ĉiuj havas avantaĝojn kaj malavantaĝojn). Mi persone plej ofte uzas la Lepsikan Korpuson, sed tio eble estas demando de gusto.

ba200ka (نمایش مشخصات) 29 مارس 2015،‏ 21:33:11

Bernadox:
Kontrolu ĉiam ankaŭ en la multe pli ampleksaj

* Lepsika Korpuso
* CorpusEye
* DeepDict
* Kukolo
Dankegon pro la mirindaj ligiloj, Bernadox! Mi trovis elŝuteblajn dosierojn en la Leipzig-a retejo. La aliaj retejoj ankaŭ ŝajnas tre utilaj! Ĉu vi ankaŭ laboras pri NLP? Profesie?

Bernadox (نمایش مشخصات) 30 مارس 2015،‏ 6:53:46

ba200ka:
Bernadox:Dankegon pro la mirindaj ligiloj, Bernadox! Mi trovis elŝuteblajn dosierojn en la Leipzig-a retejo. La aliaj retejoj ankaŭ ŝajnas tre utilaj! Ĉu vi ankaŭ laboras pri NLP? Profesie?
Volonte. Mi ĝojas, ke mi povis helpi.

Ne, mi tute ne laboras pri NLP, sed mi verkis la "Berlinan Komentitan Bibliografion de la Vortaroj kaj Terminaroj de Esperanto 1887-2014" (BKB 2015 - ankoraŭ ne en la reto). Ĝi notas kaj priskribas (okaze ankaŭ prijuĝas) i.a. esperantajn korpusojn.

La ĉefa malavantaĝo de la Lepsika Korpuso laŭ mi estas, ke ĝi distingas inter vortoj kun diakritaj literoj laŭ la (hazarda) prezento-maniero en la reto. Por LepKorp "ĝardeno", "gxardeno" kaj "ghardeno" estas tri malsamaj nombrindaĵoj. Mi ŝatus havi la eblecon per unu serĉo trovi ĉiujn trafojn de "ĝardeno", egale kiel iu ret-paĝara fasado prezentas ĝin.

Bernadox (نمایش مشخصات) 30 مارس 2015،‏ 7:03:58

Jen informcele la tuta nuna ĉapitro pri esperantaj korpusoj el BKB 2015 (mi devos uzi du blogerojn, ĉar ĝi estas iom tro longa):

ĉ. 2003 -- Wennergren, Bertil. Tekstaro. — La „klasika“ elektronika korpuso de Esperanto, relative malgranda (iom malpli ol 4,7 milionoj da vortoj), sed kun multaj klasikaĵoj el la fruaj jarcentoj, tamen ankaŭ kun granda „truo“ de la 1930-aj jaroj ĝis la komenco de la elektronika epoko en la 1990-aj jaroj. De la lastaj du jardekoj ĉefe tekstoj el modernaj periodaĵoj (ĉefe Monato, Ondo de Esperanto). La traserĉotaj tekstoj povas esti elektitaj (ekz. ĉiuj, nur Zamenhofaj, nur el iuj verkoj, periodaĵoj k.t.p.). La korpuso (sen la per kopirajto protektitaj verkoj) estas elŝutebla. Stato 2009-02 (ne plu daŭrigita). http://tekstaro.com/

2004 Bick, Eckhard. Corpuseye. — Korpuso de la tuta esperant-lingva Interneto (ĉ. 58,4 milionoj da vortoj), partoj el kiuj estas elekteblaj (ekz. nur esperanta literaturo, nur esperanta Vikipedio k.t.p.). Lasta aktualigo en 2010, de tiam ŝajne ne plu modernigita. http://corp.hum.sdu.dk/

2005 Vaché, Jerôme. Kukolo. — Esperantlingva fasado por Guglo (Google), kiu per unu serĉo trovas ĉiujn deklinaciajn kaj konjugaciajn formojn de Esperanto-vorto en tiaj tekstoj, kiujn ankaŭ trovas Guglo. La ofte riĉan rikolton necesas zorge kribri por eligi nefidindajn fontojn. 44a eld. de la programo de 2013-10-18.
http://www.tekstoj.nl/kukolo/kukolo.htm

2008 Bick, Eckhard. DeepDict Lexifier. Dato de la unua publikigo en interneto: 2008-04-11. — Komputila programo, kiu surbaze de la esperant-lingva interneto indikas tipajn rilatojn inter vortoj. La resenditaj rezultoj donas vortaron de kombineblaj vortoj (kutima kombino estas ekz. hundo kaj boji, sed ne hundo kaj miaŭi). Necesas (senkosta) ensaluto. Pliajn detalojn vd. en la rec. Bernardo 2010.
url: http://gramtrans.com/deepdict/
Spec. (atributoj, t.n. „premodifiers“ de hundo):

Premodifers:4.58:3 rabia · 4.93:2 mopsa · 4.49:2 dalmata · 0.82:5 granda · 3.68:2 purrasa · 1.48:4 sovaĝa · 1.43:4 nigra · 4.36:1 trikapa · 4.24:1 nelaca · 4.24:1 mallonghara · 3.18:2 andaluza · 0.89:4 malgranda · 2.53:2 vila · 1.35:3 flava · 2.16:2 paŝtista · 2.04:2 senhejma · 2.85:1 miksrasa · 2.85:1 preria · 2.75:1 bonrasa · 0.69:3 grandega · 2.45:1 senmastra · 2.3:1 terapia · 2.3:1 ŝafista · 2.22:1 kontraŭtanka · 2.04:1 vagabonda

Laŭ tio la plej oftaj atributaj kombinoj kun hundo estas:

1. 0.82:5 granda ·hundo
2. 1.48:4 sovaĝa hundo
3. 1.43:4 nigra hundo
4. 0.89:4 malgranda hundo
5. k.t.p.

Rec.: — 2010: Bernardo [t.e. Bernhard Pabst]. DeepDict: Vortoj kaj iliaj amikoj. En: Ipernity (2010-12-31).

Bernadox (نمایش مشخصات) 30 مارس 2015،‏ 7:10:18

Kaj jen la resto. Mi ĉiam estas danka pro ĉiuj atentigoj pri mankoj kaj misoj.

P.S.: Eble indas okaze kontakti Eckhard Bick. Li estas multjara germana esperantisto, kiu jam duonan vivon vivas en Danlando kaj profesie kaj mongajne laboras pri tiaj temoj.

-------

2013 Universität Leipzig. Wortschatz [Lepsika Korpuso]. — La nuntempe plej ampleksa kaj aktuala, profesie farita korpuso de Esperanto, unu el 230 samspecaj Corpus-Based Monolingual Dictionaries. Fasada lingvo estas la angla. La rezultoj ĝenerale estas el lingve fidindaj fontoj, precize indikitaj (kaj do kontroleblaj). Spec. (malgranda eltiraĵo el serĉo je paco):

term: paco number of occurrences: 4279
class of frequency: 9 (i.e. la has got about 29 the number of occurrences than the selected word.)
example(s): Ni preĝas, ke Dio donacu helpon kaj gracon, por ke la popolo de Ĉeĥoslovakio trovu ripozon kaj ke la paco restu konservata. (source: http://www.esperokatolika.org/ek19661970/ek1968_09...) Poetinoj gravos en la morgaŭa tago, dediĉita al "Bildoj de virinoj en literaturo kiel vojo al paco". (source: http://www.esperantio.net/indexdae8.html) "Kaj la frukto de justeco estas semata en paco por tiuj, kiuj faras pacon" (Jakobo, 3, 18). (source: http://www.esperantio.net/indexb88d.html) more examples

significant cooccurrences of paco: [justeco, milito, mondo, amikeco, popoloj, stabileco kaj multaj aliaj vortoj, kiuj kutime aperas en rilato al paco]

significant left neighbours of paco:[la, pri, de, monda k.m.a.]

significant right neighbours of paco:[kaj, en, inter, kun, estu k.m.a.]

url: http://corpora.informatik.uni-leipzig.de/

ba200ka (نمایش مشخصات) 31 مارس 2015،‏ 2:59:20

Kia riĉa kolekto! Dankegon pro tiu ĉhi informado!
Je Lernu ja kaŝas multaj kapabluloj!

بازگشت به بالا