Naar de inhoud

Morfologia analizilo de Esperantaj vortoj

door Vilius, 16 oktober 2012

Berichten: 15

Taal: Esperanto

Vilius (Profiel tonen) 16 oktober 2012 07:20:59

Kiel parton de mia ĝenerala studado pri komputa lingvoscienco, mi kreis algoritmon por disigi Esperantajn vortojn al morfemoj. La interreta interfaco al mia ilo troveblas ĉi tie: eo.norma.lt.

La algoritmo estas sufiĉe preciza, tamen de tempo al tempo trovas nekredeblajn, tamen gramatike entute validajn multoblajn alternativojn. Mi provis forfiltri kiom eblas multe de eraraj alternativoj, tamej kelkaj restas. Ekzemple, provu disigi vorton "paperaro". La unuaj du alternativoj: ^ar-o kaj -o estas entute validaj (nu, krom la fakto, ke papo supozeble estas senerara ridego.gif), tamen la tria alternativo estas sensenca: .e.-o (kie .e. estas ligfinaĵo, au interfikso).

Ankaŭ mankas kelkaj funkcioj, kiujn algoritmo jam povas fari, tamen mi ankoraŭ ne kreis retejan ŝablonon por montri ilin. Tiuj estas identiĝo de vortotrunko (laŭ mia algoritmo trunko estas "parto de vorto sen finaĵoj" ) kaj identiĝo de gramatikaj kategorioj: substantivo, verbo, k.t.p.

Kaj certe pardonu la anglaĵojn. Mi esperas demonstri la ilon al ne-esperantistoj en mia universitato, kaj pro tio mi ĝin kreis en la angla, poste mi nepre Esperantigos.

Do provu ĝin, kaj skribu, kiajn erarojn vi trovis.

whysea (Profiel tonen) 16 oktober 2012 07:35:14

Interese!

Fenris_kcf (Profiel tonen) 16 oktober 2012 07:53:57

Vilius:... .e.-o (kie .e. estas ligfinaĵo, au interfikso) ...
Mi ne tute komprenas. Laŭ mia scio la morphemo "e" nur povas esti la lasta sufikso en iu ajn vorto.

PS: Eble vi parolu kun tommjames en la IRC-kanalo ##esperanto ĉe freenode pri sia programo "EoBot", kiu ankaŭ havas funkcion por tranĉi vortojn. Por "paperaro" ĝi nur montras la du versiojn:

"EoBot":paper-ar-o (plej verŝajna)
pap-erar-o

Hyperboreus (Profiel tonen) 16 oktober 2012 08:07:00

Forigite

Fenris_kcf (Profiel tonen) 16 oktober 2012 08:37:31

Ho, jes - mi malpravis.

Vilius (Profiel tonen) 16 oktober 2012 08:47:43

Fenris_kcf:Mi ne tute komprenas. Laŭ mia scio la morphemo "e" nur povas esti la lasta sufikso en iu ajn vorto.
Tiaj vortoj ne estas oftaj, tamen "e" certe povas okazi inter radikoj en kunmetaĵoj. Jen kelkaj ekzemploj el PMEG: postesigno, posteulo. Kaj jenajn mi mem trovis en korpuso kaj vortaroj: longedaŭra, akrevida, akresona, fojefoje. Povas esti eĉ pli da ili, mi neniam speciale serĉis.

Mi certe ne estas la unua, kiu solvis la problemon. Ekzemple Jiri Hana faris tion eĉ en 1998, en sia bakalaŭra laboro (li eĉ iomete helpis al mi pri mia ilo), kaj aliaj ankaŭ verŝajne faris tion. Tamen, mi estas la unua, kiu kreis publike uzeblan ilon (almenaŭ mi ne scias pri aliaj).

Fenris_kcf (Profiel tonen) 16 oktober 2012 09:32:09

Mi jam skribis: EoBot en ##esperanto

Vilius (Profiel tonen) 16 oktober 2012 09:40:05

Fenris_kcf:Mi jam skribis: EoBot en ##esperanto
Nu bone. Tiam mi estas la unua, kiu kreis tian ilon, uzeblan per http protokolo okulumo.gif

Fakte, la retejo mem ne estis mia celo. La celo estis krei ilon, kiun mi uzu en studado de la lingvo, kaj ankaŭ por praktiki iomete pri programado en kunteksto de lingvoscienco. Kaj ĉi tiujn celojn mi atingis.

Vilius (Profiel tonen) 16 oktober 2012 09:51:30

Jen listo de vortoj, kiuj estis enigitaj de vizitantoj komence de hodiaŭ. Mi mem enigis kelkajn de tiuj vortoj por testado (mi ne diros, kiujn ridulo.gif).

La programo ne konservas IP adresojn, do estu certaj pri anonimeco.

Vilius (Profiel tonen) 16 oktober 2012 10:56:26

Reagante al viaj vortoj mi aldonis radikon "dendrit" al mia morfem-listo, kaj ĝustigis disigon de "flughaveno" malpermesante varianton -o. La ŝanĝoj aperos en la retejo nur post iom da tempo, kiam mi ĝisdatigos la programon.

Terug naar boven