Přejít k obsahu

Carácteres esperanto en Sony PRS-350

od uživatele jol381aa ze dne 10. ledna 2011

Příspěvky: 35

Jazyk: Español

jol381aa (Ukázat profil) 15. ledna 2011 14:23:14

Pasar documentos pdf a epub no hay problema. Ya que el pdf YA VIENE con el formato definitivo. Por tanto, si el pdf viene con los caracteres en esperanto, el epub generado los tendrá igualmente. Pero sin embargo, para leerlo en un ebook no es funcional, ya que no se puede escalar los margenes ni ampliar los tipos de letra. Si el documento en pdf tiene la letra muy pequeña; en una pantalla de 5'' como la mía no se ve nada.
Para crear un epub o fichero para ebook funcional se requiere hacerlo sobre un documento base tipo .doc, .txt, o .odt...que permita jugar con los saltos de linea. El pdf no ofrece esa posibilidad.
Si te quieres comprar un ebook; mi consejo es que no te esperes a que salgan modelos más actuales. El precio actual de mi modelo es de 200€. La vida útil de este tipo de aparatos es de 2 años (que será cuando salgan tus ansiados ebooks a color). ¿Entonces para que vas a esperar? Dentro de 2 años ya te compraras el ebooks a color. ¿Pero mientras tanto? Es como el que está 2 años sin teléfono móvil por que está esperando a que salga un modelo con cámara de 10 mpixeles. Estos aparatos no son para toda la vida (desgraciadamente).
Pero, ¿vas a estar 2 años esperando a tenerlo? Si lo vas a utilizar ya; lo ideal sería que te lo compraras ya. La verdad es que va muy bien. Mejor de lo que yo me pensaba. El inconveniente; es conseguir textos para leer. En ingles si tienes de todo, en español bastante; pero en esperanto no queda otra que pasar textos a formato .doc y de ahi a .epub para poder utilizarlos.

Leonez (Ukázat profil) 15. ledna 2011 14:46:05

Saluton al ĉiuj,
mi havas la saman problemon kun mia Cybook, sed mi tute ne parolas la hispanon ! Se vi trovas solvon, ĉu povos iun traduki la solvon ĉe la esperantan foromon ? Dankon al vi ! Certe estos multe homojn interesajn...

gmolleda (Ukázat profil) 15. ledna 2011 18:04:18

Bien, ya tengo el problema yo también, jeje.

Me he bajado "La tempomaŝino" de H.G. Wells del proyecto Gutenberg, y justamente el maŝino de la portada la pone bien al convertir a EBook (y es texto), pero en cambio el maŝino de la segunda página ya la pone como maÿino y MAŸINO, curioso cuanto menos.

Edito: veo que en el EBook la portada es un jpg de la primera página, la pasa a imagen, por eso conserva la Ŝ, pero el problema es del conversor al pasar al texto.

En cambio si creo un fichero de texto con gedit (editor de texto) y escribo maŝino, MAŜINO y lo imprimo en PDF, lo convierto a EBook y lo hace perfecto.

Edito: perfecto NO, es que la primera página, y única de mi pdf, la pasa como portada a jpg, por eso funciona. Ahora tendré que hacer un txt a pdf de dos páginas, para comprobar que convierte mal.

Como el PDF de "La tempomaŝino" estaba creado con herramientas de Adobe, pues probé a reimprimir el pdf original con la impresora PDF de mi Ubuntu, la misma con la que hice lo del editor de texto y da el mismo problema: convierte bien el maŝino de la portada, pero mal el de la segunda página.

Vaya reto nos espera.

gmolleda (Ukázat profil) 15. ledna 2011 18:27:20

Pues sí, convierte bien mi pdf realizado desde mi txt, con maŝino y MAŜINO en dos páginas.

Eso quiere decir que el conversor funciona unas veces sí y otras no.

Habrá que estudiar el porqué.

gmolleda (Ukázat profil) 16. ledna 2011 9:43:16

Resultados del análisis de estos pdf:

1) El pdf que se convierte mal resulta que tiene una codificación Custom (es decir, creada por el autor para este documento, no estándar). Eso lo veo abriendo con Acdobe Reader para Linux, menú File - Properties y en la pestaña Fonts vemos Encoding: Custom.

Por ejemplo, si usas el comando pdftotext archivo.pdf archivo.txt verás que en el texto resultante aparecen los caracteres del esperanto igual de mal (o bien) que en el Ebook convertido.

2) En pdf se puede agregar al documento el conjunto de caracteres a usar, con sus dibujos correspondientes, en cambio parece que eso en EBook no se puede, mientras que en LRF sí.
Igual se puede investigar algo más con Ebook en: ayuda para conversión de Calibre

3) Los caracteres vistos que no se convierten bien son por ejemplo:
Ŝ: en UTF-8 sería C5 9C (9CC5) pero en el PDF se convierte por C5 B8 (B8C5 que es Ÿ)
ŝ: en UTF-8 sería C5 9D (9DC5) pero del pdf sale C3 BF (BFC3) que es ÿ.

Lo dejo por ahora.

jol381aa (Ukázat profil) 17. ledna 2011 10:47:25

Has llegado a la misma conclusión que yo. Sólo se puede utilizar el formato de salida LRF. Y hay que tener cuidado. El Calibre no convierte correctamente caracteres en negrita ni en cursiva. Así que hay que utilizar un tipo de letra estandar (por ejemplo arial) y sin utilizar formatos adicionales de caracteres.
Supongo que habrá formas de subsanar esas dificultades. Pero al final pierdes muchisimo tiempo en esas tonterías; un tiempo que podrías estar utilizando en otras cosas más provechosas.
Así que yo ya he decido utilizar el LFT, con tipo uniforme de Arial 12 para todo el documento y olvidarme de otras opciones. Lo unico que haces al final es perder tiempo.
Una lástima que el sistema de los ebooks funcione tan mal. Supongo que al final lo que quieren es que sólo lo utilices para leer textos comprados.

gmolleda (Ukázat profil) 17. ledna 2011 13:35:56

Conseguido:

Si no tienen tiempo pues habrá que convertir a LRF como bien dice jol381aa, pero si tienen el tiempo o simplemente necesitan un formato más manejable como epub, pues los pasos algo trabajosos pero funcionales son los siguientes:

1) Convertir el pdf a epub.

2) Abrir con el navegador (nautilus en gnome) la ruta del libro convertido /home/guille/Biblioteca de calibre/autor/titulo (en mi caso /home/guille/Biblioteca de calibre/H. G. Wells/La tempomas'ino (7))

3) Abrir el libro en formato PDF.

4) Abrir con el gestor de archivadores (el programa para comprimir y descomprimir ficheros zip, ...) el libro en formato .epub

5) En el gestor de archivadores, vemos algunos ficheros con el nombre "index_split_NNN.html" donde NNN son números desde 000, 001, 002, ... al que llegue. Pulsar con botón derecho del ratón en el primero de estos ficheros, o si tienes prisa simplemente en alguno de los más grandes (con más KiB de tamaño), elegir "Abrir con" y usar el editor de texto gedit.

6) Conseguir la tabla de equivalencias de los caracteres especiales del esperanto con los caracteres convertidos en nuestro libro en formato .epub, para ello buscamos en el pdf palabras donde aparezca alguno de los caracteres especiales: Ĉ, ĉ, Ĝ, ĝ, Ĥ, ĥ, Ĵ, ĵ, Ŝ, ŝ, Ŭ, ŭ
Luego buscamos la palabra (la parte antes o después del carácter especial) en el fichero de texto html del epub, y copiamos la correspondencia en un nuevo fichero de texto.
Para este paso es bueno usar el fichero .html más grande para tener más posibilidades de encontrar la palabra con el carácter especial. (En mi caso fueron Ç-Ĉ, ç-ĉ, ¯-Ĝ, ¸-ĝ, ?-Ĥ, ?-ĥ, Î-Ĵ, î-ĵ, Ÿ-Ŝ, ÿ-ŝ, Û-Ŭ, û-ŭ, no encontré ninguna ĥ ni Ĥ).

7) Ahora, sobre el html en el editor gedit, usamos reemplazar texto y buscamos cada símbolo de nuestra tabla en el html abierto y lo reemplazamos por las letra especial del esperanto que le corresponda.

8) Una vez reemplazados, guardamos el documento html y el mismo gestor de archivadores nos avisa si queremos actualizar el contenido, decimos que sí (botón actualizar).

9) Repetimos los pasos 5, 7 y 8 con cada fichero .html

10) Finalmente cerramos el gestor de archivadores (los cambios ya se guardaron en el archivo .epub en el momento que pulsábamos el botón actualizar tras guardar los cambios en gedit del paso 8).

Funciona.

jol381aa (Ukázat profil) 17. ledna 2011 18:41:55

Uffff...un poco complicado. Voy a imprimirmelo y hacerme un esquema rápido y cuando tenga un tiempo lo pruebo. Ya te comentaré; pero creo que salvo que tenga un interés muy grande para determinado archivo seguiré utilizando mi arcaico sistema de conversión al sistema LRF.
Por cierto; una vez solucionado este problema (o al menos medio solucionado; por que la solución parece peor que el problema por su laboriosidad), me gustaría solucionar el problema de los saltos de linea en los documentos PDF al convertirlos a formato EBOOK. Este no se si tendrá solución; pero como bien sabeis, los PDF ya vienen con los saltos de linea definidos, por lo que al utilizarlos en un ebook es imposible utilizar el zoom o los diferentes tamaños de letra. El problema es cuando en el PDF la letra es demasiado pequeña; en ese caso es imposible leer el fichero en un EBOOK.

gmolleda (Ukázat profil) 19. ledna 2011 10:58:16

jol381aa:Uffff...un poco complicado.
Pues nada aquí tienes un script bash que te hace todo el trabajo de corrección, menos el saber cuales son los caracteres a convertir.

Pasos:

Una vez en tu vida:
1) El fichero lo guardas en tu home con el nombre literumilo.sh (o en /usr/bin si ves que funciona y te gusta).

2) Le das permiso de ejecución (en el navegador de archivos nautilus miras las propiedades del archivo y en la pestaña permisos activas poder ejecutarlo).

Cada vez que necesites corregir un libro:
3) Te haces con la lista de caracteres a convertir, ejemplo: çǸ¯ĥĤîÎÿŸûÛ tienen que ser ĉĈĝĜĥĤĵĴŝŜŭŬ (lo importante es tener dos cadenas de caracteres, con la misma longitud y que el orden sea el mismo por el que van a convertirse. En este caso:
ç = ĉ, Ç = Ĉ, ¸ = ĝ, etcétera.

4) Usas mi script de esta forma:
ruta_script/literumilo.sh cadena_a_convertir cadena_en_esperanto fichero.epub

ejemplo de uso para el libro convertido a epub por calibre llamado "La tempomas'ino - H. G. Wells.epub", suponiendo que estamos en la terminal y en el directorio donde se encuentra el libro, allí también tenemos mi script:

./literumilo.sh çǸ¯ĥĤîÎÿŸûÛ ĉĈĝĜĥĤĵĴŝŜŭŬ "La tempomas'ino - H. G. Wells.epub"

El resultado lo puedes ver con el visor de epub de linux: FBReader

Que bonito.

Ciertamente la elección de caracteres a corregir también se podría automatizar con un programa, comparando aquellas palabras con caracteres distintos a los ingleses con un diccionario de esperanto, que al fin y al cabo es lo que haces con el cerebro, pero para eso no tengo tiempo.

gmolleda (Ukázat profil) 20. ledna 2011 8:52:23

Y para encontrar los caracteres extraños se podría usar el comando grep:

Primero convertimos el pdf en texto:
pdftotext archivo.pdf

(pdftotext está en el paquete poppler-utils de los repositorios de tu distribución linux)

Segundo ejecutamos el comando:
cat "archivo.txt" | tr \'\ \'\ \'\\n\' | grep -e \"[^\\x00-z]\" | less

Y te saldrán la mayoría de palabras con algún carácter extraño.

Con eso coges el pdf, buscas las palabras donde veas un carácter extraño y ya verás la correspondencia con el carácter de esperanto (hay que mirar más cuidadosamente si el extraño es la primera letra de una palabra, porque podría ir en mayúscula o minúscula).

Zpět na začátek