讯息: 35
语言: Español
jol381aa (显示个人资料) 2011年1月31日上午8:57:02
Gracias gmolleda por tu interés; tus instrucciones me han servido de mucho! Creo que finalmente el problema está solucionado.
gmolleda (显示个人资料) 2011年1月31日上午11:04:27
jol381aa:Al final lo que estoy haciendo es ejecutar una macro en openoffice para sustituir los carácteres incorrectos.Sería interesante que describieras los pasos para que otros con el mismo problema puedan actuar igual.
Por ejemplo, ¿cómo cargas el epub o el pdf en el writer para editarlo?
Por otro lado te informo que por fin se ha lanzado la primera versión estable de LibreOffice, creado a partir de OpenOffice pero sin dependencia de Oracle y con muchas mejoras (información e instrucciones de instalación):
http://gespadas.com/libreoffice-3-3-estable
Ĝis!
jol381aa (显示个人资料) 2011年1月31日上午11:23:05
1) El documento PDF original, con calibre lo convierto a LFT (es el formato Sony, supongo que con el formato EPUB también funciona).
2) Abro el fichero LFT con el visor de ficheros LFT (yo utilizo el que viene junto con el ebook de Sony).
3) Una vez abierto el fichero LFT, selecciono todas las lineas del fichero (seleccionar todo), y le doy a la opción 'copiar'.
4) Abro el Openoffice Writer (o Office Word)y le doy a la opción 'pegar'.
5) Grabo una macro de 'buscar y sustituir' según la equivalencia de valores de los códigos erroneos y los códigos de los supersignos en esperanto.
6) La macro se queda graba en el openoffice; preparada para ser ejecutada cada vez que lo precisemos (siempre que la equivalencia de supersignos sea la misma).
El único inconveniente de este sistema es que hay que arreglar algunos saltos de párrafos o los saltos de página. Este proceso lleva un poco de tiempo; pero el documento se queda en condiciones para ser utilizado en el Ebook. Con este sistema te evitas los problemas del reconocimiento de saltos de linea de los ficheros PDF; lo cual por cierto ya es bastante.
jol381aa (显示个人资料) 2011年1月31日下午12:58:48
Regidor (显示个人资料) 2011年2月9日上午11:06:35
- El archivo no está en UTF-8, y por eso no salen bien los caracteres con acentos.
- El archivo está en UTF-8, pero la cabecera del XML indica otra codificación.
- La codificación está bien, pero el XML indica un idioma distinto del esperanto (en alguna etiqueta).
¿Podrías copiar y pegar el principio del archivo aquí (como texto)?
novatago (显示个人资料) 2011年2月9日上午11:27:39
Regidor:Bueno, un archivo EPUB no es más que un tipo de archivo XML, o sea, texto. Así a bote pronto se me ocurren varias razones para que falle:Jeje habla como el doctor House .
- El archivo no está en UTF-8, y por eso no salen bien los caracteres con acentos.
- El archivo está en UTF-8, pero la cabecera del XML indica otra codificación.
- La codificación está bien, pero el XML indica un idioma distinto del esperanto (en alguna etiqueta).
¿Podrías copiar y pegar el principio del archivo aquí (como texto)?
Ĝis, Novatago.
Regidor (显示个人资料) 2011年2月9日上午11:59:17
gmolleda (显示个人资料) 2011年2月9日下午6:32:09
Regidor:Eso pensaba yo, pero creo que no está en ninguna codificación conocida (los caracteres en esperanto, los otros están en utf-8), creo que crearon las letras que faltaban en cualquier otro carácter de poco uso y eso se pasó al PDF (en el formato pdf se pueden agregar las tipografías usadas).
- El archivo no está en UTF-8, y por eso no salen bien los caracteres con acentos.
- El archivo está en UTF-8, pero la cabecera del XML indica otra codificación.
- La codificación está bien, pero el XML indica un idioma distinto del esperanto (en alguna etiqueta).
Como el epub no contiene la tipografía, pues se usan los caracteres estándares de la codificación usada, y claro, los caracteres del esperanto no salen como tales, pues se usó un código numérico distinto para ellos del que tiene en UTF-8.
La cabecera:
< ? xml version='1.0' encoding='utf-8' ? >
Regidor (显示个人资料) 2011年2月9日下午6:57:02
Tanto el XML como el CSS deberían estar en UTF-8 o UTF-16. Son las únicas codificaciones posibles de un EPUB.
¿En qué codificación están los archivos? (abriéndolos con Firefox, por ejemplo, puedes saber la codificación). ¿Hay algún renglón que indique el idioma?
Una codificación es una relación que asocia ristras de unos y ceros con caracteres (es decir, posiciones de la lista de caracteres Unicode). Por ejemplo, a 01000001 le corresponde la letra a mayúscula.
Un tipo de letra asocia caracteres con grafías. Por ejemplo, en Times New Roman negrita a 16 puntos, a la a mayúscula le corresponde cierto dibujo.
gmolleda (显示个人资料) 2011年2月10日下午12:30:24
Regidor:UTF-8, viene en el xml cuya primera línea ya te puse antes.
¿En qué codificación están los archivos?
Yo ya he investigado eso
1) Primero intenté cambiar la codificación en las opciones de conversión del programa Calibre.
2) También abrí el xml del EPUB y miré con un editor exadecimal el código que se le asignó a los caracteres que debían ser de esperanto, busqué esos códigos por google a ver si existía alguna tabla de codificación cuya correspondencia a esos códigos fuera el carácter en esperanto correcto.
3) He abierto el pdf con el acrobat reader y mirando las propiedades del documento, pestaña Fonts, en Encoding pone "Custom", es decir, creada por el autor del pdf.
Yo creo que el autor usó simplemente la codificación propia de Windows o Mac de la época, una tabla ASCII hasta 256 caracteres y puso los de esperanto entre ellos.
Sólo me faltaría dar con el creador del pdf y preguntarle cómo consiguió las letras en esperanto, a ver si las creó, las puso donde quiso, o qué codificación usó.
Ten en cuenta que antes no era tan común usar UTF-8 como codificación estándar, y era muy común usar sólo el que viniera en el sistema operativo usado.
Puedes conseguir tú mismo el pdf que usé en mis pruebas: http://i-espero.info/files/elibroj/eo%20-%20well...
y convertirlo con Calibre, u otro programa cualquiera.
Ĝis!