CSC - ContextSubCorrector - por epere4 DESCRIPCIÓN: Este programa intenta corregir errores en subtítulos producidos por la extracción mediante OCR. Corrige cuatro clases de error: * Espacios dentro de números. * Espacios antes de ciertos símbolos de cierre. * Espacios después de ciertos símbolos de apertura. * Confusión entre I (i mayúscula) y l (L minúscula). DETALLES: * Espacios dentro de números: A veces los pequeños espacios entre dos dígitos son considerados como espacio, así que el archivo de salida contiene números separados en dos o más partes. Esto pasa mucho con el dígito 1 (uno). Si no sabés a lo que me refiero, te doy unos ejemplos: "1999" puede ser confundido y escrito como "1 999". "1,323" puede ser confundido y escrito como "1 ,323". "3.432" puede ser confundido y escrito como "3 .43 2". Se basa en el hecho de que un dígito no puede ir seguido por un espacio y luego un número (por lo menos no en el idioma normal), o seguido por un espacio y luego una coma o un punto. * Espacios antes de ciertos símbolos de cierre: Hay algunos símbolos que no deben tener espacios antes que ellos. El programa borra todos los espacios anteriores a los siguientes símbolos: Signo de Interrogación de Cierre (?) Signo de Exclamación de Cierre (!) Coma (,) Punto (.) Dos Puntos (:) * Espacios después de ciertos símbolos de apertura: Algunos otros símbolos no pueden tener espacios después de ellos. El programa borra los espacios que vienen después de los siguientes símbolos: Signo de Interrogación de Apertura (¿) Signo de Exclamación de Apertura (¡) * Confusión entre I (i mayúscula) y l (L minúscula): Muchos subtítulos en DVD vienen en letra Arial. Así que la letras 'l' e 'I' son muy similares. Este programa toma ventaja del hecho de que hay algunos lugares dentro de una palabra donde una 'l' puede ir, pero no una 'I', y lo mismo pasa con la 'I'. Estas son las reglas que el programa usa para detectar dónde hay una 'l' y debería ir una 'I' y viceversa: mIm --> mlm MIm --> Mlm mIM --> mlM MIM Válida _IM Válida _Im Válida mI_ --> ml_ MI_ Válida MlM --> MIM mlM --> mIM (caso raro, no lo corregimos) Mlm Válida mlm Válida _lM --> _IM _lm Válida ml_ Válida Ml_ Válida MMl_ --> MMI_ _l_ --> _I_ (esta regla está hecha para el idioma inglés) Donde: m: letra minúscula M: letra mayúscula _: espacio I: letra I l: letra l CUESTIONES CONOCIDAS: Quizás haya veces en las que los dígitos han sido puestos con espacios intermedios por alguna razón especial. Bueno, el programa no puede adivinar. Hay algunos casos donde es imposible determinar si debería ir una 'l' o una 'I' sin un diccionarios (ejemplo: una 'I' al comienzo de una palabra cuando el resto de la misma está en minúscula. "Internet" es una palabra válida, y también lo es "lampara", pero podrían estar mal y ser "linternet" y "Iamp", y el programa no podría corregir nada). SOLUCIONES: CSC te da un archivo log que lista todos las líneas que han sido cambiadas junto con su número, para que puedas corregirlas manualmente. Además, si no te gusta lo que NSC le ha hecho a tu archivo, puedes restaurarlo con la copia de respaldo que NSC hace para vos. De todas maneras, luego de corregir el subtítulo con CSC deberías usar otro programa (como Word) que pueda corregir utilizando diccionarios. Podrías haber usado ese programa desde el principio, pero CSC hace la mayor parte del trabajo aburrido-repetitivo, con lo cual todo el proceso se te hace más rápido. CÓMO USARLO: El programa es una aplicación de consola, así que trabaja en línea de comandos, pero también funciona si arrastrás y soltás un archivo de sutítulo encima del programa. O mejor aún: Si usas el instalador del programa, podrás hacer clic con el botón derecho en un archivo y tener la opción para corregir el subtítlo en el menú contextual. El uso desde la línea de comandos es muy simple: CSC.exe [archivo de subtítulo] LICENCIA: Este programa es absolutamente gratuito y puede ser usado o distribuido de la forma que quieras siempre que cites al sitio oficial y/o a su autor. El autor de NSC no es responsale de ningún daño que el programa pueda causar. El uso que el usuario le de al es de su absoluta responsabilidad. CÓDIGO FUENTE: Pedímelo y te lo daré :-) CONTACTO Cualquier comentario o sugerencia será bienvenida en epere4 [arroba] gmx . net Visita mi sitio web http://home.no/epere4 Visita Doom9 para las guías más comprensibles sobre respaldo de DVD (http://www.doom9.org/) Visita Doom9 esn Español para una traducción al español del sitio de Doom9 (http://spanish.doom9.org/) DESARROLLO A FUTURO -No se. ¿Qué me sugerirías? LISTA DE CAMBIOS: Version 0.2 beta - Junio 20, 2003 El nombre: El programa se llama ahora ContextSubCorrector, y no NumSubCorrector. Corrección lI. Borra espacios anteriores a cualquiera de los siguientes símbolos: '?', ',', '.', ':', '!' Borra espacios que vienen después de cualquiera de los siguientes símbolos: '¿', '¡' Una pequeña mejora en la presentación del archivo de log. Bilingüe: Ahora el programa viene también en Español, y no sólo en Inglés. Podés elegir el idioma desde el instalador. Version 0.1 beta - Junio 16, 2003 Primer Lanzamiento. Sólo corrige espacios entre números.