Jump to content

Guia de creación y entrenamiento de modelos Transkribus

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Transkribus Model Creation and Training Guide and the translation is 23% complete.
Outdated translations are marked like this.

This page will make you familiar with the Transkribus interface. It can be used to transcribe documents, create and train new models or even test existing models on Transkribus.

Visión general del procedimiento

Todo el proceso de creación y entrenamiento de un nuevo modelo es bastante extenso. Este gráfico de flujo que se muestra a continuación detalla ampliamente los diversos pasos involucrados en todo el flujo de trabajo desde obtener los datos de entrenamiento de modelos requeridos hasta poner el modelo disponible en su Wikisource.

Workflow flowchart
Flowchart depicting the workflow involved in creating and training a model

NOTA: "Ciertos procesos avanzados como personalizar las formas de polígonos o editar datos de línea de base no se mencionan en el gráfico de flujo por simplicidad. Estos processo serán detallados en sus respectivas secciones. "

The entire process of creating and training a new model is quite extensive. This flowchart given below broadly details the various steps involved in the whole workflow right from getting the required model training data to making the model available on your Wikisource.

Workflow flowchart
Flowchart depicting the workflow involved in creating and training a model

NOTE: Certain advanced processes like customizing shapes of polygons or editing baseline data are not mentioned in the flowchart for sake of simplicity. They will be detailed in their respective sections.

Requisitos previos

Los requisitos previos para crear y entrenar un nuevo modelo son los siguientes

The following are the prerequisites to creating and training a new model

  • Tener una cuenta funcional en Transkribus con créditos suficientes para realizar operaciones OCR
  • Mantener al menos entre 5000 y 15 000 palabras (entre 25 y 75 páginas) de material transcrito en el idioma que desee, listo para subir.
    • Si está trabajando con texto impreso y no con texto escrito a mano, se necesitará una cantidad menor de datos de entrenamiento (alrededor de 50 páginas)
    • Tenga en cuenta que el número de páginas de un tipo particular para el que se crea el modelo es crucial para el rendimiento del modelo.
  • Al crear un modelo para un estilo particular de texto escrito a mano, asegúrese de que todos los manuscritos disponibles sean únicamente de ese estilo en particular.
  • ¡Y mucha paciencia, porque esto va a demorar!

Transkribus Tools

Transkribus

Formerly known as Transkribus Lite, the latest version of the web app, released on 30th August 2023, claims to be a feature rich editor cum model creation and testing workspace. It allows the user to transcribe documents, use existing models on their documents, perform model creation and training, and eventually publish a model of their own. All processes and workflows in this guide are related to the web interface, unless mentioned otherwise.

Transkribus Expert

The desktop client provided by Transkribus has everything that Transkribus can offer, including some features that the web interface is yet to accommodate. The modification of polygon data and advanced options to export/import data to collections and models are only available on the desktop client.

El espacio de trabajo de Transkribus

Transkribus tiene una interfaz web rica en características que proporciona una gran cantidad de funcionalidades, incluyendo la revisión de texto, el reconocimiento de texto, el acceso a modelos que se ocupan de múltiples idiomas y la experimentación con manuscritos. Aquí es donde pasará la mayor parte de su tiempo preparando documentos de verdad fundamental (ground truth), construyendo un nuevo modelo, entrenándolo sobre los documentos pertinentes y validando su exactitud. Una vez que haya iniciado una sesión con una cuenta Transkribus, será dirigido a un panel similar al que se muestra a continuación. ¡No te preocupes si aún no tienes colecciones!

Transkribus dashboard

Transkribus has a feature rich web interface that provides a host of functionality including proofreading, text recognition, accessing models that deal with multiple languages, and experimenting with manuscripts. This is where you will spend the majority of your time as you prepare ground truth documents, build a new model, train it on the relevant documents, and validate its accuracy. Once you have logged in with a Transkribus account, you will be directed to a dashboard that looks similar to the one shown below. Don’t worry if you do not have any collections, yet!

Transkribus dashboard

Terminología importante

Al trabajar con Transkribus es importante estar familiarizado con algunos términos. ¡No todos son relevantes inmediatamente, pero siempre puedes volver para consultarlos!

While working with Transkribus it is important to be familiar with a few terms. All of them are not immediately relevant, but you can always come back for reference!

Documento

Cualquier imagen o página de un manuscrito que se carga a Transkribus se considera un documento

Any image or page of a manuscript that is uploaded to Transkribus is considered a document

Colección

Una colección es un grupo de documentos relacionados (por ejemplo, de un idioma o estilo particular) que le ayuda a organizar mejor su escritorio de trabajo

A collection is a group of related documents (e.g. of a particular language or style) that helps you to organize your work desk better

Modelo de línea de base

Un modelo TransKribus que trata sólo de la línea de base común a todo el material textual en el documento

A Transkribus model that deals with only the baseline common to all the textual material in the document

NOTA: Tener un modelo de base dedicado es útil en algunos casos "

Modelo HTR

Un modelo de reconocimiento de texto escrito a mano (HTR) es lo que realiza el OCR real mediante la detección del texto escrito a mano y la generación del texto de salida requerido

A Handwritten Text Recognition (HTR) model is what performs the actual OCR by detecting the handwritten text and generating the required output text

NOTA: A menudo se utiliza en conjunto con un modelo de línea de base"

Ground truth (verdad fundamental)

Todos los documentos que ya han sido revisados y tienen una transcripción correcta del texto pueden ser etiquetados como datos de ground truth, para formar la base de la construcción de un nuevo modelo

All documents that have already been proofread and have correct transcription of text can be labeled as ground truth data, to form the basis of building a new model

Trabajo

Cualquier proceso ejecutado en Transkribus, como realizar el reconocimiento de texto en un documento, se clasifica como un trabajo y se coloca en cola en el servidor Transkribus

Any process run on Transkribus, like performing text recognition on a document, is classified as a job and is queued on the Transkribus server

Conjunto de entrenamiento

Normalmente compuesto por el 90% de todo el conjunto de dados, las datos de entrenamiento contienen documentos que el algoritmo utiliza para entrenar un nuevo modelo en una escritura a mano en particular

Usually consisting of 90% of the entire data set, the training data contains documents that the algorithm uses to train a new model on a particular handwriting

Conjunto de validación

Normalmente compuesto por el 10% de todo el conjunto de datos, el conjunto de validación contiene documentos en los que el modelo valida su rendimiento en el reconocimiento de la escritura a mano de manera efectiva

Usually consisting of 10% of the entire data set, the validation set contains documents on which the model validates its performance in recognizing the handwriting effectively

Época

El período de tiempo durante el cual el modelo se entrena en los datos de entrenamiento se llama épocas.

The time period for which the model is trained on the training data is called epochs

NOTA: "Tener un número muy alto de épocas puede hacer que el modelo sea sobreentrenado en el conjunto de entrenamiento, lo que hace que tenga un desempeño deficiente con nuevos datos"

Subir documentos a una colección

La forma más fácil de añadir documentos a Transkribus es mediante la creación de una nueva colección. Una vez que cree una nueva colección en la pestaña "Colecciones", se le redirigirá a una pantalla como se muestra a continuación. El usuario puede utilizar el siguiente código de usuario:

Upload documents screen

La interfaz incluye las siguientes opciones (numeradas en consecuencia):

The easiest way to add documents to Transkribus is by creating a new collection. Once you create a new collection on the Collections tab, you will be redirected to a screen as shown below.

Upload documents screen

The interface includes the following options (numbered accordingly):

  1. Nombre de la colección con la que trabaja actualmente
  2. Haz clic en "Cargar Documentos" para cargar nuevos documentos a la colección
  3. Opción para elegir si estás cargando una imagen o un PDF
  4. Establecer el título del documento que estás cargando
  5. Como se indica, esto te permite cargar archivos a la coleción

Después de que el documento se cargue con éxito, la pantalla de colección debe mostrar la lista de documentos de esa colección. Al hacer clic en cualquiera de los documentos, se puede encontrar una lista de páginas individuales del documento, como se muestra en la figura a continuación.

Document pages

El usuario tiene la opción de añadir o eliminar una página del documento, realizar el reconocimiento de escritura a mano (utilizando un modelo HTR) en una página, establecer el estado de la página a uno de los cuatro estados de página permitidos, así como exportar un subconjunto de las páginas. Más opciones para filtrar las páginas que se muestran están disponibles a través de la opción "Filtrar" en el lado derecho de la barra de herramientas de la página.

Document pages

The user has the option to add or delete a page from the document, perform handwriting recognition (using an HTR model) on a page, set the status of the page to one of the four allowed page statuses, as well export a subset of the pages. Further options to filter the pages being displayed are available via the Filter option on the right side of the toolbar on the page.

Su área de trabajo Transkribus

Una vez que haga clic en cualquiera de los documentos bajo la sección Escritorio de trabajo de su interfaz Transkribu, será redirigido a una pantalla como se muestra a continuación.

Transkribus workspace

Once you click on any of the documents under the Work Desk section on your Transkribus interface, you will be redirected to a screen as shown below.

Transkribus workspace

Es donde se llevará a cabo todo el trabajo relacionado con su manuscrito. La interfaz incluye las siguientes opciones (numeradas en consecuencia):

  1. Herramienta de cursor para mover el manuscrito
  2. Herramienta de lápiz para indicar líneas de base para su manuscrito
  3. Herramienta de selección de regiones para definir las distintas regiones de su manuscrito
  4. Una herramienta para añadir tablas a las regiones del manuscrito
  5. Un botón para proporcionar más información y atajos de teclado
  6. Un editor de diseño que te permite ver tus líneas y regiones en un solo lugar
  7. Controladores de zoom
  8. Centre su documento con respecto al área de visualización
  9. Ajuste el documento al área de visualización
  10. Gire su documento
  11. Cambie la vista a pantalla completa
  12. Comience la transcripción con un modelo existente
  13. Opción para descargar el documento existente.
  14. Un menú desplegable para cambiar el estado de la página a uno de los siguientes
    1. En curso
    2. Ground Truth
    3. Listo
    4. Final
  15. Guarde el progreso en su documento actual.

Además de estos, también hay botones para deshacer/rehacer los cambios, un teclado virtual y opciones para compartir tu trabajo.

Agregar ground truth

Antes de entrenar un modelo, deberá preparar sus datos de entrenamiento, esto significa preparar suficientes imágenes y sus correspondientes transcripciones correctas para entrenar al modelo. Este proceso conocido como la adición de "ground truth", asegura que el modelo puede ser entrenado sobre datos validados existentes.

Before training a model, you will need to prepare your training data, this means preparing enough images and their corresponding correct transcriptions to train the model. This process known as the addition of ground truth, ensures that the model can be trained on existing validated data.

This involves transcribing manuscripts using the Transkribus editor, and saving each page as ground truth. This indicates that the pages can be used to train your model. The process of transcribing on Transkribus using Wikisource as a reference is outlined below:

  • Open a manuscript of your choice on Wikisource, and have a local copy ready to be uploaded to your Transkribus collection
  • Once the document is uploaded to the collection, you can proceed to open the first page (or any page of your choice) to begin transcription. The page will open in an editor as shown below
  • Open the corresponding page on Wikisource in another window. You will need to work with both tabs open simultaneously
  • Once you have completed drawing regions and marking baselines satisfactorily, you can proceed with adding the corresponding text
  • For each line drawn on the Transkribus editor there should exist a line on the Wikisource page. The text from the relevant line of the Wikisource page is copied and pasted in the relevant line of the Transkribus editor. Continue this process until lines in every region marked in the Transkribus editor have corresponding transcribed text

The above video depicts how to transcribe text using Tranksribus and Wikisource simultaneously.

Entrenamiento de un modelo personalizado

Modelo de reconocimiento de diseño (opcional)

"Esta es una actividad opcional. Si no está seguro de si su idioma requiere un modelo de reconocimiento de diseño, por favor, genere un ticket en Phabricator. " El modelo de reconocimiento de diseño/detección de líneas está destinado principalmente a ser construido si la escritura a mano ou escrita es difícil de entrenar directamente y tiene diferentes colocaciones de letras o caracteres. De forma preestablecida, Transkribus utiliza internamente el modelo de orientación de líneas mixtas como modelo de reconocimiento de diseño. Esto funciona bien para la mayoría de las escritas occidentales.

This is an optional activity. If you are not sure whether your language requires a layout recognition model, please raise a ticket on Phabricator. The layout recognition/line detection model is primarily intended to be constructed if the handwriting or script is difficult to be trained upon directly and has varying placements of letters or characters. By default, Transkribus internally uses the Mixed Line Orientation model as the layout detection model. This works well for most Western scripts.

El proceso de entrenamiento del modelo de diseño comienza con una sección como se muestra a continuación.

Screenshot showing the beginning of the model creation workflow
Screenshot showing the beginning of the model creation workflow
Screenshot showing the beginning of the model creation workflow
Screenshot showing the beginning of the model creation workflow
  • Vaya a la sección "Entrenamiento" y elija una colección cuando se le solicite. Seleccione la opción "Modelo de líneas de base", como se muestra en la figura 2.
  • En el cuadro de diálogo que aparece, proceda a completar los detalles requeridos como "nombre del modelo (numerado 3 en la figura anterior) " y "descripción (numerada 4 en la figura anterior) ". El campo denominado "épocas (numerado 5 en la figura anterior) " determina cuánto tiempo el modelo iterará sobre el conjunto de datos proporcionado.
  • El siguiente paso consiste en seleccionar los datos de entrenamiento que contienen las líneas de base correctas que se prepararon en el paso anterior. Seleccione todos los documentos o colecciones pertinentes de los que desea que el modelo aprenda. De igual manera, seleccione también el conjunto de datos que se utilizará para la validación.
    • "NOTA:" Idealmente, el 90% de todos los datos disponibles se utilizarán para el entrenamiento y el 10% para la validación.
  • Activar el proceso de entrenamiento del modelo

El proceso de entrenamiento tarda unos minutos en completarse. Puede consultar el progreso del proceso de entrenamiento en la pestaña "Trabajos". Una vez completado, este trabajo prepara el modelo de reconocimiento de diseño que puede ser utilizado para crear el modelo principal!

Corrección de diseños (opcional)

Después de la fase de entrenamiento, Transkribus toma las regiones de texto generadas y las representa como polígonos, ofreciendo la capacidad de modificar estas formas. Esta funcionalidad, sin embargo, se puede acceder exclusivamente desde Transkribus Expert Client, que proporciona características avanzadas para un procesamiento de documentos más complejo.

highlighted polygonal ground truths
highlighted polygonal ground truths

After the training phase, Transkribus takes the generated text regions and represents them as polygons, offering the capability to modify these shapes. This functionality, however, is exclusively accessible within the Transkribus Expert Client, which provides advanced features for more intricate document processing.

highlighted polygonal ground truths
highlighted polygonal ground truths

La región destacada como 1 en la figura anterior muestra una forma polígonal elegida. Es importante señalar que estas formas se componen esencialmente de puntos individuales unidos por líneas rectas. La visualización consiste en puntos interconectados que forman el contorno del polígono, con cada línea recta conectando dos puntos adyacentes.

  • La herramienta a la que hace referencia 2 introduce la capacidad de incluir puntos complementarios a una forma ya seleccionada, lo que mejora la versatilidad de la herramienta. Estos puntos adicionales pueden colocarse en la propia región de texto o en su línea de base, lo que permite un mayor grado de precisión en la personalización.
  • Si se requieren ajustes, la herramienta señalada por 3 en la figura anterior elimina un punto designado de la forma elegida. Esta herramienta en particular es particularmente ventajosa para refinar o acortar líneas de base, asegurando que corresponden con precisión al diseño del documento.

El proceso de adaptación de la forma a los requisitos específicos implica la manipulación de estos puntos definitorios. Al reubicar los puntos que componen el polígono, los usuarios tienen la flexibilidad de modificar la forma para que coincida mejor con el contorno del bloque de texto correspondiente.

En esencia, la capacidad de ajustar ground truths poligonales en Transkribus, facilitada a través del Cliente Experto (Expert Client), introduce un conjunto de herramientas multifacético. La combinación de puntos interconectados que forman polígonos, la adición de nuevos puntos, la libertad de mover puntos y la opción de eliminar puntos proporciona una amplia gama de controles.

En el caso de idiomas como el balinés y el javanés, esta característica es particularmente útil ya que la escrita y sus líneas de base correspondientes son más erráticas que en otros idiomas occidentales. Esto ayuda a mejorar la precisión del modelo que se está entrenando y, a su vez, del texto transcrito.