Resumen de texto en Machine Learning

El resumen de texto en Machine Learning se refiere a la técnica de acortar piezas largas de texto. La intención es crear un resumen coherente y fluido teniendo solo los puntos principales delineados en el documento.

La síntesis automática de texto es un problema común en Machine Learning y el procesamiento del lenguaje natural (NLP).

Skyhoshi que es un experto en Machine Learning con 13 años de experiencia en Estados Unidos y actualmente enseña a la gente sus habilidades, dice que “la técnica ha demostrado ser crítica al resumir rápidamente textos voluminosos, algo que puede ser costoso y consumir mucho tiempo si hecho sin máquinas. ”

Los modelos de Machine Learning generalmente están capacitados para comprender documentos y destilar la información útil antes de producir los textos resumidos requeridos.

¿Cuál es la necesidad de resumen de texto en Machine Learning?

Impulsado por las innovaciones tecnológicas modernas, datos Es a este siglo lo que el petróleo fue para el anterior. Hoy, nuestro mundo está en paracaídas por la recopilación y diseminación de grandes cantidades de datos.

De hecho, International Data Corporation (IDC) proyecta que la cantidad total de datos digitales que circulan anualmente en todo el mundo brotaría de 4.4 zettabytes en 2013 para alcanzar 180 zettabytes en 2025. ¡Eso es una gran cantidad de datos!

Con una cantidad tan grande de datos circulando en el espacio digital, es necesario desarrollar algoritmos de Machine Learning que acorten automáticamente textos más largos y entreguen resúmenes precisos que puedan fluir transmita los mensajes previstos.

Además, la aplicación de resumen de texto en Machine Learning reduce el tiempo de lectura, acelera el proceso de búsqueda de información y aumenta la cantidad de información que puede caber en un área.

¿Cuáles son los principales enfoques para el resumen automático?

Hay dos tipos principales de cómo resumir texto en NLP:

  • Resumen basado en extracción

El resumen de texto en Machine Learning extractivo implica extraer frases clave del documento de origen y combinarlas para hacer un resumen. La extracción se realiza de acuerdo con la métrica definida sin realizar ningún cambio en los textos.

Aquí hay un ejemplo:

Texto fuente: Jose y María cabalgaron en un burro hacia asistir el evento anual en Jerusalén . En la ciudad, Mary dio nacimiento a un niño llamado Jesús .

Resumen de extracción: José y María asisten evento Jerusalén. María, nacimiento Jesús.

Como puedes ver arriba, las palabras en negrita se han extraído y unido para crear un resumen, aunque a veces el resumen puede ser gramaticalmente extraño.

  • Resumen basado en la abstracción

La técnica de abstracción implica parafrasear y acortar partes del documento original. Cuando la abstracción se aplica para la síntesis de texto en problemas de deep learning, puede superar las inconsistencias gramaticales del método extractivo.

Los algoritmos de resumen de texto abstracto crean nuevas frases y oraciones que transmiten la información más útil del texto original, al igual que los humanos do.

Por lo tanto, la abstracción funciona mejor que la extracción. Sin embargo, los algoritmos de resumen de texto en Machine Learning requeridos para hacer abstracción son más difíciles de desarrollar; es por eso que el uso de la extracción sigue siendo popular.

Aquí hay un ejemplo:

Resumen abstracto: José y María vinieron a Jerusalén, donde nació Jesús.

¿Cómo funciona? ¿El algoritmo de resumen de texto en Machine Learning funciona?

Generalmente, el resumen de texto en PNL se trata como un problema de Machine Learning supervisado (donde los resultados futuros se predicen en base a los datos proporcionados).

Por lo general, aquí se muestra cómo usar el enfoque basado en extracción para resumir los textos pueden funcionar:

1. Introduzca un método para extraer las frases clave del documento de origen. Por ejemplo, puede usar el etiquetado de parte de la voz, secuencias de palabras u otros patrones lingüísticos para identificar las frases clave.

2. Reúna documentos de texto con frases clave etiquetadas positivamente . Las frases clave deben ser compatibles con la técnica de extracción estipulada. Para aumentar la precisión, también puede crear frases clave etiquetadas negativamente.

3. Entrene a un clasificador binario de Machine Learning para hacer el resumen del texto. Algunas de las características que puede usar incluyen:

  • Longitud de la frase clave
  • Frecuencia de la frase clave
  • La ​​palabra más recurrente en la frase clave
  • Número de caracteres en la frase clave

4. Finalmente, en la frase de prueba, cree todas las palabras clave y oraciones y lleve a cabo la clasificación para ellas.

Resumen

La resúmenes de texto es un interesante aprendizaje de máquina que gana cada vez más fuerza. A medida que continúan las investigaciones en esta área, podemos esperar avances que ayuden a acortar con fluidez y precisión los documentos de texto largos.

¿Qué opina de este campo tan apasionante?

Comparta sus comentarios a continuación.

 

Dejá un comentario