Uma introdução suave ao resumo de texto

Uma introdução suave ao resumo de texto

O resumo de texto é o problema de criar um resumo curto, preciso e fluente de um documento de texto mais longo.

Os métodos de sumarização automática de texto são muito necessários para lidar com a quantidade cada vez maior de dados de texto disponíveis online para ajudar a descobrir informações relevantes e consumir informações relevantes com mais rapidez.

Nesta postagem, você descobrirá o problema de sumarização de texto no processamento de linguagem natural.

Depois de ler esta postagem, você saberá:

  • Por que o resumo do texto é importante, especialmente dada a abundância de texto disponível na Internet.
  • Exemplos de resumos de texto que você pode encontrar todos os dias.
  • A aplicação e promessa de métodos de aprendizagem profunda para sumarização automática de texto.

Comece seu projeto com meu novo livro Deep Learning for Natural Language Processing, incluindo tutoriais passo a passo e a Código-fonte Python arquivos para todos os exemplos.

Vamos começar.

Uma introdução suave ao resumo de texto

Uma introdução suave ao resumo de texto
Foto de Dmitry Sumin, alguns direitos reservados.

Visão geral

Este post está dividido em 5 partes; eles estão:

  1. Resumo de Texto
  2. O que é o resumo automático de texto?
  3. Exemplos de resumos de texto
  4. Como Resumir Texto
  5. Aprendizagem profunda para resumo de texto

Precisa de ajuda com Deep Learning for Text Data?

Faça meu curso intensivo de e-mail gratuito de 7 dias agora (com código).

Clique para se inscrever e também obter uma versão gratuita do Ebook em PDF do curso.

Comece Seu Crash-Course GRÁTIS Agora

Resumo de Texto

Há uma quantidade enorme de material textual e só cresce a cada dia.

Pense na Internet, composta por páginas da web, artigos de notícias, atualizações de status, blogs e muito mais. Os dados não são estruturados e o melhor que podemos fazer para navegá-los é usar a pesquisa e folhear os resultados.

Há uma grande necessidade de reduzir muitos desses dados de texto a resumos mais curtos e focados que capturem os detalhes salientes, tanto para que possamos navegar com mais eficácia quanto para verificar se os documentos maiores contêm as informações que estamos procurando.

As informações textuais na forma de documentos digitais se acumulam rapidamente em enormes quantidades de dados. A maior parte desse grande volume de documentos não é estruturada: é irrestrita e não foi organizada em bancos de dados tradicionais. O processamento de documentos é, portanto, uma tarefa superficial, principalmente devido à falta de padrões.

- Página xix, Resumo automático de texto, 2014.

Não podemos criar resumos de todo o texto manualmente; existe uma grande necessidade de métodos automáticos.

Em seu livro de 2014 sobre o assunto intitulado “Resumo Automático de Texto, ”Os autores fornecem 6 razões pelas quais precisamos de ferramentas de resumo automático de texto.

  1. Resumos reduzem o tempo de leitura.
  2. Na pesquisa de documentos, os resumos facilitam o processo de seleção.
  3. A sumarização automática melhora a eficácia da indexação.
  4. Os algoritmos de sumarização automática são menos tendenciosos do que os sumarizadores humanos.
  5. Os resumos personalizados são úteis em sistemas de resposta a perguntas, pois fornecem informações personalizadas.
  6. O uso de sistemas de compactação automática ou semiautomática permite que os serviços comerciais de resumo aumentem o número de textos que podem processar.

- Páginas 4-5, Resumo automático de texto, 2014.

Agora que sabemos que precisamos de resumos automáticos de texto, vamos definir melhor o que queremos dizer com resumo de texto.

O que é o resumo automático de texto?

O resumo automático de texto, ou apenas o resumo de texto, é o processo de criação de uma versão curta e coerente de um documento mais longo.

O resumo de texto é o processo de destilar as informações mais importantes de uma fonte (ou fontes) para produzir uma versão resumida para um determinado usuário (ou usuários) e tarefa (ou tarefas).

- Página 1, Advances in Automatic Text Summarization, 1999.

Nós (humanos) geralmente somos bons neste tipo de tarefa, pois envolve primeiro a compreensão do significado do documento de origem e, em seguida, destilar o significado e capturar detalhes importantes na nova descrição.

Como tal, o objetivo da criação automática de resumos de texto é fazer com que os resumos resultantes sejam tão bons quanto aqueles escritos por humanos.

O ideal do trabalho de sumarização automática é desenvolver técnicas pelas quais uma máquina possa gerar resumos que imitem com sucesso resumos gerados por seres humanos.

- Página 2, Técnicas inovadoras de sumarização de documentos: Revolucionando a compreensão do conhecimento, 2014.

Não é suficiente apenas gerar palavras e frases que capturem a essência do documento de origem. O resumo deve ser preciso e lido com fluência como um novo documento independente.

O resumo automático de texto é a tarefa de produzir um resumo conciso e fluente, preservando o conteúdo das informações-chave e o significado geral

- Técnicas de resumo de texto: uma breve pesquisa, 2017.

A seguir, vamos tornar esse entendimento concreto com alguns exemplos.

Exemplos de resumos de texto

Existem muitos motivos e usos para um resumo de um documento maior.

Um exemplo que pode vir à mente é criar um resumo conciso de um artigo de notícias longo, mas existem muitos mais casos de resumos de texto que podemos encontrar todos os dias.

Em seu livro de 1999 sobre o tema intitulado “Avanços na sumarização automática de texto, ”Os autores fornecem uma lista útil de exemplos diários de resumo de texto.

  • manchetes (de todo o mundo)
  • contornos (notas para os alunos)
  • minutos (de uma reunião)
  • prévias (de filmes)
  • sinopses (listas de novelas)
  • críticas (de um livro, CD, filme, etc.)
  • resumos (guia de TV)
  • biografia (currículos, obituários)
  • resumos (Shakespeare para crianças)
  • boletins (previsões do tempo / relatórios do mercado de ações)
  • frases de efeito (políticos em uma questão atual)
  • histórias (cronologias de eventos salientes)

- Página 1, Advances in Automatic Text Summarization, 1999.

É claro que estamos lendo e usando resumos muito mais do que podemos acreditar.

Como Resumir Texto

Existem duas abordagens principais para resumir documentos de texto; eles estão:

1. Métodos Extrativos.
2. Métodos abstrativos.

As diferentes dimensões do resumo de texto geralmente podem ser categorizadas com base em seu tipo de entrada (único ou vários documentos), finalidade (genérico, específico de domínio ou baseado em consulta) e tipo de saída (extrativo ou abstrativo).

- Uma revisão sobre abordagens de sumarização automática de texto, 2016.

O resumo de texto extrativo envolve a seleção de frases e sentenças do documento de origem para compor o novo resumo. As técnicas envolvem classificar a relevância das frases para escolher apenas as mais relevantes para o significado da fonte.

O resumo de texto abstrativo envolve a geração de frases e sentenças inteiramente novas para capturar o significado do documento de origem. Esta é uma abordagem mais desafiadora, mas também é a abordagem usada em última análise pelos humanos. Os métodos clássicos operam selecionando e compactando o conteúdo do documento de origem.

… Há duas abordagens diferentes para sumarização automática: extração e abstração. Os métodos de sumarização extrativa funcionam identificando seções importantes do texto e gerando-as literalmente; […] os métodos de sumarização abstrativa objetivam produzir material importante de uma nova maneira. Em outras palavras, eles interpretam e examinam o texto usando técnicas avançadas de linguagem natural para gerar um novo texto mais curto que transmita as informações mais críticas do texto original

- Técnicas de resumo de texto: uma breve pesquisa, 2017.

Classicamente, os métodos de resumo de texto mais bem-sucedidos são extrativos porque é uma abordagem mais fácil, mas as abordagens abstrativas mantêm a esperança de soluções mais gerais para o problema.

Aprendizado profundo para resumo de texto

Recentemente, métodos de aprendizado profundo têm mostrado resultados promissores para resumos de texto.

Abordagens foram propostas inspiradas na aplicação de métodos de aprendizado profundo para tradução automática por máquina, especificamente enquadrando o problema de sumarização de texto como um problema de aprendizado seqüência-a-seqüência.

O resumo de texto abstrativo é a tarefa de gerar um título ou um breve resumo que consiste em algumas frases que capturam as ideias salientes de um artigo ou passagem. […] Essa tarefa também pode ser lançada naturalmente como um mapeamento de uma sequência de palavras de entrada em um documento de origem para uma sequência de palavras de destino chamada de resumo.

- Resumo de texto abstrativo usando RNNs sequência a sequência e além, 2016.

Essas abordagens de aprendizagem profunda para o resumo automático de texto podem ser consideradas métodos abstrativos e gerar uma descrição totalmente nova, aprendendo um modelo de geração de linguagem específico para os documentos de origem.

... o sucesso recente dos modelos de sequência a sequência, nos quais as redes neurais recorrentes (RNNs) tanto leem quanto geram texto livremente, tornou a sumarização abstrativa viável

- Vá direto ao ponto: resumo com redes Pointer-Generator, 2017.

Os resultados dos métodos de aprendizagem profunda ainda não são o estado da arte em comparação com os métodos extrativos, mas resultados impressionantes foram alcançados em problemas restritos, como a geração de manchetes para artigos de notícias que rivalizam ou superam outros métodos abstrativos.

A promessa da abordagem é que os modelos podem ser treinados ponta a ponta sem preparação de dados especializados ou submodelos e que os modelos são totalmente orientados por dados, sem a preparação de vocabulário especializado ou documentos de origem habilmente pré-processados.

… Propomos uma abordagem totalmente baseada em dados para o resumo abstrativo de sentenças. […] o modelo é estruturalmente simples, pode ser facilmente treinado de ponta a ponta e dimensionado para uma grande quantidade de dados de treinamento.

- Um modelo de atenção neural para sumarização de frases abstrativas, 2015

Leitura Adicional

Esta seção fornece mais recursos sobre o tópico se você estiver procurando ir mais fundo.

Artigos de resumo de texto

Artigos de resumo de texto de aprendizagem profunda

Livros

Artigos

Resumo

Nesta postagem, você descobriu o problema de sumarização de texto no processamento de linguagem natural.

Especificamente, você aprendeu:

  • Por que o resumo do texto é importante, especialmente dada a abundância de texto disponível na Internet.
  • Exemplos de resumos de texto que você pode encontrar todos os dias.
  • A aplicação e promessa de métodos de aprendizagem profunda para resumo automático de texto.

Você tem alguma pergunta?
Tire suas dúvidas nos comentários abaixo e farei o possível para responder.

Desenvolva modelos de aprendizado profundo para dados de texto hoje!

Aprendizado profundo para processamento de linguagem natural

Desenvolva seus próprios modelos de texto em minutos

... com apenas algumas linhas de código python

Descubra como em meu novo Ebook:
Aprendizado profundo para processamento de linguagem natural

Ele fornece tutoriais de auto-estudo em tópicos como:
Saco de palavras, incorporação de palavras, modelos de linguagem, geração de legendas, tradução de texto e muito mais...

Finalmente, leve o aprendizado profundo para seus projetos de processamento de linguagem natural

Ignore os acadêmicos. Apenas resultados.

Veja o que há dentro

Você também pode estar interessado em