Conjuntos de dados para processamento de linguagem natural

Conjuntos de dados para processamento de linguagem natural

Você precisa de conjuntos de dados para praticar ao iniciar o aprendizado profundo para tarefas de processamento de linguagem natural.

É melhor usar pequenos conjuntos de dados que você pode baixar rapidamente e não leva muito tempo para ajustar os modelos. Além disso, também é útil usar conjuntos de dados padrão que sejam bem compreendidos e amplamente usados ​​para que você possa comparar seus resultados para ver se está progredindo.

Nesta postagem, você descobrirá um conjunto de conjuntos de dados padrão para tarefas de processamento de linguagem natural que você pode usar ao iniciar o aprendizado profundo.

Visão geral

Este post está dividido em 7 partes; eles estão:

  1. Classificação de Texto
  2. Modelagem de Linguagem
  3. Legenda de imagem
  4. Maquina de tradução
  5. Resposta a Perguntas
  6. Reconhecimento de fala
  7. Resumo de Documentos

Tentei fornecer uma mistura de conjuntos de dados populares para uso em trabalhos acadêmicos de tamanho modesto.

Quase todos os conjuntos de dados estão disponíveis gratuitamente para download hoje.

Se o seu conjunto de dados favorito não estiver listado ou você achar que conhece um conjunto de dados melhor que deveria ser listado, por favor, me avise nos comentários abaixo.

Comece seu projeto com meu novo livro Deep Learning for Natural Language Processing, incluindo tutoriais passo a passo e a Código-fonte Python arquivos para todos os exemplos.

Vamos começar.

Conjuntos de dados para processamento de linguagem natural

Conjuntos de dados para processamento de linguagem natural
Foto de Grant, alguns direitos reservados.

1. Classificação do Texto

A classificação de texto refere-se à rotulagem de frases ou documentos, como classificação de spam de e-mail e análise de sentimento.

Abaixo estão alguns bons conjuntos de dados de classificação de texto para iniciantes.

Para mais informações, veja a postagem:

2. Modelagem de Linguagem

A modelagem de linguagem envolve o desenvolvimento de um modelo estatístico para prever a próxima palavra em uma frase ou a próxima letra em uma palavra dada o que veio antes. É uma tarefa pré-cursor em tarefas como reconhecimento de voz e tradução automática.

É uma tarefa pré-cursor em tarefas como reconhecimento de voz e tradução automática.

Abaixo estão alguns bons conjuntos de dados de modelagem de linguagem para iniciantes.

  • Project Gutenberg, uma grande coleção de livros gratuitos que podem ser recuperados em texto simples para uma variedade de idiomas.

Existem corpora mais formais que são bem estudados; por exemplo:

Precisa de ajuda com Deep Learning for Text Data?

Faça meu curso intensivo de e-mail gratuito de 7 dias agora (com código).

Clique para se inscrever e também obter uma versão gratuita do Ebook em PDF do curso.

Comece Seu Crash-Course GRÁTIS Agora

3. Legendagem de imagens

A legendagem de imagens é a tarefa de gerar uma descrição textual para uma determinada imagem.

Abaixo estão alguns bons conjuntos de dados de legendagem de imagens para iniciantes.

  • Objetos Comuns no Contexto (COCO). Um acervo de mais de 120 mil imagens com descrições
  • Flickr 8K. Uma coleção de 8 mil imagens descritas retiradas do flickr.com.
  • Flickr 30K. Uma coleção de 30 mil imagens descritas retiradas do flickr.com.

Para mais informações veja a postagem:

4. Tradução automática

A tradução automática é a tarefa de traduzir texto de um idioma para outro.

Abaixo estão alguns bons conjuntos de dados de tradução automática para iniciantes.

Existem muitos conjuntos de dados padrão usados ​​para os desafios anuais de tradução automática; Vejo:

5. Resposta a perguntas

A resposta a perguntas é uma tarefa em que uma frase ou amostra de texto é fornecida a partir da qual as perguntas são feitas e devem ser respondidas.

Abaixo estão alguns bons conjuntos de dados de resposta a perguntas para iniciantes.

Para mais informações, veja a postagem:

6. Reconhecimento de fala

O reconhecimento de fala é a tarefa de transformar o áudio de uma língua falada em texto legível por humanos.

Abaixo estão alguns bons conjuntos de dados de reconhecimento de fala para iniciantes.

Você conhece mais alguns bons conjuntos de dados de reconhecimento automático de fala?
Deixe-me saber nos comentários.

7. Resumo do Documento

O resumo de documentos é a tarefa de criar uma descrição curta e significativa de um documento maior.

Abaixo estão alguns bons conjuntos de dados de resumo de documentos para iniciantes.

Para mais informações:

Leitura Adicional

Esta seção fornece listas adicionais de conjuntos de dados se você quiser se aprofundar.

Você conhece alguma outra boa lista de conjuntos de dados de processamento de linguagem natural?
Deixe-me saber nos comentários abaixo.

Resumo

Nesta postagem, você descobriu um conjunto de conjuntos de dados padrão que pode ser usado para tarefas de processamento de linguagem natural ao iniciar o aprendizado profundo.

Você escolheu um conjunto de dados? Você está usando um dos conjuntos de dados acima?
Deixe-me saber nos comentários abaixo.

Desenvolva modelos de aprendizado profundo para dados de texto hoje!

Aprendizado profundo para processamento de linguagem natural

Desenvolva seus próprios modelos de texto em minutos

... com apenas algumas linhas de código python

Descubra como em meu novo Ebook:
Aprendizado profundo para processamento de linguagem natural

Ele fornece tutoriais de auto-estudo em tópicos como:
Bag-of-Words, Word Embedding, Language Models, Caption Generation, Text Translation e muito mais...

Finalmente, leve o aprendizado profundo para seus projetos de processamento de linguagem natural

Ignore os acadêmicos. Apenas resultados.

Veja o que há dentro

Você também pode estar interessado em