Diferença entre classificação e regressão no aprendizado de máquina

Diferença entre classificação e regressão no aprendizado de máquina

Há uma diferença importante entre problemas de classificação e regressão.

Fundamentalmente, a classificação trata de prever um rótulo e a regressão trata de prever uma quantidade.

Costumo ver perguntas como:

Como calculo a precisão do meu problema de regressão?

Perguntas como essa são um sintoma de não compreender verdadeiramente a diferença entre classificação e regressão e qual precisão está tentando medir.

Neste tutorial, você descobrirá as diferenças entre classificação e regressão.

Depois de concluir este tutorial, você saberá:

  • Essa modelagem preditiva é sobre o problema de aprender uma função de mapeamento de entradas para saídas, chamada de aproximação de função.
  • Essa classificação é o problema de prever uma saída de rótulo de classe discreta para um exemplo.
  • Essa regressão é o problema de prever uma saída de quantidade contínua para um exemplo.

Vamos começar.

Diferença entre classificação e regressão no aprendizado de máquina

Diferença entre classificação e regressão no aprendizado de máquina
Foto de thomas wilson, alguns direitos reservados.

Visão geral do tutorial

Este tutorial é dividido em 5 partes; eles estão:

  1. Aproximação de Função
  2. Classificação
  3. Regressão
  4. Classificação vs Regressão
  5. Conversão entre problemas de classificação e regressão

Aproximação de Função

A modelagem preditiva é o problema de desenvolver um modelo usando dados históricos para fazer uma previsão sobre novos dados para os quais não temos a resposta.

A modelagem preditiva pode ser descrita como o problema matemático de aproximar uma função de mapeamento (f) de variáveis ​​de entrada (X) para variáveis ​​de saída (y). Isso é chamado de problema de aproximação de funções.

O trabalho do algoritmo de modelagem é encontrar a melhor função de mapeamento que pudermos, dados o tempo e os recursos disponíveis.

Para obter mais informações sobre como aproximar funções no aprendizado de máquina aplicado, consulte a postagem:

Geralmente, podemos dividir todas as tarefas de aproximação de função em tarefas de classificação e tarefas de regressão.

Modelagem Preditiva de Classificação

A modelagem preditiva de classificação é a tarefa de aproximar uma função de mapeamento (f) de variáveis ​​de entrada (X) para variáveis ​​de saída discretas (y).

As variáveis ​​de saída são freqüentemente chamadas de rótulos ou categorias. A função de mapeamento prevê a classe ou categoria para uma determinada observação.

Por exemplo, um e-mail de texto pode ser classificado como pertencente a uma das duas classes: “spam e "não é spam“.

  • Um problema de classificação requer que os exemplos sejam classificados em uma de duas ou mais classes.
  • Uma classificação pode ter variáveis ​​de entrada de valor real ou discretas.
  • Um problema com duas classes é freqüentemente chamado de problema de classificação de duas classes ou binária.
  • Um problema com mais de duas classes é freqüentemente chamado de problema de classificação de várias classes.
  • Um problema em que um exemplo é atribuído a várias classes é chamado de problema de classificação de vários rótulos.

É comum que os modelos de classificação prevejam um valor contínuo como a probabilidade de um determinado exemplo pertencer a cada classe de output. As probabilidades podem ser interpretadas como a probabilidade ou confiança de um determinado exemplo pertencente a cada classe. Uma probabilidade prevista pode ser convertida em um valor de classe, selecionando o rótulo de classe que tem a probabilidade mais alta.

Por exemplo, um e-mail de texto específico pode ser atribuído às probabilidades de 0,1 como sendo “spam” e 0,9 como sendo “não é spam”. Podemos converter essas probabilidades em um rótulo de classe, selecionando o rótulo “não é spam”, pois ele tem a maior probabilidade prevista.

Existem muitas maneiras de estimar a habilidade de um modelo preditivo de classificação, mas talvez a mais comum seja calcular a precisão da classificação.

A precisão da classificação é a porcentagem de exemplos classificados corretamente de todas as previsões feitas.

Por exemplo, se um modelo preditivo de classificação fez 5 previsões e 3 delas estavam corretas e 2 delas estavam incorretas, então a precisão da classificação do modelo com base apenas nessas previsões seria:

Um algoritmo capaz de aprender um modelo preditivo de classificação é chamado de algoritmo de classificação.

Modelagem Preditiva de Regressão

A modelagem preditiva de regressão é a tarefa de aproximar uma função de mapeamento (f) de variáveis ​​de entrada (X) para uma variável de saída contínua (y).

Uma variável de saída contínua é um valor real, como um valor inteiro ou de ponto flutuante. Freqüentemente, são quantidades, como quantidades e tamanhos.

Por exemplo, pode-se prever que uma casa será vendida por um valor específico em dólares, talvez na faixa de $ 100.000 a $ 200.000.

  • Um problema de regressão requer a previsão de uma quantidade.
  • Uma regressão pode ter variáveis ​​de entrada de valor real ou discretas.
  • Um problema com múltiplas variáveis ​​de entrada é freqüentemente chamado de problema de regressão multivariada.
  • Um problema de regressão em que as variáveis ​​de entrada são ordenadas por tempo é chamado de problema de previsão de série temporal.

Como um modelo preditivo de regressão prevê uma quantidade, a habilidade do modelo deve ser relatada como um erro nessas previsões.

Há muitas maneiras de estimar a habilidade de um modelo preditivo de regressão, mas talvez a mais comum seja calcular a raiz quadrada média do erro, abreviado pela sigla RMSE.

Por exemplo, se um modelo preditivo de regressão fez 2 previsões, uma de 1,5 onde o valor esperado é 1,0 e outra de 3,3 e o valor esperado é 3,0, então o RMSE seria:

Um benefício do RMSE é que as unidades da pontuação do erro estão nas mesmas unidades do valor previsto.

Um algoritmo que é capaz de aprender um modelo preditivo de regressão é chamado de algoritmo de regressão.

Alguns algoritmos têm a palavra “regressão” em seu nome, como regressão linear e regressão logística, o que pode tornar as coisas confusas porque a regressão linear é um algoritmo de regressão, enquanto a regressão logística é um algoritmo de classificação.

Classificação vs Regressão

Os problemas de modelagem preditiva de classificação são diferentes dos problemas de modelagem preditiva de regressão.

  • A classificação é a tarefa de prever um rótulo de classe discreto.
  • A regressão é a tarefa de prever uma quantidade contínua.

Há alguma sobreposição entre os algoritmos de classificação e regressão; por exemplo:

  • Um algoritmo de classificação pode prever um valor contínuo, mas o valor contínuo está na forma de uma probabilidade para um rótulo de classe.
  • Um algoritmo de regressão pode prever um valor discreto, mas o valor discreto na forma de uma quantidade inteira.

Alguns algoritmos podem ser usados ​​para classificação e regressão com pequenas modificações, como árvores de decisão e redes neurais artificiais. Alguns algoritmos não podem ou não podem ser facilmente usados ​​para ambos os tipos de problemas, como regressão linear para modelagem preditiva de regressão e regressão logística para modelagem preditiva de classificação.

É importante ressaltar que a maneira como avaliamos as previsões de classificação e regressão varia e não se sobrepõe, por exemplo:

  • As previsões de classificação podem ser avaliadas usando precisão, enquanto as previsões de regressão não.
  • As previsões de regressão podem ser avaliadas usando o erro quadrático médio da raiz, enquanto as previsões de classificação não podem.

Converta entre problemas de classificação e regressão

Em alguns casos, é possível converter um problema de regressão em um problema de classificação. Por exemplo, a quantidade a ser prevista pode ser convertida em baldes discretos.

Por exemplo, valores em um intervalo contínuo entre $ 0 e $ 100 podem ser convertidos em 2 grupos:

  • Classe 0: $ 0 a $ 49
  • Classe 1: $ 50 a $ 100

Isso geralmente é chamado de discretização e a variável de saída resultante é uma classificação em que os rótulos têm um relacionamento ordenado (chamado ordinal).

Em alguns casos, um problema de classificação pode ser convertido em um problema de regressão. Por exemplo, um rótulo pode ser convertido em um intervalo contínuo.

Alguns algoritmos já fazem isso ao prever uma probabilidade para cada classe que, por sua vez, pode ser dimensionada para um intervalo específico:

Como alternativa, os valores das classes podem ser ordenados e mapeados para um intervalo contínuo:

  • $ 0 a $ 49 para a Classe 1
  • $ 50 a $ 100 para a Classe 2

Se os rótulos de classe no problema de classificação não tiverem uma relação ordinal natural, a conversão da classificação em regressão pode resultar em desempenho surpreendente ou ruim, pois o modelo pode aprender um mapeamento falso ou inexistente de entradas para a faixa de saída contínua.

Leitura Adicional

Esta seção fornece mais recursos sobre o tópico se você deseja se aprofundar.

Resumo

Neste tutorial, você descobriu a diferença entre problemas de classificação e regressão.

Especificamente, você aprendeu:

  • Essa modelagem preditiva é sobre o problema de aprender uma função de mapeamento de entradas para saídas, chamada de aproximação de função.
  • Essa classificação é o problema de prever uma saída de rótulo de classe discreta para um exemplo.
  • Essa regressão é o problema de prever uma quantidade contínua de saída para um exemplo.

Você tem alguma pergunta?
Tire suas dúvidas nos comentários abaixo e farei o possível para responder.

Você também pode estar interessado em