O Professor Pedro Albuquerque é especialista no assunto. Apenas para complementar a resposta dele, vou considerar a versão mais simples do modelo Support Vector Regression. Seja \(\hat y=X\hat\beta\) o modelo que desejamos estimar.
No caso do modelo de regressão linear estimamos \(\beta\) minimizando a soma dos quadrados dos erros dada por
\[\min_\beta \sum_{i=1}^{n}(y_i-\hat y_i)^2\]
Uma outra forma de escolher o \(\beta\) é fazer a minimização dada por
\[\min_\beta \sum_{i=1}^{n}|y_i-\hat y_i|,\]
onde \(n\) é o número de amostras.
Sabemos que as duas formas não são exatamente equivalentes. A primeira é um problema de otimização em um espaço euclidiano, onde estamos minimizando a norma 2 do erro que gera explicitamente um \(\hat \beta\) estimado que garante que \(\epsilon=[\epsilon_i] \)(onde \(\epsilon_i=y_i-\hat y_i\) ) é ortogonal ao subespaço gerado pelas colunas de da matriz de dados \(X\). O segundo caso é um caso de regressão quantílica (regressão da mediana), onde essas propriedades geométricas não são válidas. De fato, enquanto no primeiro caso, \(\hat y\) é o valor esperado \(E[y/x]\), no segundo caso ele é a mediana dado \(X\).
Podemos modificar essa estimativa para garantir que os valores de \(\beta\) não cresçam muito fazendo
\[\min_\beta \sum_{i=1}^{n}|y_i-\hat y_i| +\lambda\sum_{i=1}^{n}\beta_{i}^{2},\]
onde \(\lambda\) é uma constante.
Modelos de support vector regression modificam esse modelo, usando uma função de perda que insensível a um valor constante \(w\), isto é,
\[\min_\beta \sum_{i=1}^{n}L_i +\lambda\sum_{i=1}^{n}\beta_{i}^{2},\]
onde \(L_i=0\) se \(| y_i- \hat y_i |\lt w \) e \( L_i=(|y_i-\hat y_i|-w)\) em caso contrário.
Apenas para dar a intuição do que o modelo faz, eu considerei o modelo estimado linear. No caso geral, isso não ocorre e o modelo pode ser escrito de forma não linear, como especificado na resposta do Pedro citada acima.
Por que isso pode ser interessante?
Note que erros muito pequenos não afetam a função perda \(L\). Então:
1) O problema de overfitting que ocorre em modelos não lineares é minimizado (pois erros muito pequenos são simplesmente desconsiderados). Por exemplo, em modelos não lineares em que deseja-se minimizar erros quadráticos (como em modelos usuais de redes neurais), pode-se estimar parâmetros identificando ruídos como informação relevante. Esse problema é reduzido, pois erros muito pequenos não afetam a escolha do parâmetro. De fato, o parâmetro \(w\) afeta a complexidade do modelo. Quanto menor for esse parâmetro, maior a complexidade do modelo.
2) Modelos com valores grandes de \(w\) serão modelos não lineares que são razoavelmente "suaves", que possuirão representações mais esparsas que podem ser úteis para representar muita quantidade de dados com poucos parâmetros.