Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Salários agregados de jogadores e a performance na primeira divisão italiana (2016)

+2 votos
33 visitas
perguntada Mai 13 em Estatística por Bernardo Mendes (21 pontos)  

Aggregate Wages Of Players and Performance in Italian Serie A

Caruso, Raul and Di Domizio, Marco and Rossignoli, Domenico

July 2016

Compartilhe

1 Resposta

+1 voto
respondida Mai 14 por Bernardo Mendes (21 pontos)  
editado Mai 24 por Bernardo Mendes

1. Introdução

Performance esportiva depende de uma grande quantidade de elementos, mas sem dúvida o mais importante é acesso ao talento. Pensando no mundo real e em variáveis concretas, qual a melhor aproximação que podemos fazer para entender ou quantificar talento? Na percepção dos autores, dinheiro é a resposta para a pergunta.

Não é absurdo pressupor que atletas mais talentosos ou de maior sucesso tenham um valor monetário maior dentro de seu nicho. Consequentemente os clubes têm de pagar maiores salários para atraí-los a jogar, e assim funciona esse sistema: atletas mais talentosos recebem maiores salários e compõem melhores times. Contudo, a pergunta que esse artigo busca responder é: uma maior folha salarial é realmente traduzida em melhor performance do esportiva?

2. Performance e sucesso no futebol

Vale ressaltar que esse artigo foi produzido após uma vasta literatura já existente à respeito e busca mesclar técnicas aplicadas por outros autores e buscar um resultado mais apurado, isto é, controlado por mais variáveis relevantes para a explicação do problema.

Para atribuir uma medida objetiva de sucesso para os clubes, os autores definiram: um escopo de competição (campeonato italiano), um horizonte temporal (14 temporadas) e dois tipos de métrica: \(rank_{i,t} = -log[\frac{P_{i,t}}{N_t +1 - P_{i,t}}]\) e \(pointspct_{i,t} = \frac{points_{i,t}}{points_t}\). A primeira mede a posição do time em forma de fração, onde \(P_{i,t}\) é a posição obtida pelo clube e \(N_t\) o número de times disputando aquela edição do torneio. Já a segunda, mede o percentual de pontos obtido pelo time em relação ao total de pontos possíveis no torneio, essa foi proposta por Franck and Nüesch (2011). Definidas as variáveis dependentes do problema, os autores elencam as variáveis independentes e apresentam os motivos pela inclusão dessas.

É evidente que a folha salarial dos clubes é incluída entre os regressores, os autores a incluem como "real_wages" e obtiveram os dados a partir do relatório anual da *La Gazzetta dello Sport* e descontaram pela inflação anual. Um segunda variável independente é o que os autores chamam de "aristocracia", isto é, quantas vezes o time participou da primeira divisão italiana desde 1929. No esporte existe evidência empírica de uma certa persistência entre clubes de sucesso e isso acaba sendo refletido diretamente na quantidade de participações na primeira divisão. Outras 5 variáveis são incluídas e refletem um trabalho de revisão de literatura de Bucciol et al. (2014) Yamamura (2015), Bryson et al. (2014) e Franck and Nüesch (2011), essas são:

  1. Média de idade do elenco e média de idade do elenco ao quadrado: um elenco mais experiente pode gerar times mais vitoriosos, porém atletas mais velhos podem ter menor vigor físico;

  2. Quantidade de atletas estrangeiros: tentam controlar para um possível super-talento ainda subprecificado e trazido do exterior;

  3. Tamanho do elenco e tamanho do elenco ao quadrado: um maior plantel pode oferecer mais opções ao treinador, contudo, pode oferecer dificuldades para encontrar o sistema tático ótimo.

  4. Dummy 18 teams: houveram temporadas em que o torneio contou com apenas 18 participantes, os autores controlam para isso também.

3. Identificação do modelo e estimação

Um problema central na estimação do efeito da folha de pagamentos na performance esportiva é a endogeneidade e potencial causalidade simultânea. Em particular, uma temporada de sucesso de uma equipe tende a afetar sua folha de pagamentos na temporada seguinte. Outro fator é a inércia, os autores acreditam que a performance do ano presente é diretamente afetada pela performance do ano anterior, logo o problema deve ser resolvido em um setup dinâmico. Por esses motivos, o artigo adota uma série de estimações e diferentes especificações de modelo para comparar os resultados.

O modelo base para o artigo é construído da seguinte forma:

\(y_{i,t} = \alpha + \beta_1 log(realwages_{i,t}) + \beta_2 log(aristocracy_{i,t}) + \beta_3 log(age_{i,t})\)
\(+ \beta_4[log(age_{i,t})]^2 + ​\beta_5 log(foreigners_{i,t}) + \beta_6 log (roster_{i,t}) \)
\(+ \beta_7[log(roster_{i,t})]^2 + \beta_8 18teams_{i,t} + \mu_i + \epsilon_{i,t} \)

onde \(\mu_i\) é um termo específico para cada equipe invariante no tempo e \(\epsilon_{i,t}\) é o erro estocástico usual. Os autores optam por não usar time-fixed effects, pois o teste de Wald não rejeita a nulidade do efeito.

Logo, o ponto inicial do artigo é um modelo de efeitos fixos, que posteriormente evolui para outras especificações visando corrigir o viés dinâmico. Dentre as possíveis soluções está a inclusão da variável dependente com lag de um período entre os regressores, de forma que possamos capturar o efeito de inércia mencionado acima, assim, o modelo passa a ser especificado da seguinte forma:

\(y_{i,t} = \alpha + \pi y_{i,t-1} + \beta_1 log(realwages_{i,t}) + \beta_2 log(aristocracy_{i,t})\)
\( + \beta_3 log(age_{i,t}) + \beta_4[log(age_{i,t})]^2 + ​\beta_5 log(foreigners_{i,t}) \)
\(+ \beta_6 log (roster_{i,t}) + \beta_7[log(roster_{i,t})]^2 + \beta_8 18teams_{i,t} + \mu_i + \epsilon_{i,t} \),

Uma vez especificado assim, é notável que a variável em lag apresentará correlação com o termo de erro. Como uma possível solução, os autores implementam um modelo PSCE (Panel-Corrected Standard Errors), incluindo uma estrutura de (AR1) de autocorrelação , logo estamos em um framework (PSAR1). Essa técnica permite que os erros padrão sejam heterocedásticos e correlacionados entre os painéis, enquanto levam em consideração autocorrelações de primeira ordem entre os painéis.

Por fim, um modelo System-GMM é implementado com o intuito de remover autocorrelação e endogeneidade simultâneamente. O modelo GMM inclui uma transformação em primeira diferença que remove os termos constantes da equação. Logo, o modelo apresentado é:

\(y_{i,t} = \Delta \pi y_{i,t-1} + \beta_1 \Delta log(realwages_{i,t}) + \)
\(\beta_2 \Delta log(aristocracy_{i,t}) + \beta_3 \Delta log(age_{i,t}) + \)
\(\beta_4 \Delta [log(age_{i,t})]^2 + ​\beta_5 \Delta log(foreigners_{i,t}) + \)
\(\beta_6 \Delta log (roster_{i,t}) + \beta_7 \Delta [log(roster_{i,t})]^2 + \)
\(\beta_8 \Delta 18teams_{i,t} + \Delta \epsilon_{i,t} \)

Seguindo a literatura de Arellano e Bond (1991) todas as variáveis independentes (entendidas como endógenas) são instrumentadas com seu próprio lag em até dois períodos . Na estrutura do modelo GMM, tanto a equação em nível quanto a equação diferenciada são instrumentadas usando lags. Por fim, erros padrão clusterizados e robustos são incluídos na análise para estudar a correlação de resíduos entre times.

Indo a diante, para fortalecer ainda mais a análise, os autores usam uma estratégia de identificação a partir de instrumentos exógenos em ambas as equações, em conjunto com os lags das variáveis intedpendentes.

Respeitando as condições de inclusão de variáveis instrumentais, os autores decidem incluir dois instrumentos: altitude da cidade em que o time surgiu e casos de extorsão na região do time. A inclusão da primeira se deve a crença de que maiores altitudes estão relacionadas a condições geográficas mais extremas e isso pode inibir o desenvolvimento de atividades econômicas na região. Segundo os autores, isso é ainda mais notável na Itália, onde a maior parte das indústrias é estabelecida em regiões baixas, logo uma menor riqueza da região estaria associada a menos investimento nas equipes locais. Já a segunda variável instrumental é relacionada ao ambiente regulatório, isto é, regiões que reportam maior número de extorsões usualmente possuem um ambiente regulatório mais frágil e consequentemente existe um menor incentivo a investir.

A exogeneidade e relevância dos instrumentos é testada e apresentada pelos autores. Primeiro testando a versão reduzida do modelo:

\(y_{i,t} = \alpha_i + \varphi y _{i,t-1} + \gamma_1 (INST_{i,t}) + \)
\(\gamma_2 log (aristocracy_{i,t}) + \gamma_3 log(age_{i,t}) + \gamma_4 [log(age_{i,t})]^2 \)
\(+ \gamma_5 log (foreigners_{i,t}) + \gamma_6 log (roster_{i,t}) +\)
\(\gamma_7 [log(roster_{i,t})]^2 + \gamma_8 (18teams_t) + \eta_{i,t}\),

onde \(INST_{i,t}\) representa as duas variáveis instrumentais.

Após a realização dos testes, os autores decidem incluir os instrumentos e apresentam os resultados de todos os modelos implementados ao longo do artigo. Cada uma das tabelas abaixo representa o resultado da regressão relativa a uma das duas medidas de sucesso definidas pelos autores:

A imagem será apresentada aqui.

A imagem será apresentada aqui.

Podemos notar que em ambas análises de resultado, o salário real apresentou não significância em apenas um dos casos. Logo, os autores concluem que existe impacto da folha salarial na performance das equipes italianas em sua liga nacional.

4. Minha Pesquisa

Após ler o artigo, busquei replicar um dos modelos testado pelos autores. Minha decisão foi replicar o modelo de efeitos fixos (modelo base do artigo) para a primeira divisão da Inglaterra, a Premier League. Dessa forma, busquei dados para as temporadas (2005/2006-2018/2019), a seleção dos anos visou replicar o horizonte de 14 anos selecionado pelos autores e também remover as temporadas de 2019-2020, 2020-2021, que podem apresentar estilização devido à pandemia.

As medidas de sucesso foram as mesmas escolhidas pelos autores, e as variáveis independentes apresentaram duas exceções: a não inclusão da dummy "18 teams" e a não inclusão da variável "aristocracy". A primeira se deve ao fato de que a competição foi disputada com 20 equipes em todo o período estudado, logo, não há necessidade da inclusão. A segunda por uma questão de disponibilidade de dados e mudanças recorrentes no formato da competição, que fariam que a participação na primeira divisão representasse coisas diferentes ao longo do tempo.

Dessa forma, o modelo estimado foi:

\(y_{i,t} = \alpha + \beta_1 log(realwages_{i,t}) + \beta_2 log(age_{i,t})\) + \(\beta_3[log(age_{i,t})]^2 + ​\beta_4 log(foreigners_{i,t}) + \beta_5 log (roster_{i,t})\)
\( + \beta_6[log(roster_{i,t})]^2 + \mu_i + \epsilon_{i,t} \)

Os resultados obtidos foram:

A imagem será apresentada aqui.

A imagem será apresentada aqui.

Onde podemos verificar, em ambos os casos, a significância do impacro dos salarios reais nas performance dos clubes. Vale notar que os valores encontrados foram semelhantes aos encontrados pelos autores, tanto dos parâmetros quando para o \(R^2\). Outra semelhança interessante é o fato de que tanto na minha pesquisa, quanto no artigo, o tamanho do elenco apresenta significância estatística e um impacto negativo na performance dos clubes. Já o termo quadrático associado apresenta formato de uma parábola de coeficiente principal positivo, indicando um efeito decrescente até certo ponto e um possível efeito positivo após atingir o vértice.

5. Conclusão

Após ambas as análises é perceptível que times que gastam mais com salários tendem a melhorar suas performances nas ligas domésticas. Os clubes aumentam as cifras envolvidas vertiginosamente e isso parte de um aumento de receitas por transmissão de tv, patrocínios, abertura de capital de algumas equipes, globalização das marcas e venda de produtos associados. Observando isso, acho extremamente interessante o prêmio que a sociedade paga ao entretenimento no século XXI, tornando o futebol assunto sério.

6. Código em Python

Boa parte do meu trabalho de montagem da base de dados foi realizada no Excel pela praticidade envolvida na plataforma para esse tipo de atividade. Contudo, realizei pequenos ajustes no Data Frame em Python e rodei as minhas regressões por lá também. Abaixo vocês podem conferir os códigos:

import pandas as pd
from linearmodels import PanelOLS
import statsmodels.api as sm
from linearmodels import PooledOLS
from linearmodels.panel import RandomEffects




df = pd.read_excel(r'C:\Users\User\iCloudDrive\Backup online\Mestrado\Segundo Semestre\Econometria\Trabalho Cajueiro\Panel_data_PL.xlsx')
df = df.drop("Unnamed: 0",axis=1)
df = df.drop([0], axis = 0)
new_header = df.iloc[0]
df = df[1:]
df.columns = new_header
df.set_index(['team', 'year'], inplace = True)
df[['log_roster','log_roster_squared','log_age','log_age_squared','log_foreigners','log_real_wage','log_points_pct','log_rank']] = df[['log_roster','log_roster_squared','log_age','log_age_squared','log_foreigners','log_real_wage','log_points_pct','log_rank']].astype(float)
df.head()
df.info()
exog = sm.add_constant(df[['log_roster','log_roster_squared','log_age','log_age_squared','log_foreigners','log_real_wage']])
endog_1 = df['log_points_pct']
endog_2 = df['log_rank']
mod_1 = PanelOLS(endog_1, exog, entity_effects = True)
res_1 = mod_1.fit(cov_type = 'robust')
res_1
mod_2 = PanelOLS(endog_2, exog, entity_effects = True)
res_2 = mod_2.fit(cov_type = 'robust')
res_2
mod_3 = RandomEffects(endog_1, exog)
res_3 = mod_3.fit()
res_3
mod_4 = RandomEffects(endog_2, exog)
res_4 = mod_4.fit()
res_4
comentou Mai 19 por Stuart Mill (1,424 pontos)  
Bem legal. Fiquei pensando que seria legal usar algumas dessas variáveis para prever vitórias de times usando técnicas de machine learning. Eu chutaria que deve ter bastante previsibilidade... se dá para ganhar dinheiro com isso, já é outra história.

Uma coisa em relação a essa variável aristocracy. Acho que especialmente pra Inglaterra, para captar algo assim você precisaria alterar a variável de alguma forma. Se você fosse incluir participação no campeonato inglês em geral (não só era Premier League), imagino que muitos times que eram muito fortes no passado e hoje são meio irrelevantes estariam classificados como aristocracy (ex: Preston North End, Derby County, que disputam divisões inferiores hoje), enquanto outros que ficaram fortes mais recentemente talvez tivessem um score de aristocracy pior. Teria que de alguma forma limitar o horizonte de tempo para classificar o time como aristocracy.
comentou Mai 23 por danielcajueiro (5,581 pontos)  
Ola Bernardo Mendes, seria interessante vc colocar o seu codigo diretamente ao inves da imagem. Ele fica bonitinho se vc usar a ferramenta do Prorum "{}" que significa "Code sample"
comentou Mai 23 por danielcajueiro (5,581 pontos)  
Stuart, tem umas empresas no  mundo que ganham muito dinheiro com isso. Na verdade, o mais dificil é ter uma infra-estrutura para coleta de dados. Ciencia de Dados em esportes é uma área importante.
comentou Mai 24 por Bernardo Mendes (21 pontos)  
Sugestão aplicada, professor. Agradeço pelo feedback e pela atenção.
comentou Mai 25 por Stuart Mill (1,424 pontos)  
Ciência dos dados em esportes parece uma área muito legal. Curiosamente, parece que o futebol ainda está meio atrasado nisso se comparado a outros esportes como baseball, futebol americano, NBA, etc., em que o uso de estatísticas e análise de dados já vem há mais tempo.

Imagino que os sites de apostas ganham bastante dinheiro com isso, mas aí tem toda uma estrutura, reputação, o sistema para receber as apostas, etc.. Será que tem pessoas  que ganham dinheiro consistentemente nesses sites de aposta fazendo as apostas (em vez de recebendo apostas)? Qual a porcentagem de pessoas que sai no lucro? Eu realmente não sei, seria uma coisa interessante a se responder.
...