1 Objetivos e Resumo dos Procedimentos
2 Avaliação da Presença de Autocorrelação Espacial
3 Análise Através de Modelos
4 Considerações Finais

1 Objetivos e Resumo dos Procedimentos

O Objetivo inicial deste projeto é entender de que forma o preço médio de revenda de gasolina comum se comporta em território nacional em função das distâncias dos postos de combustíveis dos pontos de distribuição e refinarias.

Para tal utilizamos dados públicos do Levantamento de Preços e de Margens de Comercialização de Combustíveis publicado semanalmente pela Agência Nacional de Petróleo e dados do Zoneamento Nacional de Recursos de Óleo e Gás 2017-2019 publicados pela Empresa de Pesquisa Energética filiada ao Ministério de Minas e Energia. Adicionalmente obtivemos dados de PIP, PIP per capita e população estimada do site do IBGE a fim de enriquecer os dados e aumentar o poder de explicação do modelo.

Do Levantamento de Preços e de Margens de Comercialização de Combustíveis extraímos dois datasets:

Histórico semanal de preços de combustíveis por município pesquisado (total de 458 municípios).
Preço de comercialização de gasolina comum dos postos de combustíveis (total de 1.236 postos) amostrados na semana de 24-Abr-2020 a 2-Mai-2020 das 27 capitais brasileiras.

Iniciamos por executar a ingestão e preparação dos dados, seguido da geolocalização dos postos de gasolina presentes no dataset, e do join espacial com a malha territorial nacional disponibilizada pelo IBGE de forma a criar os shapefiles necessários para a construção dos modelos, na sequencia preparamos uma análise exploratória de dados onde apresentamos o preço médio e a dispersão dos preços de comercialização nas 27 capitais brasileiras, as localizações dos pontos de distribuição de combustíveis (338 pontos de distribuição), a localização das refinarias presentes no território nacional (13 refinarias) e finalmente as distâncias de cada sede de município dos referidos pontos de distribuição e refinarias.

Foram calculadas 8 variáveis para capturar a influência da distância no preço final de comercialização de gasolina comum além de 2 variáveis econômicas, variação percentual do PIB e PIB per capita de cada município pesquisado entre os anos de 2016 e 2017 (últimos dados de PIB por municípios obtidos do IBGE). Estas variáveis foram utilizadas como regressões nos diversos modelos de regressão linear desenvolvidos neste estudo.

mnemonico	descricao
PcMedRev	Preço Médio de Revenda
DistMean	Distância média para as 10 distribuidoras mais próximas
DistDev	Desvo padrão da distância para as 10 distribuidoras mais próximas
DistMin	Distância mínima para as 10 distribuidoras mais próximas
DistMax	Distância máxima para as 10 distribuidoras mais próximas
RefinMean	Distância média para as refinarias
RefinDev	Desvo padrão da distância para as refinarias
RefinMin	Distância mínima para as refinarias
RefinMax	Distância máxima para as refinarias
ChgPIB	Variação do PIB de 2016 para 2017
ChgPIBCap	Variação do PIB per Capita de 2016 para 2017

2 Avaliação da Presença de Autocorrelação Espacial

Para a avaliação da presença de autocorrelação espacial utilizamos a estatística conhecida como I de Moran que funciona de forma similar a Correlação de Pearson, onde o valor varia entre -1 e 1, significando que para resultados próximos a esses valores existem alta autocorrelação espacial (Tendência a cauterização), e para resultados próximos a 0 não existem autocorrelação espacial (Padrões aleatórios).

Foram desenvolvidas 6 matrizes de vizinhança baseadas em número de vizinhos e distância, são elas:

Matriz com largura de banda de 5.7 e distância euclidiana;
Matriz com kernel adaptativo, 8 vizinhos e função de decaimento gaussiano;
Matriz KNN = 3;
Matriz KNN = 4;
Matriz KNN = 6;
Matriz KNN = 8.

Para essa amostra observou-se que existe um dependência espacial significativa do preço médio de revenda, com o Moran’s I variando no intervalo de 52% à 60% para matrizes baseadas no número fixo de vizinhos. Para matrizes baseadas em distância, gerou-se um alto número de ligações, acarretando em municípios com centenas de vizinhos e diminuição acentuada do índice Moran’s I. Não foram analisadas matrizes de vizinhança por contiguidade dado que para essa amostra, muitos municípios ficariam sem vizinhos, tornando assim ineficaz essa opção.

3 Análise Através de Modelos

Foram aplicados vários modelos, disponíveis no relatório de aplicação dos modelos SAR e GWR a fim de averiguar a existência de relacionamento espacial entre as variáveis do shapefile gas_prices_hist:

Modelo de regressão linear multivariado stepwise;
Modelo espacial auto-regressivo (SAR);
Modelo de regressão geograficamente ponderada (GWR);

Partindo do modelo mais simples, de regressão linear múltipla, obtemos um R2 Ajustado de \(0.3383\) e ao aplicar o modelo SAR que ele leva em conta o preço dos vizinhos obtemos um R2 de \(0.3281\). Ao aplicar o modelo GWR conseguimos aumentar o nosso R2 para \(0.6588\) e conseguimos notar a formação de clusters indicados pela análise do I de Moran realizada anteriormente, vale notar que para o Rio de Janeiro fica evidente um comportamento anômalo.

Embora a regra geral observada na análise por GWR mostre que quanto maior a distância, maior o preço, para o Rio de Janeiro esta afirmação não é mantida. Isso sugere que outros fatores influenciam na formação do preço do combustível no Rio de Janeiro.

4 Considerações Finais

O resultado final deste estudo não obteve, e nem mesmo fazia parte do objetivo, um modelo capaz de explicar com precisão os fatores que influenciam no preço final de comercialização de combustíveis, este é um assunto bastante complexo que sofre influência direta de variáveis com preço internacional de petróleo, flutuação cambial, aspectos tributários, aspectos concorrenciais como concentração de mercado em bandeiras de postos, possíveis práticas de carteis, combustíveis alternativos como GNV, Diesel, Etanol e Biocombustíveis, adulteração de combustíveis, verticalização dos processos de exploração, produção, distribuição e comercialização, aspectos socioeconômicos e ambientais, dentre outros.

A distância dos postos de combustíveis dos pontos de distribuição e refinarias é apenas um dos fatores que podem influenciar este mercado, nosso modelo porém, foi capaz de demonstrar que com significância estatística é possível sim verificar que o fator distância individualmente é capaz de explicar cerca de 32% da variação do preço de comercialização da gasolina comum no território nacional.

No entanto vale ressaltar que temos disponíveis dados de apenas 458 municípios dos mais de 5 mil municípios brasileiros, e que inspecionando a distribuição dos mesmos em relação aos pontos de distribuição, percebe-se que existe um viés amostral, onde a ANP pesquisa municípios que em geral não estão muito distantes dos pontos de distribuição, ou seja temos pouca representatividade de municípios mais isolados que poderiam fornecer mais informações e aumentar a robustez dos modelos desenvolvidos.

Também vale mencionar que optamos por não trabalhar com o dataset na granularidade de postos de gasolina das 27 capitais brasileiras, pois como estes estão muito próximos uns dos outros os mesmos acabam se comportando com um único ponto no espaço (e não 1.236), não existindo muita variação nos dados de cada cidade. Por este motivo desenvolvemos todos os modelos no dataset com o preço médio por municípios que contem menos observações, mas uma maior riqueza de dados. O ideal seria trabalhar com a amostragem em nível de postos para os 458 municípios pesquisados, porém o site da ANP não possibilita a extração de todo o dataset de forma eficiente ou automatizada, a extração tem se ser realizada município a município o que impossibilitou a extração completa para este estudo.

Conclusão

Junho de 2020

1 Objetivos e Resumo dos Procedimentos

2 Avaliação da Presença de Autocorrelação Espacial

3 Análise Através de Modelos

4 Considerações Finais