Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Explorando o paper: "Cities Are Physical Too: Using Computer Vision to Measure the Quality and Impact of Urban Appearance"

0 votos
6 visitas
perguntada Nov 6 em Economia por CICERO FILHO (26 pontos)  

Naik, Nikhil, Ramesh Raskar, and César A. Hidalgo. 2016. "Cities Are Physical Too: Using Computer Vision to Measure the Quality and Impact of Urban Appearance." American Economic Review, 106 (5): 128-32. https://www.aeaweb.org/articles?id=10.1257/aer.p20161030

Compartilhe

1 Resposta

0 votos
respondida Nov 6 por CICERO FILHO (26 pontos)  

INTRODUÇÃO

Em janeiro de 2016, o primeiro-ministro britânico, David Cameron, escreveu um artigo no Sunday Times prometendo demolir 100 dos "desolados" conjuntos habitacionais do pós-guerra no Reino Unido. As ideias de Cameron refletiram ideias de economistas, sociólogos, psicólogos e planejadores urbanos, que há muito refletem sobre a relação entre a aparência física de uma cidade e a saúde, educação, mobilidade e comportamento criminoso de seus cidadãos.

Estudos demonstram que a aparência da vizinhança afeta as taxas de alcoolismo, obesidade e disseminação de DSTs. A relação entre aparência física e atividade criminosa tem sido, talvez, do maior interesse dos estudos. The Broken Windows Theory (BWT) de Wilson e Kelling (1982) propõe uma conexão entre a percepção da desordem urbana e a atividade criminosa.

No entanto, a conexão entre a aparência física de uma cidade e os resultados socioeconômicos de seus cidadãos tem se mostrado um desafio de estudo, devido à falta de dados sobre a aparência urbana.

Até o momento, a aparência urbana tem sido avaliada com ferramentas de baixo rendimento, como pesquisas de campo (Sampson e Raudenbush 2004) ou “auditorias virtuais de imagens urbanas” (Rundle et al. 2011). Esses métodos são demorados e caros e cobrem pequenas áreas apenas.

QUESTIONAMENTO DOS AUTORES

Como quantificar a aparência urbana e realizar avaliações, sem a necessidade de pesquisas de campo, “auditorias visuais”, etc, e poder fazer o acompanhamento ao longo do tempo?

QUANTIFICAÇÃO DA APARÊNCIA URBANA

Imagine usar imagens no nível da rua para examinar a aparência física de Manhattan e gerar um "mapa avaliativo“? Seria possível?

Como Manhattan tem cerca de 72.000 quarteirões, um mapa avaliativo com resolução de um ponto de dados por segmento de rua exigiria a pontuação de 72.000 imagens.
O dimensionamento desse mapa para os cinco distritos de Nova York aumentaria o número de avaliações necessárias para cerca de um milhão. Agora imagine querer criar mapas semelhantes para dezenas de cidades, em vários pontos no tempo e para diferentes medidas de avaliação (por exemplo, segurança percebida, acessibilidade, etc.).

Esse esforço de geração de dados exigiria a avaliação de milhões de imagens, o que é impossível utilizando pesquisas de campo, e outras técnicas utilizadas até o momento.
O grande número de pontos de dados necessários para gerar mapas avaliativos mostra a necessidade de levantamentos automatizados.

PROPOSTA DOS AUTORES

Para resolver este problema, foi proposto o desenvolvimento de algoritmos que quantificam a aparência urbana usando imagens de “street view”. Especificamente, o trabalho descreve um algoritmo que calcula a segurança percebida (ou “Streetscore”) de paisagens urbanas (Naik et al. 2014). Esse algoritmo cria “mapas de avaliação” de alta resolução da segurança percebida para 19 cidades dos EUA, marcando mais de um milhão de imagens.

QUANTIFICAÇÃO DA APARÊNCIA URBANA

Mas para que são úteis esses mapas de avaliação? Em primeiro lugar, esses mapas avaliativos permitem aos pesquisadores explorar a conexão entre a aparência física de uma cidade e os resultados socioeconômicos de seus cidadãos, em uma resolução e escala sem precedentes. Além disso, os pesquisadores começaram a usar esses mapas avaliativos para identificar construções arquitetônicas e políticas de planejamento urbano que se correlacionam com a segurança percebida.

Been et al. (2016) por descobriram que a designação de distrito histórico na cidade de Nova York se correlaciona com a métrica Streetscore mais alta dos setores censitários, indicando que as políticas de preservação estão protegendo áreas que as pessoas consideram mais esteticamente atraentes.

Harvey et al. (2015) relacionam a segurança percebida a construções arquitetônicas e mostram que, em Nova York e Boston, ruas estreitas com alta densidade de edifícios são percebidas como mais seguras do que ruas mais largas com poucos edifícios. Glaeser et al. (2015) demonstram que a aparência visual de um bairro é um proxy adequado para a renda do bairro.

DADOS E MÉTODOS

O algoritmo possibilita prever a segurança percebida usando técnicas de “training data” para ensinar modelos de inteligência artificial a tomar decisões adequadas. Schechtner e Hidalgo (2013), uma pesquisa crowdsourced onde os participantes escolheram repetidamente imagens que respondiam à pergunta: "Qual lugar parece mais seguro?"
Essas imagens foram selecionadas aleatoriamente em Nova York, Boston, Linz e Salzburg.

O paper utilizou imagens para Boston e Nova York. Este conjunto de dados contém 4.109 imagens e 208.738 comparações de pares fornecidas por 7.872 participantes únicos de 91 países. Essas comparações atribuíram uma pontuação de segurança percebida entre 0 e 10 para cada imagem usando o algoritmo de classificação Trueskill (Naik et al. 2014). As imagens e suas pontuações Trueskill formaram o conjunto de dados para treinar o algoritmo para prever a segurança percebida de novas paisagens urbanas com base em recursos de imagem.

A pontuação da segurança percebida de uma imagem foi chamada de Streetscore. A inspeção visual mostra que a imagem típica de alta pontuação contém casas ou moradias e ruas arborizadas, enquanto a pontuação menor continha estacionamentos, ruas vazias e edifícios industriais.

A imagem será apresentada aqui.

Primeiro, foi utilizado o algoritmo de Layout Geométrico para classificar os pixels como pertencentes a uma das quatro categorias: “sky”, “buildings”, “trees” ou “ground”.
A seguir, foram extraídos três recursos de imagem diferentes separadamente para pixels em cada uma das quatro classes geométricas: histogramas Texton, histogramas de cores CIELAB 3D e GIST. De forma geral, cada imagem foi representada por um vetor de recursos que codifica suas texturas, cores e formas.

A imagem será apresentada aqui.

RESUMO SIMPLIFICADO DO PROCESSO

A imagem será apresentada aqui.

RESULTADOS GERAIS

O Streetscore médio aumenta com a densidade populacional. Essa descoberta sugere que a arquitetura de locais densamente povoados é percebida como mais segura do que a arquitetura de áreas urbanas mais esparsas. Isso está relacionado, mas não é idêntico à ideia de Jane Jacobs (1961) de "olhos na rua".

As imagens do Google Street View geralmente não são preenchidas (geralmente são capturadas no início da manhã). Portanto, a correlação observada é com a arquitetura do espaço, e não com a densidade de pessoas observada nas imagens do nível da rua - que é muito baixa em média.

Outros resultados estatisticamente robustos incluem uma forte relação entre melhor aparência urbana e maior renda dos residentes. Curiosamente, o Streetscore médio também está correlacionado com o índice de Gini, indicando que os setores censitários fisicamente atraentes também são mais desiguais em termos de distribuição de renda.
Foi observada uma correlação positiva e estatisticamente robusta com a educação universitária e a proporção de afro-americanos, indicando que bairros com grandes populações de afro-americanos têm maior percepção de segurança do ambiente físico, uma vez que os efeitos de outras características socioeconômicas são levados em consideração.

A variação na percepção de segurança dentro de um setor censitário aumenta significativamente com o aumento da desigualdade de renda, medida pelo índice de Gini. Isso indica que a desigualdade de renda e a desigualdade "visual" andam de mãos dadas, e que os mapas avaliativos produzidos pelo Streetscore podem ser usados para criar proxies para o nível de desigualdade de renda de um bairro ou cidade. Para o conjunto de dados avaliados, a aparência urbana média de um bairro tem uma forte correlação positiva com a renda e a densidade populacional.

A imagem será apresentada aqui.

CONSIDERAÇÕES FINAIS

Neste artigo, foi apresentado como técnicas de visão computacional são capazes de quantificar a aparência física das ruas. Essa técnica não se limita a estudos transversais da aparência urbana - ela também pode ser usada para estudar mudanças urbanas.

Em Naik et al. (2015), os autores medem a mudança urbana física calculando a diferença no Streetscores para imagens do mesmo local capturadas em 2007 e 2014. Esse método permite o estudo da conexão entre a mudança urbana física e as características socioeconômicas dos bairros. Os autores usam regressões espaciais para mostrar que os bairros que experimentam melhorias físicas são mais propensos a ser densamente povoados por pessoas com nível educacional maior.

Além das correlações, também seria possível usar Streetscores, junto com variáveis instrumentais ou choques exógenos - como a construção de vVLTs, ampliação de parques, para analisar o efeito causal dos gastos do governo com bens públicos nas mudanças físicas urbanas. Nesses casos, o algoritmo Streetscore pode fornecer uma estimativa precisa da mudança urbana física experimentada por um bairro após a intervenção.
Além disso, há potencial para o uso de imagens de rua no estudo da vida urbana em uma escala global com visão computacional. Só o Google fotografou mais de 3.000 cidades de 106 países na última década.

Algoritmos de visão computacional, portanto, podem se tornar uma ferramenta essencial para a realização de levantamentos automatizados recorrentes do ambiente de vida com baixo custo e alta resolução espacial.

Embora não tenha sido posspivel reproduzir os mesmos resultados obtidos no paper, tendo em vista a ausência dos dados e a discontinuidade do projeto, ao entrar em contato com um dos autores foi disponibilizado um link que contem o que ainda tem disponível de informações sobre o estudo.

O link é: https://centerforcollectivelearning.org/urbanperception

A partir das informações disponiveis, foi possível fazer uma análise para Boston e Salzburg, conforme código abaixo.

import pandas as pd
#manipulação dos dados
import seaborn as sns
#visualização
import matplotlib.pyplot as plt
import numpy as np
#matematicamente
In [2]:
data=pd.read_csv("Placepulse.csv")
data.head()
Out[2]:
    id  id_city lat lng id_location
0   1   Boston  42.3619 -71.0565    1
1   2   Boston  42.3638 -71.0630    2
2   3   Boston  42.3386 -71.0664    3
3   4   Boston  42.3495 -71.0746    4
4   5   Boston  42.3707 -71.0615    5
In [3]:
data.tail()
Out[3]:
    id  id_city lat lng id_location
4735    4935    Salzburg    47.79350    13.05633    2511
4736    4936    Salzburg    47.80583    13.05317    2614
4737    4937    Salzburg    47.80583    13.05317    2614
4738    4938    Salzburg    47.80583    13.05317    2614
4739    4939    Salzburg    47.80583    13.05317    2614
In [4]:
 data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4740 entries, 0 to 4739
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           4740 non-null   int64  
 1   id_city      4740 non-null   object 
 2   lat          4740 non-null   float64
 3   lng          4740 non-null   float64
 4   id_location  4740 non-null   int64  
dtypes: float64(2), int64(2), object(1)
memory usage: 185.3+ KB
In [5]:
data.dtypes
Out[5]:
id               int64
id_city         object
lat            float64
lng            float64
id_location      int64
dtype: object
In [6]:
 data.shape
Out[6]:
(4740, 5)
In [7]:
data.columns
Out[7]:
Index(['id', 'id_city', 'lat', 'lng', 'id_location'], dtype='object')
In [8]:
 data.isnull().sum()
Out[8]:
id             0
id_city        0
lat            0
lng            0
id_location    0
dtype: int64
Summary Statistics
data.describe()
In [14]:
data.describe()
Out[14]:
    id  lat lng id_location
count   4740.000000 4740.000000 4740.000000 4740.000000
mean    2494.288186 43.998395   -39.564043  1295.571941
std 1441.257344 3.414635    42.460562   804.041246
min 1.000000    40.575700   -74.040300  1.000000
25% 1210.750000 40.746750   -73.907275  618.750000
50% 2516.500000 42.351250   -71.080800  1212.500000
75% 3754.250000 48.172210   14.276542   1956.250000
max 4939.000000 52.126000   20.042500   2896.000000
In [15]:
data.hist()


Out[15]:
array([[<AxesSubplot:title={'center':'id'}>,
        <AxesSubplot:title={'center':'lat'}>],
       [<AxesSubplot:title={'center':'lng'}>,
        <AxesSubplot:title={'center':'id_location'}>]], dtype=object)

A imagem será apresentada aqui.

> Regression Analysis

lat=data['lat'] lng=data['lng'] plt.scatter(lat,lng,label="data") plt.title('lat vs lng') plt.ylabel('lng') plt.legend()
In [21]:
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
In [23]:
# coeltando X e Y
X = data['lat'].values
Y = data['lng'].values
In [26]:
mean_x = np.mean(X)
mean_y = np.mean(Y)
In [27]:
n = len(X)
In [29]:
numer = 0
denom = 0
for i in range(n):
    numer += (X[i] - mean_x) * (Y[i] - mean_y)
    denom += (X[i] - mean_x) ** 2
m = numer / denom
c = mean_y - (m * mean_x)

# Print coeficientes
print(m, c)
12.189983360363156 -575.9037478285267
In [31]:
# plotando valores das regressões

max_x = np.max(X) + 100
min_x = np.min(X) - 100
In [32]:
# calculando valores de x e y

x = np.linspace(min_x, max_x, 1000)
y = c + m * x 

In [34]:
# Ploting linha

plt.plot(x, y, color='#52b920', label='Regression Line')

# Plotando Scatter pontos
plt.scatter(X, Y, c='#ef4423', label='Scatter Plot')
plt.xlabel('lat')
plt.ylabel('lng')
plt.legend()
plt.show()

A imagem será apresentada aqui.

...