sábado, 14 de novembro de 2009

Metadata, parte 2: o que catalogar e não catalogar?

Noches, meus queridos leitores.

Continuaremos falando sobre metadata.

Como os metadados devem ser coletados? Qual é o grau de padronização destes elementos? Quem deve coletar estes dados? O produtor dos dados? O usuário final? Ou alguém entre os dois?

Existem diversos debates sobre como estes procedimentos devem ocorrer, mas de forma geral, os metadados são coletados com uma relação 1:1. Um dataset, ou um conjunto de feições deve ter, obrigatoriamente um registro nos metadados. Mas como definimos o que é um conjunto?

Para responder esta pergunta, primeiramente precisamos analisar o que iremos documentar. São uma série de fotografia pertencentes à um artigo? Ou é uma série de fotografias pertencentes à diversos artigos, relacionados pelo tema? É uma imagem de satélite, um mosaico ou um conjunto de relatórios gerenciais, com mês, escopo e informações correlacionadas?

Bem, após identificarmos o objeto (ou conjunto de objetos) devemos definir uma raiz comum aos mesmos. Podemos criar metadados para diversos níveis de informações: uma imagem bruta de satélite, um mosaico de imagens, um conjunto de vetores específico e até mesmo feições específicas. Perceba, que conforme especializamos a coleta de metadados, o número de informações também aumenta, por devemos manter a relação 1:1 mencionada acima. Um objeto (seja ele um conjunto de outros objetos) deve ter seus registros de metadados, e isto deve ser aplicado à todos os registros de suas bases.

Não adianta nada documentarmos determinados objetos em um nível e outros não. Seria como (no exemplo da Biblioteca Nacional, do post anterior) ter 1000 caixas com livros diversos e apenas 100 delas descritas no conteúdo.

Este planejamento é importante, pois não queremos informação demais, nem de menos. Informação, na verdade, nunca é demais, mas o custo para a criação de metadados muito detalhados é muito mais caro. Deve existir um balanço entre o que documentar, e o que não documentar.

Na prática, a maior parte dos dados é coletado no nível de datasets, ou seja, no conjunto, e não na particularidade. Um conjunto de imagens SRTM não devem ser catalogadas individualmente (existem dados interessantes para catalogarmos, como a altitude mínima e máxima, coordenadas geográficas, entre outros), mas sim no conjunto de processamento.

Caso os dados SRTM seja processados (interpolados, por exemplo), deve se criar um novo dataset, e catalogá-lo à partir daí.

Agora, quem deve catalogar os dados? O produtor dos dados? O usuário final?

É outra briga de muitas perspectivas. O produtor dos dados, obviamente deve realizar um cadastro minucioso dos processos utilizados para gerar aquela informação. Mas o usuário final, o indivíduo que requisitou aquela informação, tem a capacidade de complementar os metadados, já que somente ele sabe como aqueles dados serão efetivamente utilizados.

Criar metadados é bem parecido com catalogar livros em uma biblioteca. Quem deve realizar este procedimento dentro de sua empresa? Uma pessoal especialmente contratada para isto? (bem, é forçar um pouco a barra, já que muito poucas empresas darão um braço à torcer para um funcionário extra, só para catalogar "mapinhas"). Em geral, os próprios analistas devem catalogar seus dados, mas a maioria dos profissionais pode chiar, alegando que:
  • É muito difícil produzir metadados;
  • Não veêm os benefícios dos metadados;
  • Não existe tempo suficiente para a produção dos metadados;
Bem, todos os casos acima são argumentos razoavelmente válidos, mas facilmente desmantelados por um profissional com conhecimento técnico, pois:
  • Produzir metadados exige cuidado e paciência. Mas não é um procedimento difícil. É trabalhoso.
  • Quando sua base de dados chegar a uma centena de datasets, ele irá pedir tempo para criar os metadados. Bases de médio porte, com centenas de datasets não são incomuns.
  • Um pouquinho de tempo por dia, vinte minutos, meia hora por dia é suficiente para uma pequena equipe atualizar todo o cadastro de metadados de uma base razoavelmente grande. Será que a perda de tempo de um dia inteiro na criação dos metadados para um dataset coletado ao longo de diversos meses é realmente uma perda de tempo? Com certeza não é.
Claro, coletar uma quantidade muito grande de metadados ao mesmo tempo pode ser enfadonho e moroso, portanto o ideal é coletar os metadados aos poucos, conforme os dados são produzidos/inseridos dentro do banco de dados.

Certo, certo, mas qual é a forma de criar e manter um catálogo de metadados para seus dados geográficos? Isto depende de alguns fatores: tamanho da organização, tamanho e diversidade dos dados geográficos e basicamente de gerência departamental.

Pode-se começar de forma pequena, utilizando pequenos documentos formato texto ou utilizar XML. Atualmente existem diversos padrões (falaremos deles depois) que podem ser seguidos, que auxiliam o usuário a criar seus metadados. A maioria dos programas de GIS possuem módulos específicos para a criação e manutenção dos metadados. O ArcGIS possui um módulo embutido no ArcCatalog. Para os utilizadores OpenSource, ou quem não gosta do administrador de metadados do ArcGIS/outros programas proprietários podem utilizar o GeoNetwork, um programa desenhado especificamente para este propósito.

Outros caminhos para o armazenamento dos metadados é o uso de um banco de dados ou arquivos estruturados em XML, que é a maneira mais comum atualmente. Somente grandes sistemas e organizações conseguem migrar todos os metadados para um ambiente relacional, mas não deveria ser assim. Aplicações tem de ser desenvolvidas para suprir essa deficiência. Algumas, como o GeoNetwork já existem.

Duas dicas importantes:
  • Não invente seu próprio modelo de metadados (já existem vários! um deve servir para você. reiventar a roda é (na maioria dos casos) perda de tempo)
  • Não confunda a apresentação dos metadados com os metadados. Como já diziam, uma coisa é uma coisa, e outra coisa é outra coisa. A capacidade de traduzir os dados brutos em informação real (como relatórios de "estoque" de dados geográficos) é vital para o sucesso dos metadados.
Esta, como disse, é uma discussão praticamente sem fim, pois através dos metadados podemos simplificar de forma exponencial o trabalho e os retrabalhos com nossos dados espaciais. Buscar dados existentes (especialmente em grandes organizações), catalogar as novas informações e publicar isto aos usuários dá agilidade, confiança e principalmente economia de recursos (humanos e capital financeiro).

Na próxima ediçao, padrões de metadados.

Abraços

quarta-feira, 11 de novembro de 2009

Metadata: uma pequena introdução e comentários aleatórios

Boa noite pessoal,

Conforme solicitado pelo nosso amigo Anderson, um post (ou uma série) sobre metadata.

Comecemos pelo começo: o que é metadata. Do mesmo jeito que nossa professora de quarta série nos ensinou que "geografia": geo - terra, grafia - escrita, descrição, era o estudo e descrição da Terra, seus habitantes e fenômenos.

Vamos começar pela etimologia da palavra: metadata, metadados, conforme preferirem. Do dicionário online de Etimologia:

meta- 1: atrás; 2: alterado; 3: maior, além; 4: no meio, entre, com sujeito (ah, tudo isso vem do grego)

meta + data(dado) = dado alterado, modificado? dado...por trás do dado?

Metadata ou metadados significa isto, dados dos dados. Informações sobre os dados.

Certo, mas pra que quero mais informação? Dados sobre os dados? Ah sim, é uma pergunta comum. Bem, vou tentar explicar por que os metadados são importantes.

Primeiramente, eles descrevem os dados para você, sem que você tenha que olhar o que cada um é, um por um. Só nessa temos uma grande vantagem. Ao invés de procurar todos os seus dados, procuramos no metadata, no catálogo. Ah, então os metadados são catálogos? Quase isso. O catálogo é uma coleção de metadados.

Um exemplo comum de metadados são as etiquetas de um livro, na biblioteca. Eles descrevem o assunto, categorizam o livro, título, autor, edição, entre outras informações importantes. Outro exemplo de metadados:

 

Como informação/conhecimento é poder, conhecer seus dados é poder. Atualmente, todos nós geramos imensas quantidades de informação e dados. Certo, mas do que adianta possuir a Biblioteca Nacional em casa se todos os livros estão em caixas? Como achar o livro que você precisa, na caixa certa, no momento certo?
Sem um sistema de catálogo, sem os metadados organizados, achar este determinado livro não é possível. Não sem abrir todas as caixas :D.

Outra coisa, metadado é contexto. Dados sem contexto não tem nem a metade do valor de dados contextualizados. A documentação de como aquele dado foi obtido, produzido, processado, armazenado é extremamente valiosa, e sem ela, podemos inviabilizar quaisquer possibilidade do uso das informações.

Imagine a seguinte tabela:

LINHA | NOME | TIPO | LARGURA

Estamos falando de estradas, rios e córregos, sistemas de transmissão de energia (ah, ontem acabou a luz no Brasil inteiro, vocês viram?) ou logradouros? Estamos falando de metros, kilometros, centímetros? Claro que este é um exemplo bobo, mas imagine um sistema gigantesco, com milhares e milhares de tabelas, shapefiles, arquivos (vetoriais ou raster) e uma estrutura de armazenamento ambígua. Como faríamos?

Acho que deu para entender né?

Certo, eu te convenci? Ainda não? Certo. Então vamos levar a idéia para todo um contexto geotecnológico. Para o SIG/GIS.

Por que utilizar metadados junto com seus dados espaciais?
  • Ajuda na organização (estruturada) dos dados;
  • Evita duplicação de dados;
  • Usuários podem localizar se determinado dado existe, para determinada região. De forma rápida.
  • Auxilia e promove procedimentos gerenciais sobre os dados.
Em minha opinião, a parte mais importante do uso dos metadados é ter conhecimento do existe disponível, da qualidade, da escala apropriada, da data de levantamento. Os metadados permitem à você usuário determinar se algo serve para você ou não. Evita perda de tempo e claro, tempo é $$$.

Além disso, os metadados agregam valor aos seus dados geográficos. Ele pode ser procurado, encontrado e quem sabé até comprado por alguém?

Agora vamos tentar nos aprofundar um cadinho nos metadados. Existem basicamente três tipos de metadados, a citar: Discovery Metadata, Exploration Metadata e Exploitation Metadata. (isso de acordo com o pessoal do FGDC - visitem o site, tem muita coisa legal, inclusive dois livrinhos interessantes, um sobre metadata e o outro sobre Spatial Data Infrastructure)

Discovery Metadata: este tipo de metadata é o mais básico, e vai lhe dizer o que existe em determinada região e em qual dataset procurar. É nesta seção dos metadados que perguntamos as famosas:
  • O que?
  • Por que?
  • Quando?
  • Quem?
  • Onde?
  • Como?
Uma dica: este tipo de metadados é muito útil para se descrever uma coleção de dados. Uma série de mapas (humn, alguém já pensou em metadata para mapas ou coleções de mapas? Daniel S., lembra da idéia que te falei outro dia?)

Exploration Metadata: este tipo de metadado já um pouco mais complexo e lhe diz quais são as informações que cada dataset armazena, como as armazena. Este tipo ou nível é importante, pois lhe diz se o tipo de dados contidos em um tema podem contribuir com suas análises.
Exemplo: você quer realizar uma análise de rede em uma bacia hidrográfica. Mas e se o dataset for de polígonos?

Com o uso dos metadados exploratórios podemos assumir algumas proposições, especialmente se algum dado é adequado ou não para determinado propósito. Aqui conseguimos detalhes, informações armazenadas, tipo de armazenamento, formato, etc.

Exploitation Metadata: ah, este aqui é especial. Embora não seja diretamente relacionado com o uso imeadiato de um conjunto de dados, ele é crucial. Este tipo de metadados irá lhe dizer como os dados foram obtidos, à quais propósitos podem servir, limitações (técnicas, éticas, comerciais, judiciais), entre outros.

Este tipo de metadados também, é crucial: ele nos diz como acessar, transferir, carregar, interpretar, e utilizar os dados pelo usuário final. Seja para fazer mapas, seja para realizar cálculos complexos de um índice doido por aí. Aqui incluímos detalhes do dicionário de dados, organização dos dados, projeção, características geométricas, entre outros.

Se algum de vocês já olhou o esquema de metadados existente no ArcGIS (ele está conforme ao padrão do FGDC), pode notar que existem informações que as vezes se repetem. Sim, existe um certo nível de sobreposição entre os três tipos de metadados citados acima, mas cada um deve estudar e ver até onde é benéfico o preenchimento destes dados. Além disso, os tipos de metadados são complementares. Ou seja, quanto mais informações você tiver sobre os seus dados, melhor poderá organizá-los, achá-los mais rapidamente e utilizá-los de forma adequada.

Conforme prometi, esta seria uma introdução com comentários aleatórios sobre metadados. Por hoje é só. Mas prometo que voltaremos nesta discussão, por dois motivos: ela não só é interessante, como é extremamente necessária. Como de praxe, uma perguntinha: quantos de vocês utilizam diariamente os metadados? Seja procurando (sabia que o ArcCatalog tem uma caixinha de busca, e ela olha os metadados de cada arquivinho shape/geodatabase que você possui?) dados ou seja preenchendo a fichinha padrão dos metadados?

Um abraço

George

segunda-feira, 9 de novembro de 2009

O corpo de conhecimento das Geotecnologias e a Geografia. Qual o real significado de uma para a outra?

Buenas noches a todos!

E aí pessoal, como anda a vida? Bem estou em São Paulo e estava lendo um post da lista de discussão da OSGeo. O post estava falando sobre o estabelecimento de um currículo "padrão" para cursos de Geographic Information Science e relacionados. Um equivalente no Brasil seria o curso de técnologo em Geoprocessamento, oferecido por alguns CEFETs (GO, PB, etc).

Bem, o post no final das contas, apontava dois links. Um para a certificação GISP (GIS Professional) e o outro se referia à um livro, editado pela AAG (Association of American Geographers), contendo as bases de formação para um profissional/pesquisador da área.

Bem, um sumário do livro pode ser encontrado aqui. O livro cobre uma diversidade de questões sobre o ensino e pesquisa em Geotecnologias. Eu até pedi uma cópia, por módicas U$25,00 doletas. Deve chegar em um mês.

Mas o mais interessante disso tudo, é um PDFzinho que fizeram, como um "apanhado" geral, de tudo relatado no livro.

Vejam a quantidade de coisas no sumário. Para quem está com preguiça de ver o PDF, vou listar aqui somente os principais tópicos listados:

  • Analytical Methods
    • Academic and analytical origins
    • Query Operations and Query Languages
    • Geometric Measures
    • Basic Analytical Operations
    • Basic Analytical Methods
    • Analysis of Surfaces
    • Spatial Statistics
    • Geostatistics
    • Spatial regression and econometrics
    • Data Mining
    • Network Analysis
    • Optimization and location-allocation modeling
  • Cartography and Visualization
    • History and trends
    • Data considerations
    • Principles of map design
    • Graphic representation techniques
    • Map production
    • Map use and evaluation
  • Design Aspects
    • The scope of GIS&T system design
    • Project definition
    • Resource Planning
    • Database design
    • Analysis Design
    • Application Design
    • System implementation
  • Conceptual Foundations
    • Philosofical Foundations
    • Cognitive and social foundations
    • Domains of Geographic Information
    • Elements of Geographic Information
    • Relationships
    • Imperfections in Geographic Information
  • Data Modelling
    • Basic storage and retrieval structures
    • Database management systems
    • Tesselation Data Models
    • Vector and object data models
    • Modeling 3d, uncertain and temporal phenomena
  • Data Manipulation
    • Representation Transformation
    • Generalization and Aggregation
    • Transactional Management
  • GIS&T and Society
    • Legal aspects
    • Economic aspects
    • Use of geospatial information in the public sector
    • Geospatial information as property
    • Dissemination of geospatial information
    • Ethical aspects
    • Critical GIS
  • Geocomputation
    • Emergece of geocomputation
    • Computacional aspects and neurocomputing
    • Cellular automata
    • Heuristics
    • Genetic algorithms
    • Agent-based models
    • Simulation modeling
    • Uncertainty
    • Fuzzy sets
  • Geospatial Data
    • Earth geometry
    • Land partitioning systems
    • Georeferencig systems
    • Datums
    • Map projections
    • Data qualitiy
    • Land surveying and GNSS
    • Digitizing
    • Field data collection
    • Aerial Imaging and Photogrammetry
    • Satellite and shipboard remote sensing
    • Metadata, standarts and infrastructures
  • Organizational & Institutional Aspects
    • Origins of GIS&T
    • Managing the GI system operations and infrastructure
    • GIST&T workforce themes
    • Institutional and inter-institutional aspects
UFA! Quanta coisa. Cada tópico destes contém um ou mais subtópicos. Vocês podem imaginar que um profissional na área de Geotecnologias consiga dominar (de forma razoável) 90% desta lista?

Existem coisas nesta lista que a maioria de nós, nunca ouviu e talvez nunca nem ouvirá falar. Simulações e Cellular-Automata pode ser uma delas. Bem, como podemos ver é um currículo bastante extenso e completo.

Agora, fica a pergunta: qual é a instituição de ensino, no Brasil, que consegue mostrar a seus alunos, todo este conteúdo? A Geografia, consegue, em partes (muito pequenas) falar de modelos, simulação, análise espacial, entre outros. Peca em diversos outros temas. As faculdades de agrimensura tocam na superfície da maior parte destes assuntos, e priorizam outros. A engenharia cartográfica pode ser a mais completa delas, mas também duvido que consiga, de forma consistente, aplicar toda este rol de matérias, mas peca também, em alguns tópicos sobre análises.

Dos 10 tópicos principais, quais vocês acreditam ser de maior importância ao profissional de Geotecnologias? Se alguém, dizer que domina nove destes assuntos, por favor, me mande seu currículo Latters (no email mesmo) e me conte, por favor, como você fez um pacto com o outro lado.

Agora, para os geógrafos: deêm uma olhada no site da AAG. Deêm uma passeada. Olhem os sumários dos journals e periódicos. Agora entre neste site. Por que temos aqui no Brasil, uma associação tão fraca e que privilegia tão pouco as Geotecnologias?

Só de prestar atenção ao site da AAG, podemos notar que eles realmente conseguem trabalhar com uma única Geografia. Ao meu ver, não existe preconceito da parte dos geógrafos "humanos" com o trabalho da geografia física (no Brasil)?

Logo de cara, quem faz Geografia Física já não seria um positivista, e portanto, um "vendido" por tabela? Somente a Geografia Crítica, a Geografia Marxista e a Geografia do Strogonoff têm seu lugar ao sol? Será que a matemática, a estatística, a análise espacial e as geotecnologias, estejam assim, tão erradas?

Em um momento de muita discussão sobre o lugar da Geografia Física no Brasil, o que podemos tirar deste exemplo?

Só para lembrar: quem fez este currículo (citado acima) não foram os cientistas da computação, nem os "nerds" do sistemas de informação. Foram geógrafos. 


Agora, uma proposta minha: vou tentar pegar um assunto listado acima, e aprofundá-lo. Seja análise espacial, seja modelagem de dados, seja geocomputação. Vou escolher (vocês tem liberdade para escolher, opinar e me mandar...catar coquinho) e tentar destrinchar algumas coisas sobre um tópico em específico. Se fizer sucesso, tentaremos outro e assim por diante.

Um último pedido: se formos discutir geografia, fiquem à vontade. Discussão é saudável e faz bem. Irracionalidade, ofensas pessoais e outras coisas de desinteresse público não são necessárias. Explique seu ponto de vista e assim que possível, continuaremos o debate.

Um abraço,

George