Pular para o conteúdo

Dados Semânticos e Padronização

O que são Dados Semânticos

Dados semânticos são dados estruturados para agregar significado aos dados. Isso é feito criando relações de dados entre as entidades de dados para dar verdade aos dados e a importância necessária para o consumo de dados. Os dados semânticos ajudam na manutenção da relação de consistência dos dados entre os dados.

Um data hub semântico permite que as organizações extraiam significado, relacionamentos e verdades entre todos os tipos de dados. Especialmente tecnologias emergentes, como machine learning e inteligência artificial, beneficiam-se de dados semânticos.

A criação de colaborações de dados usando uma abordagem semântica permite a transformação de dados em informações e informações em conhecimento para suporte ágil de decisões. Embora muitos aplicativos tentem fazer isso em seus universos fechados, é possível agregar muito mais valor e escalar a implementação de soluções mudando essa implementação para uma camada de dados independente, que apoie o gerenciamento de dados e permita a conversão de conteúdo jurídico para o formato digital de maneira muito mais rápida.

Como funcionam os dados semânticos?

Um modelo de dados semântico funciona basicamente criando relações entre dados quando esses dados são organizados. Isso permite que os dados passem a ter significado sem intervenção humana ou processamento adicional por outros sistemas.

Os dados são organizados em três partes essenciais, ou triplas: (a) o primeiro elemento de dados ou objeto; (b) o relacionamento, em seguida, (c) o segundo elemento de dados ou objeto.

Sistemas de gerenciamento de banco de dados que seguem um modelo de dados semânticos podem ser facilmente integrados e comparados entre si para maiores informações relacionadas aos dados.

A construção de um modelo de dados semântico começa com a compreensão do resultado das perguntas que precisam ser respondidas para as decisões necessárias, seja ela o processamento de inputs para construção de um documento, a avaliação das condições de um caso para decisão sobre a distribuição e execução de tarefas, ou ainda a análise dos dados para definição de estratégias a serem adotadas.

Modelo de dados semântico vs. modelo de dados relacionais

A diferença mais significativa entre um modelo de dados semântico e um modelo de dados relacionais é como eles são construídos. O modelo de dados relacionais é construído utilizando-se relações entre tabelas, colunas e linhas no banco de dados. Embora as associações sejam feitas em um modelo de dados relacionais, é necessário consultas para descobrir a relação de um elemento de dados com outro.

Em um modelo de dados semântico, os significados dos dados são descritos como relacionados a uma interpretação do mundo real de como os dados são usados. O modelo semântico é derivado de fatos e verdades do que um modelo relacional sem ter que consultar a verdade.

A principal desvantagem de usar um modelo de dados relacional é a dificuldade de estabelecer todas as hierarquias e relações entre as tabelas e elementos. Não é “à prova de futuro”, tornando-se difícil de ajustar ao constante entendimento de um problema ou mesmo à mudança dos parâmetros de uma determinada solução.

Por outro lado, a adoção de um modelo semântico “puro” também é muito difícil, pois dificulta muito a implementação prática de diversas soluções, como por exemplo busca e recuperação de dados, distribuição de bancos de dados e escalabilidade de soluções, implementações de segmentos de um problema maior etc.

Atualmente, a infraestrutura computacional permite a adoção de soluções híbridas, para que o desenvolvedor possa organizar parte dos dados de maneira relacional e parte de maneira semântica. A forma como fazemos isso na Looplex é com a adoção de um modelo relacional que utiliza um modelo semântico de referência em sua implementação.

Gestão do conhecimento e gargalos resolvidos com o uso de um modelo

semântico de referência

Os dados e elementos de um processo de negócios ou conteúdo jurídico vem de várias fontes invariavelmente não estruturadas (muitas delas implícitas e não formalizadas) ou, se estruturados, não contém um padrão de estruturação universal.

Porém, mesmo adotando uma metodologia unificada de gestão de conhecimento jurídico para transformação digital, um problema comum encontrado em inúmeros projetos passados de estruturação para automação do Direito é a disponibilidade desses requisitos detalhados dos dados.

A análise de processos de mapeamento de engenharia jurídica demandavam a necessidade de identificação e declaração, caso a caso, de todos os requisitos e entidades operativas.

No entanto, identificar os detalhes desses tipos e entidades pode ser difícil, estendendo muito o tempo de interação com os especialistas do lado dos nossos clientes, bem como uma impossibilidade de escalar esses conceitos, na medida em que cada vez mais engenheiros jurídicos se deparavam com novos desafios.

Para solucionar isso, é necessário progressivamente mapear e conectar os tipos padronizados que se repetem em diversos conteúdos e fluxos a um modelo semântico representativo daquele objeto jurídico. Especificamente, mostrou-se necessário referenciar as cláusulas, teses, partes de um negócio e outros elementos a:

  • Um modelo conceitual estruturado;

  • Um glossário estruturado simplificado que relacionasse o elemento uma classificação mais abstrata

O principal objetivo do uso dessa referência semântica é usar essa definição para se comunicar dentro da organização, particularmente entre os analistas e engenheiros jurídicos que (a) mapeiam e convertem conteúdo jurídico analógico para uma solução de construção automatizada (document assembler); (b) lidam com o armazenamento de dados operacional (ODS) ou projetos conectados um data warehouse (warehouse-oriented projects) por não terem todos os seus elementos já previamente estruturados; e (c) lidam com fluxos de trabalho para automação da execução de operações ligadas a um contrato inteligente ou a um caso ou disputa (LegalOps e execução algorítmica de um contrato).

Dessa maneira, é possível integrar a experiência de execução de um serviço jurídico de ponta-a-ponta, sem precisar construir essas integrações de BI, fluxos de conteúdo em cada caso isoladamente. E sem contar que novos projetos chegam com uma quantidade crescente de elementos já mapeados, permitindo uma construção componentizada de conteúdo.

Tal modelo semântico de referência pode atuar como uma ponte eficiente, independente da sintaxe da Modelagem Unificada (UML) e da Modelagem de Relacionamento -Entidade (ER) de cada problema específico enfrentado.