Aplicação Empresarial RexUniNLU: Extração de Informações de Currículos Profissionais

Aplicação Empressarial RexUniNLU: Extração de Informações de Currículos Profissionais

Durante a temporada de recrutamento, os departamentos de RH são inundados por currículos. Cada currículo pode ter de duas a três páginas, e o processo manual de triagem e inserção de dados é demorado e propenso a erros. Quando se trata de identificar rapidamente candidatos que atendem a critérios específicos (como "experiência mínima de 5 anos em backend Java, familiaridade com arquitetura de microserviços e experiência em projetos de comércio eletrônico"), as buscas por palavras-chave tradicionais frequentemente não são suficientemente precisas, resultando em perda de informações relevantes.

Existe uma maneira de permitir que as máquinas "compreendam" currículos como seres humanos, extraindo automaticamente e com precisão informações estruturadas como formação acadêmica, experiência profissional, qualificações e projetos? Neste artigo, exploraremos como utilizar o Sistema Integrado de Análise de Linguagem Natural Chinesa RexUniNLU para construir um motor inteligente de análise de currículos, liberando os RHs de tarefas repetitivas.

1. Por que a análise de currículos é uma necessidade crítica para RH?

Antes de mergulhar nos detalhes técnicos, vamos examinar os desafios do processamento manual de currículos:

Baixa eficiência: A leitura média de um currículo leva vários minutos, e lidar com centenas ou milhares de currículos consome uma quantidade significativa de tempo.
Extração de informações não padronizada: Diferentes profissionais de RH podem interpretar e formatar da mesma forma experiências distintas, dificultando triagens e comparações posteriores.
Facilidade de perder informações cruciais: Os currículos possuem inúmeros formatos, e informações importantes (como uma habilidade específica e crítica) podem estar escondidas em parágrafos, passando despercebidas.
Dificuldade em análises aprofundadas: Por exemplo, tentar calcular o tempo médio de experiência dos candidatos em "computação em nuvem" ou identificar pessoas com habilidades simultâneas em "Python" e "aprendizado de máquina" é praticamente impossível manualmente.

O objetivo da análise inteligente de currículos é transformar automaticamente textos não estruturados em dados estruturados. Por exemplo, converter o seguinte texto:

"Desde julho de 2019, trabalho na Empresa Tecnológica XYZ como Engenheiro de Software Sênior. Responsável pelo design e desenvolvimento da arquitetura de microserviços do sistema central de transações da empresa, utilizando principalmente Java e Spring Cloud. Liderei a migração do sistema de arquitetura monolítica para microserviços, aumentando a capacidade de concorrência do sistema em 300%."

Em uma estrutura como:

{
  "experiencia_profissional": [{
    "nome_empresa": "Empresa Tecnológica XYZ",
    "cargo": "Engenheiro de Software Sênior",
    "periodo": "julho/2019 - presente",
    "responsabilidades": ["Responsável pelo design e desenvolvimento da arquitetura de microserviços do sistema central de transações", "Liderei a migração do sistema de arquitetura monolítica para microserviços"],
    "tecnologias_chave": ["Java", "Spring Cloud", "arquitetura de microserviços"],
    "resultados": "Aumento de 300% na capacidade de concorrência do sistema"
  }]
}

Com isso, temos uma base sólida para triagens, buscas, construção de bancos de talentos e análises futuras. E é exatamente aqui que o RexUniNLU se destaca como uma ferramenta poderosa.

2. RexUniNLU: Sua "faca suíça" de NLP com zero ou poucos exemplos

RexUniNLU não é um modelo único, mas sim um framework unificado de compreensão de linguagem natural baseado em DeBERTa Rex-UniNLU. Suas principais vantagens residem na capacidade de "unificação" e "entendimento com zero ou poucos exemplos".

2.1 Framework unificado, múltiplas tarefas integradas

Soluções tradicionais de NLP podem exigir a implantação de diferentes modelos para tarefas distintas como "reconhecimento de entidades", "extração de relações" e "extração de eventos", resultando em pipelines complexos e altos custos de manutenção. O RexUniNLU, através de uma arquitetura de modelo unificada, consegue processar até 11 tipos diferentes de tarefas de NLP, incluindo as essenciais para análise de currículos:

Reconhecimento de entidades nomeadas: Identificar entidades em currículos, como nomes de pessoas, instituições de ensino (Universidade de Xangai), nomes de empresas (Alibaba), cargos (Desenvolvedor Java), certificações (Certificação PMP) e habilidades (Python).
Extração de relações: Identificar relações entre entidades. Por exemplo, reconhecer que "João Silva" e "Universidade de Pequim" têm uma relação de "formado em"; que "Engenheiro Sênior" e "2018-2020" têm uma relação de "período de atuação".
Extração de eventos: Tratar um descritivo como um evento e extrair seus elementos. Por exemplo, extrair um "evento de projeto" com verbos de ação como "desenvolveu", "liderou", e papéis incluindo "nome do projeto", "função desempenhada", "tecnologias utilizadas" e "resultados alcançados".

Esta unidade significa que apenas precisamos implantar e manter um sistema RexUniNLU para obter um conjunto completo de capacidades de NLP, simplificando significativamente nossa pilha tecnológica.

2.2 Capacidade de entendimento com zero ou poucos exemplos

Esta é a característica mais atraente do RexUniNLU no contexto da análise de currículos. Modelos personalizados tradicionalmente exigem grandes volumes de dados de currículos já anotados (centenas ou milhares de currículos com entidades e relações marcados manualmente), o que é caro e demorado para treinar.

Por outro lado, o RexUniNLU, através de sua poderosa capacidade de compreensão semântica pré-treinada combinada com "prompts" ou definições de "Schema", pode realizar extração de novas áreas, entidades e relações sem ou com mínimos dados de treinamento. Isso é particularmente vantajoso para análise de currículos, pois:

Diversidade de formatos: Currículos de diferentes indústrias e países variam significativamente em estrutura.
Novas habilidades surgem constantemente: O campo tecnológico evolui rapidamente, e hoje podemos precisar analisar termos de habilidade recentes como "engenharia de prompts para modelos de linguagem grande".
Adaptação rápida a novos cargos: Quando uma empresa abre uma nova posição como "arquiteto de metaverso", a capacidade de analisar currículos relacionados imediatamente é crucial, sem esperar meses por um ciclo de treinamento de modelo.

Basta definir um Schema claro, informando ao modelo o que você está procurando, e ele, com base em sua profunda compreensão da língua, tentará encontrar as informações correspondentes no texto.

3. Prática em ação: Construindo um motor de análise de currículos em quatro passos

A seguir, usamos um exemplo de currículo de engenheiro de software para demonstrar como utilizar a interface interativa do Gradio do RexUniNLU para extrair informações passo a passo.

Considere o seguinte fragmento de currículo:

Maria Santos Telefone: 11-xxxx-xxxx | Email: maria.santos@email.com

Formação Acadêmica 2015.09 - 2019.06 Universidade de São Paulo Ciência da Computação Bacharelado Disciplinas principais: Estruturas de Dados, Sistemas Operacionais, Redes de Computadores.

Experiência Profissional 2021.03 - Atual Empresa de Tecnologia ABC Desenvolvedor Backend Sênior

Responsável pelo desenvolvimento e manutenção dos serviços backend do sistema de recomendação de vídeos, utilizando linguagem Go, processando centenas de bilhões de requisições diárias.

Liderou a implementação de service mesh (Istio) na equipe, reduzindo a latência entre chamadas de serviço. 2019.07 - 2021.02 Soluções Digitas BR Desenvolvedor de Software

Participou do desenvolvimento do sistema backend do WeChat Pay, responsável pelo módulo de contas, com proficiência em C++ e MySQL.

Projetos Otimização de Desempenho do Sistema de Recomendação de Vídeos (2022.05 - 2022.11)

Função: Desenvolvedor Principal

Descrição: Ao introduzir cache de dados quentes no Redis e otimizar consultas ao banco de dados, reduziu o tempo médio de resposta da API de 120ms para 45ms.

Tecnologias: Go, Redis, MySQL, Kubernetes

Habilidades e Certificações

Linguagens de Programação: Java (Avançado), Go (Intermediário), Python (Básico)

Frameworks: Spring Cloud, Gin

Certificações: Certificação Intermediária de Desenvolvedor de Software, AWS Certified Solutions Architect – Associate

3.1 Passo 1: Extração de entidades da formação acadêmica

A formação acadêmica geralmente contém entidades como tempo, instituição, curso e nível de escolaridade.

Seleção de tarefa: Na interface do RexUniNLU, escolha "Reconhecimento de Entidades Nomeadas".
Definição de Schema: Podemos usar diretamente as capacidades internas do modelo para reconhecer entidades gerais, como DATA (tempo) e ORG (organização - instituição de ensino). Para "curso" e "nível de escolaridade", podemos observar os resultados; o modelo geralmente identifica bem "Ciência da Computação" como área de curso e "Bacharelado" como nível de escolaridade. Se precisarmos de maior precisão, podemos usar extração de relações em etapas posteriores.
Texto de entrada: Cole o parágrafo de "Formação Acadêmica".
Resultado da análise: ``` { "saida": [ {"span": "2015.09 - 2019.06", "tipo": "DATA"}, {"span": "Universidade de São Paulo", "tipo": "ORG"}, {"span": "Ciência da Computação", "tipo": "HABILIDADE"}, // O modelo pode identificar como habilidade ou nome de curso {"span": "Bacharelado", "tipo": "GRAU"} // O modelo pode identificar como entidade de nível educacional ] }


Com o reconhecimento de entidades, extraímos inicialmente campos estruturados.

#### 3.2 Passo 2: Análise de eventos e relações na experiência profissional

A experiência profissional é mais complexa, contendo múltiplos "eventos de atuação", cada um com empresa, cargo, tempo, responsabilidades e outros atributos.

- **Seleção de tarefa**: Aqui, "**Extração de Eventos**" ou "**Extração de Relações**" são mais adequados.
- **Definição de Schema de Evento**: Definimos um "evento de atuação". ```
{
  "atuação": {
    "data_inicio": null,
    "data_fim": null,
    "empresa": null,
    "cargo": null,
    "responsabilidades": null
  }
}

Texto de entrada: Cole o parágrafo de "Experiência Profissional".
Resultado da análise: ``` { "saida": [{ "span": "trabalha", // ou "ocupou", termo de disparo encontrado pelo modelo "tipo": "atuação", "argumentos": [ {"span": "2021.03 - Atual", "tipo": "tempo"}, {"span": "Empresa de Tecnologia ABC", "tipo": "empresa"}, {"span": "Desenvolvedor Backend Sênior", "tipo": "cargo"}, {"span": "Responsável pelo desenvolvimento e manutenção...", "tipo": "responsabilidades"} ] }, { "span": "ocupou", // Segunda experiência "tipo": "atuação", "argumentos": [ {"span": "2019.07 - 2021.02", "tipo": "tempo"}, {"span": "Soluções Digitas BR", "tipo": "empresa"}, {"span": "Desenvolvedor de Software", "tipo": "cargo"}, {"span": "Participou do desenvolvimento do sistema...", "tipo": "responsabilidades"} ] }] }


Assim, estruturamos claramente as duas experiências profissionais. Podemos, adicionalmente, aplicar novamente **Reconhecimento de Entidades Nomeadas** ao campo "responsabilidades" para extrair termos como "linguagem Go", "service mesh (Istio)", "C++" e "MySQL" como **palavras-chave de habilidades**.

#### 3.3 Passo 3: Exploração de detalhes de projetos

A experiência em projetos é crucial para avaliar a capacidade de um engenheiro, exigindo extração de nome do projeto, função, tempo, descrição, tecnologias e resultados.

- **Seleção de tarefa**: Combinar "**Extração de Eventos**" (evento de projeto) e "**Extração de Relações**" (relação entre tecnologias e projetos).
- **Definição de Schema**: Definimos um "evento de projeto". ```
{
  "projeto": {
    "nome_projeto": null,
    "tempo": null,
    "funcao": null,
    "descricao": null,
    "tecnologias": null,
    "resultados": null
  }
}

Texto de entrada: Cole o parágrafo de "Projetos".
Resultado da análise: ``` { "saida": [{ "span": "otimização", "tipo": "projeto", "argumentos": [ {"span": "Otimização de Desempenho do Sistema de Recomendação de Vídeos", "tipo": "nome_projeto"}, {"span": "2022.05 - 2022.11", "tipo": "tempo"}, {"span": "Desenvolvedor Principal", "tipo": "funcao"}, {"span": "Ao introduzir cache de dados... reduziu para 45ms", "tipo": "descricao"}, {"span": "Go, Redis, MySQL, Kubernetes", "tipo": "tecnologias"}, {"span": "Reduziu o tempo médio de resposta de 120ms para 45ms", "tipo": "resultados"} ] }] }


O modelo bem-sucedidamente agregou informações dispersas nos itens da lista em uma estrutura de evento completa.

#### 3.4 Passo 4: Agregação e padronização de habilidades e certificações

A seção de habilidades geralmente é uma lista ou declaração simples, enquanto certificações têm nomes específicos.

- **Seleção de tarefa**: Usar principalmente "**Reconhecimento de Entidades Nomeadas**" para extrair nomes de habilidades e certificações.
- **Texto de entrada**: Cole o parágrafo de "Habilidades e Certificações".
- **Resultado da análise**: ```
{
  "saida": [
    {"span": "Java", "tipo": "HABILIDADE"},
    {"span": "Go", "tipo": "HABILIDADE"},
    {"span": "Python", "tipo": "HABILIDADE"},
    {"span": "Spring Cloud", "tipo": "HABILIDADE"},
    {"span": "Gin", "tipo": "HABILIDADE"},
    {"span": "Certificação Intermediária de Desenvolvedor de Software", "tipo": "CERTIFICACAO"},
    {"span": "AWS Certified Solutions Architect – Associate", "tipo": "CERTIFICACAO"}
  ]
}

Podemos usar "Classificação de Sentimento de Granularidade Fina" ou regras para associar termos de proficiência como "Avançado", "Intermediário", "Básico" às respectivas habilidades, formando pares {habilidade: nível_de_proficiência}.

Com esses quatro passos, transformamos com sucesso um currículo de texto não estruturado em um objeto de dados JSON estruturado, cobrindo todas as dimensões mais importantes para o RH.

4. Construindo aplicação empresarial: Da demonstração ao sistema

A demonstração acima mostra o processo de análise de um único currículo. Para construir uma aplicação empresarial, precisamos considerar os seguintes pontos:

Processamento em lote e automação: Empacotar o RexUniNLU como um serviço API (usando FastAPI, por exemplo), recebendo arquivos de currículo (PDF, Word, imagens que precisam primeiro passar por OCR), chamando ciclicamente as tarefas de NLP correspondentes para processamento em lote.
Design de Pipeline de Análise: Criar um pipeline de análise inteligente. Por exemplo: primeiro realizar reconhecimento de entidades gerais, então usar os títulos de seções como "Experiência Profissional", "Projetos" para dividir o texto em blocos, e aplicar extração de eventos com Schema personalizado para cada bloco.
Pós-processamento e padronização de resultados:

Normalização de nomes de empresas/instituições: Unificar "Empresa Tecnológica ABC", "ABC Tech" e "ABC Company" como "ABC".
Tagging de habilidades: Padronizar "Java", "JAVA", "java" como "Java"; "Spring Cloud", "SpringCloud", "spring cloud" como "SpringCloud".
Padronização de tempo: Converter "2021.03", "março de 2021", "Mar 2021" para "2021-03".

Integração com sistemas de recrutamento: Preencher automaticamente os campos correspondentes do sistema ATS (Sistema de Rastreamento de Candidatos) da empresa com os dados estruturados analisados, ou armazená-los em um banco de talentos, suportando busca avançada, correspondência inteligente e análise de perfis de candidatos.

5. Conclusão

Utilizar RexUniNLU para análise de currículos oferece benefícios que vão muito além da simples substituição de inserção manual de dados. Para as empresas, isso proporciona:

Aumento exponencial de eficiência: Processamento de dezenas ou centenas de currículos em minutos.
Base de dados para decisões de recrutamento: Com base em dados estruturados, é possível realizar triagens precisas de talentos ("encontrar todos os candidatos com experiência em projetos de comércio eletrônico e mais de 3 anos de Java"), análises competitivas ("tempo médio de troca de emprego de engenheiros Java no mercado atual").
Gestão inteligente do banco de talentos: Ativação de currículos inativos, permitindo rápida correspondência de candidatos potenciais do histórico de talentos quando novas posições são abertas.
Baixo custo de experimentação: Devido à capacidade de zero/poucos exemplos, as empresas podem rapidamente validar a eficácia da análise e, com base em características específicas de indústrias (como financeiro, saúde), ajustar o Schema com pequenos conjuntos de dados para obter modelos de alta precisão.

RexUniNLU funciona como um "assistente júnior de RH" incansável e com grande capacidade de aprendizado, responsável por extrair informações precisas de grandes volumes de texto, enquanto os profissionais de RH podem focar em julgamentos de maior valor, comunicação e tomada de decisão. Aplicar IA a tarefas repetitivas e altamente estruturadas de compreensão de texto está se tornando um passo crucial para empresas melhorarem sua eficiência operacional e competitividade.

Obtenha mais imagens de IA

Para explorar mais imagens de IA e cenários de aplicação, visite o CSDN Star Image Plaza, que oferece uma ampla variedade de imagens pré-configuradas, cobrindo inferência de grandes modelos, geração de imagens, geração de vídeo, ajuste fino de modelos e outros campos, com suporte para implantação com um clique.

Tags: Processamento de Linguagem Natural análise de currículos extração de entidades análise de eventos RexUniNLU

Publicado em 6-5 17:39

Doido Dev