O repositório ipa-dict disponibiliza listas de palavras monolíngues acompanhadas de suas respectivas transcrições no Alfabeto Fonético Internacional (IPA). Com suporte a mais de 20 idiomas e dialetos, a ferramenta é ideal para desenvolvedores de aplicativos de idiomas, linguistas e entusiastas de fonética.
Principais Características
- Abrangência Linguística: Inclui dados para idiomas como inglês, mandarim, francês, japonês e coreano, abrangendo variações regionais.
- Cobertura Morfológica: Contém pronúncias para todas as formas flexionadas, como conjugações verbais e plurais.
- Formatos Flexíveis: Os dados estão disponíveis em JSON, XML, CSV e arquivos de texto separados por tabulação.
- Confiabilidade: As transcrições são geradas de forma seemi-automática e revisadas manualmente.
Idiomas Disponíveis
| Idioma | Código do Arquivo | Descrição |
|---|---|---|
| Inglês (EUA) | en_US.txt | Sotaque americano geral |
| Inglês (Reino Unido) | en_UK.txt | Pronúncia britânica padrão |
| Mandarim (Simplificado) | zh_hans.txt | Pronúncia do mandarim padrão |
| Mandarim (Tradicional) | zh_hant.txt | Pronúncia tradicional |
| França | fr_FR.txt | Fonética do francês padrão |
| Japonês | ja.txt | Fonética japonesa padrão |
| Coreano | ko.txt | Fonética coreana padrão |
Implementação e Uso
Para obter os dados localmente, basta clonar o repositório de origem:
git clone https://github.com/open-dict-ipa/ipa-dict.git
A estrutura primária dos arquivos de texto utiliza a tabulação para separar o vocábulo de sua transcrição fonética. Abaixo está um exemmplo de como os dados podem ser lidos programaticamente em Python, estruturando a lógica de parsing de forma diferente do uso direto de JSON:
import csv
def mapear_transcricoes(caminho_arquivo):
dicionario_fonetico = {}
with open(caminho_arquivo, 'r', encoding='utf-8') as arquivo:
leitor_tsv = csv.reader(arquivo, delimiter='\t')
for entrada in leitor_tsv:
if len(entrada) == 2:
palavra, fonema = entrada
dicionario_fonetico[palavra] = fonema
return dicionario_fonetico
# Exemplo de uso prático
vocabulario_ipa = mapear_transcricoes('data/pt_BR.txt')
termo_alvo = "exemplo"
print(vocabulario_ipa.get(termo_alvo, "Transcrição não encontrada"))
Casos de Uso
- Aplicativos de Aprendizado de Idiomas: Integração de dados de pronúncia exatos para feedback aos usuários.
- Pesquisa Linguística: Análise comparativa de fonemas entre diferentes línguas ou variações dialetais.
- Desenvolvimento de Dicionários: Fonte primária para a inclusão automática de transcrições em projetos lexicográficos digitais.