L’ontologie en traduction financière

Pour notre étude, nous avons utilisé l’ontologie financière UK GAAP1, préparée par le XBRL2 European Groupe de travail sur les registres d’entreprises (xEBR). Cette ontologie financière est un cadre de description la comptabilité financière et les informations de profil des entités commerciales à travers l’Europe; Voir aussi Declerck et al. (2010). L’ontologie contient 142 concepts et est partiellement alignée en allemand, néerlandais, espagnol, Français et italien. Nous avons identifié seulement 16 termes financiers anglais et leurs équivalents allemands, qui ont été utilisés comme traductions de référence pour l’évaluation automatique.
Les termes financiers ne sont pas vraiment des termes d’un point de vue linguistique, mais ils sont utilisés ou des rapports de comptabilité comme des expressions financières uniques ou des balises pour organiser et récupérer automatiquement informations rapportées. Par conséquent, il est important de traduire ces conditions financières exactement. Il est évident qu’ils ne sont pas comparables au langage général, mais plutôt ressemblent plus à des titres dans les journaux, souvent courts, très instructifs et écrits dans un style télégraphique. Les termes ne sont souvent que des expressions nominales sans aucun déterminant. La durée des conditions financières varie, par exemple le plus long terme financier considéré pour la traduction a une longueur de 11 jetons, tandis que d’autres peuvent composé de 1 ou 2 GAAP – Pratique comptable généralement acceptée

Exemples de durée

11 Taxes La rémunération et la sécurité sociale payables après plus d’un an
10 Montants dus aux établissements de crédit après plus d’un an. . .
. . .
2 Chiffre d’affaires net, Liquidités, Impôts sur le résultat, Charges financières. . .
1 Actif, Capital, Capitaux propres, Valeurs mobilières, Charges, Solde, Capital, Réserves. . .
Longueur d’une étiquette

Acquis du JRC

Le corpus parallèle général JRC-Acquis3 a été utilisé comme données d’entraînement de base. Ce corpus est disponible dans presque toutes les langues officielles de l’UE (sauf l’irlandais) et constitue une collection de textes législatifs entre 1950 et maintenant.
Bien que la recherche précédente ait montré qu’un modèle de formation construit en utilisant une ressource générale ne peut pas être utilisé pour traduire des termes spécifiques au domaine (Wu et al., 2008), nous avons décidé d’évaluer les traductions financières sur ces ressources pour illustrer les étapes d’amélioration d’une ressource générale au domaine spécialisé
Ressources.

Corpus de la Banque centrale européenne

Pour comparaison avec le CCR-Acquis, nous avons également fait des expériences en utilisant la Banque centrale européenne, qui contient un vocabulaire financier. Le corpus multilingue est généré en extrayant le site web et la documentation de la Banque centrale européenne et est aligné sur 19 langues. Pour notre recherche, nous avons utilisé la paire de langues anglais-allemand, qui comprend 113 171 paires de phrases ou 2,8 millions d’anglais et 2,5 millions de jetons allemands.

Dictionnaire et moteur de recherche de traduction

Parallèlement à ces ressources existantes, nous avons construit une nouvelle ressource parallèle basée sur le vocabulaire ontologique que nous voulons traduire. Par conséquent, nous avons utilisé Linguee, une combinaison d’un dictionnaire et une recherche moteur, qui indexe environ 100 millions de textes bilingues sur les mots et les expressions. La recherche sur les résultats montrent des exemples de phrases qui montrent comment l’expression recherchée a été traduite à partir du contexte. L’ensemble de données bilingue a été recueilli sur le Web, en particulier à partir de sites Web multilingues d’entreprises, d’organisations ou d’universités.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *