Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Aujourd’hui — 6 mai 2024Actualités libres

Malgré la promesse de Xavier Niel, Free Mobile augmente le prix de son forfait 2€ boosté

6 mai 2024 à 15:23

Xavier Niel

L'option Booster du forfait Free 2€, habituellement proposée à 2,99 euros par mois, coûte désormais 4,99 euros. Free accompagne cette hausse des prix d'une augmentation de la quantité d'Internet disponible (20 Go). Xavier Niel avait pourtant promis qu'il ne toucherait pas à ce forfait phare.

Le très atypique smartphone Nothing Phone (2) baisse de prix pour les French Days

6 mai 2024 à 15:15

[Deal du Jour] Le Nothing Phone (2) est un smartphone pour le moins original, avec un dos transparent et des LED qui clignotent. En dehors de son style unique, c'est aussi un modèle performant qui devient plus intéressant pendant les French Days.

Pont du 8 mai : pourquoi les billets de train sont hors de prix

Par : Nelly Lesage
6 mai 2024 à 15:11

Le train est un mode de transport prisé des Français pour voyager lors de ce grand pont de l'Ascension, du 8 au 12 mai 2024. Les billets de TGV ont ouvert dès la fin du mois de janvier. Numerama a suivi, semaine après semaine, l'évolution de leur prix. Voici les résultats de cette enquête.

The 2023 FSF Free Software Awards

Par : corbet
6 mai 2024 à 14:55
The Free Software Foundation has announced the recipients of its 2023 Free Software Awards: Bruno Haible for work on gnulib, Nick Logozzo as the "outstanding new free software contributior", and code.gouv.fr for projects of social benefit.

When presenting the award to Haible, FSF executive director Zoë Kooyman commented on the significance of Haible's work, saying that Haible's work enabled free software programmers around the world to focus on the main, innovative portions of their program, thus facilitating the development of more and more free software.

Security updates for Monday

Par : jake
6 mai 2024 à 14:37
Security updates have been issued by Debian (glibc, intel-microcode, less, libkf5ksieve, and ruby3.1), Fedora (chromium, gdcm, httpd, and stalld), Gentoo (Apache Commons BCEL, borgmatic, Dalli, firefox, HTMLDOC, ImageMagick, MediaInfo, MediaInfoLib, MIT krb5, MPlayer, mujs, Pillow, Python, PyPy3, QtWebEngine, Setuptools, strongSwan, and systemd), Oracle (grub2 and shim), Red Hat (git-lfs, kpatch-patch, unbound, and varnish), and SUSE (avahi, grafana and mybatis, java-11-openjdk, java-17-openjdk, skopeo, SUSE Manager Client Tools, SUSE Manager Salt Bundle, and SUSE Manager Server 4.3).

Quand et où voir The Acolyte, la nouvelle série Star Wars, en streaming ?

the-acolyte

La diffusion de The Acolyte se rapproche. Située durant la Haute République, cette nouvelle série Star Wars racontera la résurgence du côté obscur.

Si vous êtes un cancre de la sécurité, Proton Pass vous le dira

6 mai 2024 à 13:17

Ducobu cancre

Proton Pass marche dans les pas de ses rivaux en ajoutant une option qui permet de connaitre l'état de ses mots de passe. Ils sont trop faibles ? Trop réutilisés ? Exposés sur Internet ? Privés de double authentification ? Vous connaitrez ainsi vos marges de progression pour faire mieux.

Vous avez fini Elden Ring ? C’est peut-être un problème

6 mai 2024 à 13:14

Quand on finit Elden Ring, on accède à ce qu'on appelle une « Nouvelle Partie Plus », c'est-à-dire le fait de lancer une nouvelle partie avec tout ce qu'on a déjà débloqué. Mais cela pose problème pour l'extension Shadow of the Erdtree.

Lettre d'information XMPP de février 2024

NdT — Ceci est une traduction de la lettre d’information publiée régulièrement par l’équipe de communication de la XSF, essayant de conserver les tournures de phrase et l’esprit de l’original. Elle est réalisée et publiée conjointement sur les sites XMPP.org, LinuxFr.org et JabberFR.org selon une procédure définie.

Bienvenue dans la lettre d’information XMPP, nous sommes ravis de vous retrouver ici ! Ce numéro couvre le mois de février 2024. Merci à tous nos lecteurs et aux contributeurs de cette lettre d'information !

Comme la présente lettre d’information, de nombreux projets et leurs efforts au sein de la communauté XMPP sont le résultat du travail bénévole de personnes. Si vous êtes satisfait des services et des logiciels que vous utilisez, pensez à dire merci ou à aider ces projets ! Vous souhaitez soutenir l’équipe de la lettre d’information ? Lisez la suite en bas de page.

    Sommaire

    Annonces de la XSF

    Bienvenue aux personnes ayant renouvelé leur adhésion et aux nouvelles adhésions du 1er trimestre 2024 !

    Si vous souhaitez rejoindre la XMPP Standards Foundation, postulez maintenant.

    XMPP et le Google Summer of Code 2024

    La XSF a été acceptée à nouveau comme organisation hôte du GSoC en 2024 ! Si cela vous intéresse, n'hésitez pas à nous contacter !

    Les idées de projet GSoC émanant d'organisations liées à XMPP sont les suivantes :

    Projets hébergés fiscalement par la XSF

    La XSF peut offrir une domiciliation fiscale pour les projets XMPP. Les candidatures sont à réaliser via Open Collective. Pour plus d'information, voir le billet de blog. Projets actuels pouvant être supportés:

    Événements XMPP

    • XMPP happy hour italienne [IT]: rencontre XMPP mensuelle italienne, chaque 3e lundi du mois à 19h00 (heure locale) (évenèment en ligne, avec partage vidéo et web en direct).

    Articles

    Nous sommes heureux d'annoncer le lancement de l'instance PeerTube XMPP-IT, une plateforme dédiée au partage et à la découverte de vidéos autour du protocole XMPP et ses applications. Les membres de la communauté XMPP sont encouragés à contribuer en créant et partageant leurs propres vidéos. Qu'il s'agisse de tutoriels, illustration de projets ou discussions sur des sujets XMPP, vos contributions sont bienvenues !

    JMP a fêté son 7e anniversaire ! Félicitations ! Découvrez la passerelle mobile-friendly vers les fournisseurs SIP pour passer des appels de votre mobile vers un téléphone fixe.

    jmp-sip-gateway

    Nouvelles des logiciels

    Clients et applications

    monocles chat est disponible sur Google Play. Elle apporte de nombreuses mises à jour comme une vue des commandes fonctionnelle et un meilleur support des applications WebXDC, mais aussi une première intégration moderne des autocollants.

    Serveurs

    • La version ejabberd 24.02 a été publiée, et elle prend en charge les protocoles TLS 1.3 et SASL2 avancés. Cette version apporte des améliorations de performance avec Bind 2 pour des temps de connexion plus rapides, ce qui est particulièrement crucial pour les utilisateurs de réseaux mobiles. La prise en charge de XEP-0424 : Message Retraction permet aux utilisateurs de gérer l'historique de leurs messages et de supprimer ce qu'ils ont posté par erreur.

    Bibliothèques et outils

    • GitLab XMPP Bot, un bot XMPP qui envoie des messages basés sur les hooks de GitLab a eu sa version 1.0.0. Ce bot est basé sur python-nbxmpp et il est actif dans le chat de support de Gajim.

    • go-xmpp 0.1.0 a été publié.

    • python-nbxmpp 4.5.4 a été publié, ce qui corrige quelques problèmes concernant les changements de sujet et l'analyse de la date.

    • Slixfeed est un bot d'information proposé en tant que composant client et service ; il peut gérer plusieurs chats simultanément et afficher des médias en ligne, ce qui, en plus d'être destiné principalement aux chats privés, le rend exceptionnellement utile pour les groupchats où les contenus visuels sont essentiels.

    • StropheJS 2.0.0 a été publié.

    • xmpp-rs s'est enrichi d'un Code de conduite et d'un guide de contribution. N'hésitez pas à venir dire boujour !

    Extensions et spécifications

    La XMPP Standards Foundation développe des extensions XMPP dans sa série de XEPs en plus des RFCs XMPP.

    Les développeurs et développeuses, et autres experts ou expertes en normes du monde entier collaborent à ces extensions, en développant de nouvelles spécifications pour les pratiques émergentes et en affinant les façons de faire existantes. Proposées par n’importe qui, les plus réussies finissent finales ou actives – selon leur type – tandis que les autres sont soigneusement archivées en tant qu’ajournées. Ce cycle de vie est décrit dans la XEP-0001, qui contient les définitions formelles et canoniques des types, états et processus. Pour en savoir plus sur le processus de normalisation. La communication autour des normes et des extensions se fait sur la liste de diffusion des normes (archive en ligne).

    Extensions proposées

    Le processus de développement d'une XEP commence par la rédaction d'une idée et sa soumission à l'Éditeur XMPP. Dans les deux semaines qui suivent, le Conseil décide d'accepter ou non cette proposition en tant que XEP expérimentale.

    • Pas de XEP proposée ce mois-ci.

    Nouvelles extensions

    • Pas de nouvelle XEP ce mois-ci.

    Extensions ajournées

    Si une XEP expérimentale n'est pas mise à jour pendant plus de douze mois, elle sera déplacée d'expérimentale à ajournée. Si une nouvelle mise à jour est effectuée, la XEP redeviendra expérimentale.

    • Aucune XEP ajournée ce mois-ci.

    Extensions mises-à-jour

    • Aucune XEP mise-à-jour ce mois-ci.

    Dernier appel

    Les derniers appels sont lancés une fois que tout le monde semble satisfait de l'état actuel d'une XEP. Une fois que le Conseil a décidé que la XEP semblait prête, l'Éditeur XMPP lance un dernier appel pour recueillir des commentaires. Les commentaires recueillis lors du dernier appel peuvent permettre d'améliorer la XEP avant de la renvoyer au Conseil pour qu'il la passe à l'état stable.

    • Pas de dernier appel ce mois-ci.

    Extensions stables

    • Aucune XEP n’est passée à stable ce mois-ci.

    Extensions dépréciées

    • Aucune XEP déclarée dépréciée ce mois-ci.

    Diffuser la nouvelle

    N'hésitez pas à partager les nouvelles sur d'autres réseaux :

    Consultez également notre Flux RSS !

    Vous recherchez des offres d'emploi ou souhaitez engager une consultante ou un consultant pour votre projet XMPP ? Visitez notre tableau des offres d'emploi XMPP.

    Contributeurs & traducteurs

    Il s’agit d’un effort communautaire, et nous aimerions remercier les traducteurs et traductrices pour leurs contributions. Les volontaires sont les bienvenus ! Les traductions de la lettre d’information XMPP seront publiées ici (avec un certain retard) :

    • anglais (original) : xmpp.org

      • contributeurs généraux : Adrien Bourmault (neox), Alexander "PapaTutuWawa", Arne, cal0pteryx, emus, Federico, Jonas Stein, Kris "poVoq", Licaon_Kter, Ludovic Bocquet, Mario Sabatino, melvo, MSavoritias (fae,ve), nicola, Simone Canaletti, XSF iTeam
    • français : jabberfr.org et linuxfr.org

      • traduction : Adrien Bourmault (neox), alkino, anubis, Arkem, Benoît Sibaud, mathieui, nyco, Pierre Jarillon, Ppjet6, Ysabeau
    • italien : notes.nicfab.eu

      • traduction : nicola

    Aidez-nous à créer la lettre d’information

    Cette lettre d’information XMPP est produite collaborativement par la communauté XMPP. La lettre d’information de chaque mois est rédigé dans ce simple pad. À la fin de chaque mois, le contenu du pad est fusionné dans le dépôt Github de la XSF. Nous sommes toujours heureux d’accueillir des contributeurs et contributrices. N’hésitez pas à vous joindre à la discussion dans notre salon public Comm-Team (MUC) et ainsi nous aider à soutenir cet effort communautaire. Vous avez un projet et vous voulez en parler ? Pensez à partager vos nouvelles ou vos événements ici, et à les promouvoir auprès d’un large public.

    Tâches régulières :

    • rassembler les nouvelles dans l'univers XMPP
    • bref résumé des nouvelles et évènements
    • résumé de la communication mensuelle des extensions (XEPs)
    • relecture du brouillon de lettre d'information
    • préparation d'infographies
    • traductions
    • communication via les réseaux sociaux

    Licence

    Cette lettre d’information est publiée sous la licence CC BY-SA.

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    Nouveautés de mai 2024 de la communauté Scenari

    Scenari est un ensemble de logiciels open source dédiés à la production collaborative, publication et diffusion de documents multi-support. Vous rédigez une seule fois votre contenu et vous pouvez les générer sous plusieurs formes : site web, PDF, OpenDocument, diaporama, paquet SCORM (Sharable Content Object Reference Model)… Vous ne vous concentrez que sur le contenu et l’outil se charge de créer un rendu professionnel accessible et responsive.

    À chaque métier/contexte son modèle Scenari :

    • Opale pour la formation
    • Dokiel pour la documentation
    • Optim pour les présentations génériques
    • Topaze pour les études de cas

    Mini-webinaire Scenari
    L’association propose un mini-webinaire intitulé « Module, Tutoriel, Exerciseur — connaître et maîtriser les différents scénarios d’Opale » le mercredi 15 mai 2024 de 17h à 18h heure de Paris, à l’adresse https://scenari.org/visio/miniwebinaire.
    Pour préparer la session, vous pouvez participer à ce fil de discussion sur le forum Scenari.

    Nombreuses mises à jour
    Version de maintenance (surtout des corrections fonctionnelles et sécuritaires) de la suite Scenari (6.2.4) : ScenariChain, ScenariBuilder, ScenariSuite, ScenariClient.
    Même chose pour ceux et celles qui utilisent la version 6.0 et 6.1.
    Nouvelles versions correctives de :

    Nouvelle version de Topaze (5.0.0 rc). Détails des nouveautés sur la note de version (publication relecture pdf, onglet graphe aux items .case, …).
    Nouvelle version de Canoprof (2.2). Détails des nouveautés sur la note de version (consultation en mode déconnecté, meilleure accessibilité, version 9 du ScoLOMFr, …).
    Nouvelles versions des skins Daylight, Dys & Sunrise pour Opale et Topaze. Liens sur le forum.

    Enquête « 10 ans de l’association, qu’est-ce qui t’a marqué ? »
    À l’occasion des 10 ans de l’association Scenari, nous souhaitons savoir ce qui t’a le plus marqué.
    Pour cela, si tu ne l’as pas encore fait, nous t’invitons à répondre à cette mini-enquête, ça te prendra une minute à peine.
    Merci !

    Astuce
    Si tu déposes une vidéo sur ton dépôt Scenari, en fonction de la configuration de ton dépôt, une multitude d’opérations se font automatiquement.
    Par exemple sur MyScenari, on peut ensuite télécharger différents fichiers :

    • des versions « qualité basse », « qualité intermédiaire » et « haute qualité » de la vidéo
    • une image patchwork de différentes captures écran de la vidéo
    • une bande horizontale d’images de la vidéo
    • 12 vignettes de la vidéo
    • 4 images haute résolution extraites de la vidéo
    • l’audio de la vidéo

    Scenari présent dans …
    Scenari présent dans…

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    Pourquoi Fiasco n’aura sûrement pas de saison 2

    La série avec Pierre Niney a été écrite comme une mini-série. Les chances de voir une saison 2 à Fiasco sont minces, malgré le succès indéniable. Cela peut toutefois ouvrir la voie à d'autres formats similaires.

    Comment s’abonner (ou résilier) TF1+ Premium ?

    6 mai 2024 à 11:16

    La version payante de TF1+, qui permet de débloquer des contenus en exclusivité (comme le live de Secret Story ou le replay en Full HD) et de retirer les publicités, peut être souscrite depuis le web ou l'application mobile. Voici ses avantages.

    Arrêté en France, l’un des hackers les plus recherchés d’Europe ira en prison en Finlande

    6 mai 2024 à 10:11

    Aleksanteri Julius Kivimäki a été condamné par la justice finlandaise à six ans de prison. Ce cybercriminel recherché par Europol avait été arrêté par hasard par la police française.

    French Days : presque 200 € de moins pour ce ventilateur hybride de Dyson

    6 mai 2024 à 10:04

    [Deal du jour] Le beau temps revient (doucement) et avec lui, les températures vont progressivement monter. Ce modèle, qui fait aussi humidificateur, est moins cher pour les French Days. Une offre intéressante pour prendre de l'avance sur l'été, et avant que tout le monde achète des ventilateurs.

    Attention, le match retour PSG – Dortmund n’est pas diffusé sur Canal+

    6 mai 2024 à 09:27

    Comme contre la Real Sociedad et le FC Barcelone, la demi-finale retour entre le Paris Saint-Germain et le Borussia Dortmund, avec une place en finale de la Ligue des champions à la clé, n'est pas diffusé sur la chaîne « Canal+ » le mardi 7 mai.

    Niché entre la lettre w et c de votre clavier, voici l’engagement bait

    6 mai 2024 à 09:17

    Jim Carrey

    X a été enseveli durant plusieurs jours sous la « keyboard trend », interprétée dans les médias comme une forme d'humour absurde à la « quoicoubeh ». Une grille de lecture lacunaire, qui ne prend pas en compte l'évolution du modèle économique de la plateforme et la culture intensive de l'engagement qui s'y développe. 

    Les langues peu documentées et le libre : quelques enjeux scientifiques

    Comme beaucoup de domaines scientifiques, la documentation de la diversité linguistique entretient une relation forte avec les mondes du Libre. Dans cette dépêche, je vous propose de découvrir ce domaine à travers la présentation de plusieurs logiciels et ressources libres ou en accès ouvert. La documentation des langues étant un thème peu courant sur LinuxFr.org, on commencera par une présentation de cette problématique. Nous continuerons par une description des deux ressources principales existantes pour cataloguer et se repérer au sein de cette diversité linguistique. Je parlerai ensuite d’ELAN et de FLEX, deux logiciels utilisés pour annoter des enregistrements audio-visuels, une étape clef dans l’analyse linguistique, et qui permet le partage et la réutilisation de ces enregistrements. Enfin, après un court passage sur la question de l’archivage, je présenterai deux compilations de corpus de documentation en accès libre, une pratique récente qui permet de nouveaux questionnements quantitatifs sur les langues orales peu documentées, et qui contribue également à la transparence et la traçabilité des analyses linguistiques.

      Sommaire

      L’étude des langues à travers le monde

      Actuellement, environ 7000 langues ont été recensées à travers le monde. Ce chiffre ne peut être qu’une approximation car, il n’y a pas de consensus sur la définition de ce qu’est une langue. Une difficulté par exemple est de définir à quel moment une langue est distincte d’une autre. Lorsqu’il y a variation, mais intercompréhension, de nombreux linguistes s’accordent à dire qu’il s’agit alors de dialectes d’une même langue, et donc, lorsqu’il n’y a pas intercompréhension, alors il s’agit différentes langues. Cette perspective considère que tout le monde parle un dialecte (que ce soit celui de référence, ou un plus régional comme celui de Paris, de Marseille, du Québec), la langue n’étant qu’une abstraction permettant de regrouper les diverses pratiques langagières. En ce qui concerne l’intercompréhension, ce critère n’est malheureusement pas absolu car elle peut varier selon les personnes et leur parcours personnel. Et lorsqu’on considère l’évolution d’une langue à travers le temps, sa diachronie, définir ce qu’est une même langue à travers ses évolutions temporelles se complexifie d’autant plus.

      Si certaines langues ont émergé récemment, on pense assez souvent aux langues dites créoles (le Bichelamar, les créoles malais, à Madagascar ou au Cap Vert), ou également lorsque certains dialectes se distinguent suffisamment pour ne plus être intercompréhensibles, la tendance actuelle est surtout à la disparition massive des langues. Cette disparition est souvent rapportée à travers la mort des derniers locuteurs et locutrices, on peut aussi considérer qu’une langue meurt lorsqu’elle n’est plus parlée d’une part, et qu’elle disparait si elle n’est pas documentée. Si certains aujourd’hui se questionnent sur la corrélation entre la diversité culturelle et la diversité écologique, il est évident que la disparition des langues correspond également à des inégalités et des tensions socio-politiques.

      Bref, la documentation des langues, c’est un sujet actuel, et d’un point de vue scientifique, la perte de cette diversité aura de tristes conséquences sur la connaissance des langues et de l’univers des possibles languagiers, encore souvent sous-estimé :

      • l’article The myth of language universals : Language diversity and its importance for cognitive science d’Evans donne un bel aperçu du débat qui existe entre les linguistes fonctionnalistes, notamment les approches générativistes telles que proposées par Noam Chomsky. Pourtant, régulièrement à travers la documentation des langues, des catégories cognitives jusque-là non-soupçonnés, voire rejetées car non-observées, sont identifiés. Nous nous sommes rendu compte récemment qu’un quart des langues grammaticalisaient l’emploi d’évidentiels, ces morphèmes qui indiquent la source d’une information. Au niveau de l’odorat, des neurologistes pensaient que si nous n’avions pas de termes abstraits pour catégoriser les odeurs, c’était lié au fait que notre cerveau ne le permettait pas. La description des termes liés à l’odorat en Jahai (par ici si vous souhaitez écouter du Jahai), qui possède donc des termes spécifiques pour catégoriser les odeurs, a montré le contraire.
      • accéder à des facettes non-matérielles de la préhistoire, non-accessibles à travers l’archéologie. La documentation des langues nous permet d’accéder, dans une certaine mesure, aux termes et aux concepts utilisés durant les différentes préhistoires à travers la comparaison des langues et de leurs structures. Les travaux sont nombreux et anciens en ce qui concerne les langues européennes, mais les recherches en linguistique historique (ou comparée) portent également sur toutes les langues connues à travers le monde. Les chercheurs et chercheuses de ce domaine collaborent assez régulièrement avec les archéologues pour retracer les mouvements de population.
      • mettre au point des systèmes d’écriture pour les langues orales, ou simplement des traitements de texte adapté aux écritures existantes. Parfois, certaines personnes savent écrire dans la ou les langues officielles du pays, mais ne connaissent pas d’écriture pour une de leurs langues régionales. C’est ainsi souvent le cas pour les personnes au Vanuatu. Le pays reconnait même le droit d’enseigner les langues locales à l’école, mais il n’existe que très rarement des ressources (que ce soit les personnes ou les manuels) pour cela. Parfois, les gens ne connaissent tout simplement pas de système d’écriture.

      Quelques concepts et termes liés à la documentation des langues

      Comme tout domaine de recherche, la terminologie et les concepts linguistiques évoluent au gré des discussions et peut se distinguer de l’usage attendu des termes. Une étape importante dans la documentation d’une langue est la production d’une grammaire décrivant les structures linguistiques de cette langue. De nombreux linguistes estiment alors qu’on peut dire que cette langue est décrite. Il ne faut pas se tromper cependant, aucun linguiste ne considère qu’une langue est alors complètement décrite. Une grammaire ne contient que quelques aspects estimés actuellement essentielles par les linguistes de terrain. Ces points sont, le plus souvent, une description du système phonologique d’une langue (c’est-à-dire comment les sons d’une langue sont organisés les uns vis-à-vis des autres), des morphèmes et des processus morphologiques associés (la conjugaison, l’expression de la possession, les déclinaisons, les genres, les classifications, etc.) d’une langue et souvent un début de description des processus syntaxiques. Il existe de nombreuses approches pour décrire les faits linguistiques, et la description d’une langue se fait souvent en dialogue avec les pratiques et terminologies qui ont été employées dans l'aire linguistique concernée.

      Depuis l’article Documentary and descriptive linguistics de Nicholaus Himmelman, qui a promu la distinction entre la documentation linguistique et la description linguistique, on accorde beaucoup plus d’importance à la production d’un corpus d’enregistrements annotés. On dit alors d’une langue qu’elle est documentée si des enregistrements annotés, de préférences audio-visuels, de cette langue existe. Enfin, il existe la problématique de l’outillage d’une langue, c’est-à-dire si ses locuteurs et locutrices ont accès ou non aux outils informatisés, du traitement texte aux dictionnaires informatisés en passant par la reconnaissance vocale, la transcription automatique, voire aujourd’hui aux modèles de langues et autres ressources nécessitant des corpus beaucoup plus grands.

      Les catalogues et base de données pour l’identification des langues

      Une problématique récurrente dans le domaine des langues est de clairement identifier la langue sur laquelle on travaille. Cependant, identifier une langue, ce qui relève ou non de cette langue, où elle est parlée, est l’enjeu de nombreux débats, souvent politique, et n’est pas une tâche simple. Quoi qu’il en soit, il existe des ressources, bases de données, qui proposent d’associer à des noms de langues, endonymes ou exonymes, des codes pour rendre leur identification univoque.

      L’Ethnologue et l’ISO 639 : une norme gérée par le Summer Institute of Linguistics (SIL)

      Ethnologue, Languages of the World, ou plus simplement l’Ethnologue, est une base de données développée et maintenu par l’organisme évangélique SIL, Summer Institute of Linguistic depuis 1951. Elle vise à recenser toutes les langues du monde. L’ISO 639 est une norme issue de ce catalogue, également maintenue par le SIL. Cet organisme est très actif au niveau de la documentation des langues et de la création d’écritures, car un de ses objectifs est de traduire la Bible dans toutes les langues du monde. Historiquement, l’Ethnologue est un des premiers catalogues dont l’objet a été de recenser les langues. Si cette norme semble le plus souvent suffisamment exhaustive pour les besoins liés à l’informatique, après tout, les internautes consultent Internet en très peu de langue, d’un point de vue linguistique, il possède de nombreuses lacunes.

      La liste SIL des langues

      Un premier souci est la nécessité d’avoir une granularité plus importante que simplement la langue. Les linguistes travaillent sur des dialectes et des variétés, sur des familles de langues, et parfois ont travaillé sur des distinctions qui n’ont parfois plus cours. Afin de pouvoir associer ces ressources à des langues, ou des entités linguistiques particulières, l’approche du SIL ne suffit pas.

      Enfin, la gestion du catalogue par un organisme religieux, donc avec parfois d’autres enjeux qu’uniquement scientifiques, le fait qu’il s’agisse d’une norme, donc la nécessité de collaborer avec l’ISO, et le fait que le catalogue n’est qu’en partie ouvert (il faut un abonnement pour accéder à la totalité de la ressource) rend la ressource moins intéressante que de nombreux linguistes le souhaitent de nombreux linguistes. Ces limites ont poussé des linguistes à proposer une ressource alternative.

      Glottocode : par le Max Planck Institute for Evolutionary Anthropology.

      Le projet Glottolog, initialement développé par Sebastian Nordhoff et Harald Hammarström, catalogue non seulement les langues du monde actuelles et passés, les familles de langues et leurs différentes branches, mais également « les restes » des hypothèses de langues ou de regroupements historiques. Cette granularité permet de retrouver les documents associés à chacun de ces objets. Si le catalogue est dédié aux langues moins connues, les langues les plus centrales sont elles aussi répertoriées. Il s’agit actuellement du catalogue mis en avant par les linguistes documentant les langues à travers le monde. L’application Glottolog est disponible via la licence MIT.

      Aperçu du Glottolog à travers la liste des langues

      Si aux premiers abords, la liste des langues du Glottolog ne se distingue pas franchement de celle de l’ISO 639, c’est parce qu’il faut regarder plus en détail pour comprendre les différences essentielles entre les deux ressources. Notons tout de même la colonne « Child dialects » : « Dialectes enfants », et les champs vides au niveau des colonnes Top-level-family et pour la langue Abai Tubu-Abai Sembuak dans la colonne « ISO-639-3 ». La colonne « Child dialects » représente une information qui n’est pas documenté dans l’ISO 639, ce n’est pas son objet après tout, mais qui est intéressant pour les linguistes travaillant sur cette langue, indiquant qu’un minimum de données sociolinguistiques sont disponibles. Les champs vides dans la colonne « Top-level family » sont dus au fait que ces langues sont des isolats, c’est-à-dire que la linguistique comparée ne trouve pas de correspondances significatives entre cette langue et d’autres langues qui permettraient de les regrouper en une famille. Enfin, le vide dans la colonne ISO-963-3 révèle que la langue Abai Tubu-Abai Sembuak ne possède pas d’entrée dédiée dans la norme.

      Ainsi, lorsque l’on consulte une langue en particulière, ici le Nisvai, on voit apparaitre tous les embranchements existants associés à cette langue :

      La langue Nisvai dans le Glottolog

      Cette vue de l’arborescence associée à une langue particulière révèle tous les embranchements auxquels peut⁻être associée une langue. Et à chacun de ces embranchements, si des ressources linguistiques ont été identifiées par les mainteneurs du Glottolog, celles peuvent être proposées. Cette fonction permet aux linguistes de trouver des ressources sur les langues proches, non pas géographiquement (même si en pratique c’est le plus souvent le cas), mais d’un point de vue généalogique.

      Les autres

      Il existe d’autres initiatives pour cataloguer les langues du monde, que ce soit la liste proposée par Wikipedia, la liste de la CIA ou encore The Linguasphere Register, mais ces initiatives ne sont pas aussi pertinentes du point de vue de la documentation des langues.

      Documenter les langues

      ELAN : des schémas d’annotation flexibles

      ELAN est un des logiciels libres (GPL3) les plus utilisés par les linguistes pour annoter des enregistrements audio et vidéo. Il permet d’élaborer des structures d’annotation complexes permettant ainsi de rendre compte des analyses que les linguistes souhaitent associer à un enregistrement. Ces couches d’annotation sont reliées les unes aux autres par des relations logiques, avec le plus souvent une couche de référence indexée temporellement à l’enregistrement. Les annotations les plus courantes sont une transcription, une traduction et une annotation morphologique. Mais des nombreuses autres analyses peuvent être incluses, que ce soit les parties du discours, les références et anaphores, l'animéité, mais aussi les gestes, la structuration du discours, les signes pour les sourds et malentendants.

      Extrait d’une narration présente dans DoReCo, et vue sur les différentes couches d’annotation pouvant être associés à un enregistrement.

      Dans cette capture d’écran issu d’un texte de DoReCo retravaillé par l’auteur, on aperçoit un extrait de quelques secondes d’une narration nisvaie. Il s’agit d’un des modes de visualisation des annotations proposées par ELAN pour représenter les différentes couches d’annotation. Certaines de ces annotations ont été réalisées à la main par l’auteur, d’autres ont été retravaillées par les algorithmes mis en place par DoReCo, puis manuellement corrigés. Enfin, il y a également des couches d’annotation de la prosodie par le biais de SLAM+.

      FLEX : gérer un projet de documentation

      FLEX est un logiciel développé par le SIL et dont le code source est régie par la licence LGPL 2.1. Il est conçu davantage pour coordonner l’ensemble d’une documentation linguistique, de la gestion des textes à l’élaboration d’un dictionnaire, en passant par les analyses linguistiques. En revanche, il ne gère pas réellement l’annotation d’enregistrements. De nombreux linguistes l’utilisent en complément d’ELAN.

      Si le logiciel est prometteur sur le papier, à chaque fois que je l’ai essayé, j’ai été rebuté par son côté usine à gaz, et surtout ses nombreux plantages notamment lorsqu’on essaie de gérer des fichiers multimédia avec. Et il en est de même pour les autres logiciels développé par le SIL, tel que SayMore pour gérer les métadonnées des enregistrements, WeSay pour faire des dictionnaires en collaboration avec les locuteurs et locutrices, à chaque fois que je les ai essayés, enthousiasmé par leurs fonctionnalités, j’ai été déçu par le fait qu’ils ne fonctionnaient pas correctement sur mon ordinateur.

      Aperçu de Flex

      Cette capture d’écran illustre un des modes de saisie de FLEX, ici la vue tabulaire du lexique, qui permet de rentrer et gérer les définitions des lexèmes (les entrées du dictionnaire) de manière assez rapide. On aperçoit dans la partie en haut à gauche les autres modes d’édition du lexique, et en dessous les autres catégories liées à la gestion d’un projet de documentation : Texts & Words, Grammar, Notebook et Lists. C’est à travers la catégorie Texts & Words que l’on peut par exemple importer des textes transcrits, voire des fichiers ELAN pour peupler la base de données lexicales. Grammar permet de décrire les paradigmes grammaticaux, FLEX propose d’ailleurs quelques algorithmes qui aident à la construction des paradigmes grammaticaux. Notebook et Lists servent à la gestion du projet, le premier pour prendre des notes diverses, et le second pour créer des listes, en particulier des tâches encore à réaliser.

      Et il y en a bien d’autres encore

      Il existe de nombreux autres logiciels similaires, tels qu’EXmaralda pour l’annotation des enregistrements (surtout utilisé en Allemagne à ma connaissance), Sonal (non libre, et dont le développement semble arrêté) qui est utilisé par les sociologues et les anthropologues pour une annotation thématique de leurs entretiens, Anvil, qui semble intéressant mais que je n’ai jamais réellement vu utilisé, ou enfin le vieux Transcriber qui lui était encore employé par certains projets il y a quelques années. Rentrer dans le détail de tous ces logiciels dépasserait le cadre d’une dépêche comme celle-ci, mais énumérer la diversité logicielle montre qu’il s’agit d’un secteur un minimum dynamique, d’ailleurs la question de la transcription et de l’annotation des enregistrements ne se limite pas du tout qu’au domaine de la documentation des langues du monde.

      L’archivage et la compilation de corpus

      Afin de conserver et partager les corpus et donnée enregistrées par les linguistes, chercheurs voire simplement les personnes ayant documenté une langue, il existe des archives, le plus souvent en ligne. Il y a en France par exemple Pangloss, géré par le LACITO, dédié aux langues orales, ou ORTOLANG, plus générique, pour les corpus de langue. En Océanie, il y a Paradisec. Il y a aussi ELAR, autrefois à Londres, et qui a déménagé récemment à Berlin récemment.

      Ces archives proposent diverses interfaces pour déposer, gérer et parfois même consulter les enregistrements et les annotations réalisés par les linguistes et leurs collaborateurs·e·s. À noter que pour ces archives, Ortolang décrit son architecture logicielle qui repose sur des briques ouvertes, en revanche concernant Paradisec et Pangloss, bien que leur statuts soient sûrement similaires du fait de la démarche générale de ses ingénieurs, je n’ai pas trouvé de liens vers les logiciels employés. Quant à ELAR, le logiciel utilisé est Preservica, une solution propriétaire qui, quand on a le malheur de devoir l’utiliser, fonctionne bien lentement.

      La compilation de corpus, si elle se rapproche de l’archivage en ce qu’il s’agit également de recueillir, conserver et publier les corpus des linguistes, correspond également à une édition particulière de ces corpus. La compilation de corpus est réalisé à travers la mise en place de processus de qualité, d’annotations et de conventions particulières. Les deux compilations de corpus présentées ici sont des compilations de corpus de documentation de langues orales. Les enregistrements ont été systématiquement annotés en utilisant une convention nommée les gloses interlinaires (le nom fait en fait référence à la pratique ancienne d’insérer des explications entre les lignes d’un texte. En pratique aujourd’hui, ce n’est plus vraiment ce que font les linguistes, puisque le travail est informatisé et les annotations ne sont plus entre les lignes, mais, le terme a cependant été conservé).

      DoReCo

      DoReCo est une compilation de 52 corpus en accès ouvert (NdR : auquelle l’auteur a contribué). La compilation a nécessité la mise en place de processus de qualité afin d’assurer la cohérence de l’ensemble et de fournir un certain nombre de garanties quant aux qualités du corpus.

      Les langues dans DoReCo

      Une première qualité, et l’une des originalités de DoReCo, est de proposer un alignement temporel est très fin. La durée de chaque phonème, de chaque morphèmes, de chaque mot (ici suivant la définition de la personne à l’origine du corpus, car la définition d’un mot n’a rien d’une évidence) et enfin de chaque groupe de souffle est fournie. Une deuxième qualité a été de s’assurer que pour l’ensemble des retranscriptions, chacun des termes et des morphèmes possède une glose, c’est-à-dire qu’ils possèdent une explication linguistique.

      La compilation totalise une centaine d’heures d’enregistrements audio, en grande majorité des narrations monologiques. À noter que les corpus de la compilation sont accès ouvert, via une licence Creative Commons, mais que les droits d’utilisation varient d’un corpus à l’autre. Les données sont accessibles aux formats d’ELAN : .eaf, de Praat : . TextGrid, TEI.xml, et.csv.

      Multi-CAST

      Multi-CAST est également une compilation de 18 corpus de documentation de langues différentes. Les textes annotés via le logiciel ELAN. Contrairement à DoReCo, l’alignement temporel des annotations n’est pas réalisé de manière précise, mais manuellement, par les personnes à l’origine du corpus, à l’échelle de l’énoncé. Les textes sont également en grande majorité des narrations monologiques. L’originalité de cette compilation de corpus vient du fait que les textes contiennent trois couches d’annotation particulières : GRAID, Grammatical Relations and Animacy in Discourse, (voir), puis RefIND et ISNRef (Referent Indexing in Natural Language Discourse, voir Schiborr et al. 2018).

      La page d’accueil de Multi-Cast

      Cette compilation de corpus est aussi disponible dans plusieurs formats. XML évidemment, puisque c’est le format natif d’ELAN, mais aussi TSV et il existe également un paquet pour R. Tout cela est disponible via la licence CC-BY 4.0.

      Conclusion

      J’espère que vous avez apprécié cette introduction à la documentation des langues à travers les logiciels libres. L’idée est surtout d’attiser la curiosité, car il reste évidemment encore de nombreux aspects ou points à discuter et à approfondir. La prochaine fois que j’aborderai le thème de la documentation linguistique ici, j’espère que ça sera pour présenter mon application basée sur Django pour faire de la lexicographie.

      Il y a également un autre sujet sur lequel j’aimerais bien échanger ici prochainement : la question des licences des données collectés et la négociation lorsque l’on travaille avec des personnes à tradition orale. Si ouvrir l’accès aux données de recherche et aux corpus peut sembler être une évidence pour certains, il ne faut pas oublier que souvent, les chercheurs et chercheuses de terrain collectent des informations personnelles, que la connaissance n’est pas forcément considérée comme un bien public et les enregistrements, notamment les narrations, qui ne sont pas forcément perçues comme des fictions, sont souvent couverts par des droits locaux. Enfin, ouvrir ses données de recherche, si c’est permettre à d’autres de réutiliser ses données, requiert beaucoup de travail de la part des linguistes, c’est une tâche longue, ingrate et surtout peu valorisée. Alors qu’il est de plus en plus précaire d’être chercheur en sciences humaines, il est aussi difficile de demander à ces chercheurs et chercheuses de consacrer une grande partie de leur temps à des tâches qui ne leur permettront pas de se constituer un CV, nécessaire si l’on souhaite avoir un poste stable (c’est-à-dire plus de deux ans).

      Label sans IA : ce texte a été rédigé sans aucun aide de la part d’une LLM.

      Commentaires : voir le flux Atom ouvrir dans le navigateur

      ❌
      ❌