Outils pour les Corpus

Lien vers l'atelier corpus Pétale.
Formations Adyloc – GDR CNRS & IRCOM – CNRS (Corpus-IR)

Téléchargements et installations

Tous les logiciels décrits ci-dessous se téléchargent facilement sur Internet. Choisissez en général les sites des concepteurs eux-mêmes, ce sont les sites les plus sûrs. Tous les logiciels dont le nom est noté en rouge sont disponibles sur le site http://corpus.modyco.fr/outils/

CLAN/CHILDES

Programme principal de CLAN
http://childes.psy.cmu.edu/clan/ Cliquez sur « CLANWin » pour Windows (Windows 2000/XP/Vista/7) ou « CLAN » pour Mac (OS X 10.4 minimum) – D’autres types d’installation (anciennes versions, version zippée pour Mac) sont disponibles sur cette page au cas où les installateurs usuels ne fonctionnent pas.
Exécuter le fichier correspondant s’il n’est pas lancé automatiquement. --> clanwin.msi ou clan.dmg

Analyse lexicale et syntaxique

http://childes.psy.cmu.edu/morgrams/
Pour le français cliquer sur « French ».

Version à utiliser de préférence à celle du site CHILDES:
Cliquer sur « fra.zip » --> fra.zip


ELAN

http://tla.mpi.nl/tools/tla-tools/elan/download/ Cliquez sur « ELAN v 4.6.1 Windows installer » pour Windows ou « ELAN v 4.6.1.unpack-and-run for Mac OS X » pour Mac.
Exécuter le fichier correspondant s’il n’est pas lancé automatiquement. --> ELAN_4-6-1_win_install.exe ou ELAN_4-6-1_mac.zip (décompresser et déplacer dans Applications)

PHON

http://phon.ling.mun.ca/phontrac/wiki/Downloads
Choisir l’option qui convient (Windows ou Mac) et exécuter le programme s’il n’est pas lancé automatiquement. --> Phon_windows_1_6_2.exe ou Phon_macos_1_6_2.dmg.

Programme complémentaire très fortement recommandé pour les formats vidéo ou son

Quicktime pour Windows : télécharger et installer à partir de http://www.apple.com/fr/quicktime/download/
Attention : choisissez l’option Quicktime sans iTunes, sauf si vous voulez iTunes. Décochez la case « Tenez-moi informé » pour éviter de donner votre adresse mail et de recevoir des publicités (sauf si vous le désirez).
Installer si ce n’est pas fait automatiquement QuickTimeInstaller.exe

Notes sur le type de machine utilisable

De nombreux logiciels gratuits existent en version Windows et en version Mac (et aussi Linux). On dispose donc d’une grande liberté de ce point de vue. Mais attention tous les ordinateurs ne peuvent pas convenir.
En effet l’utilisation de sons et de vidéos est gourmande en ressources matérielles et peut nécessiter des machines puissantes. L’utilisation de petites vidéos ou de petits fichiers sons peut toutefois convenir pour des machines d’environ 5-7 ans ou des mini-pcs. L’utilisation de textes seuls ne pose pas de problème. Pour de gros documents une machine récente (3 ans) est conseillée.
Egalement comme la totalité des outils sont gratuits et sans publicité, les concepteurs ne peuvent forcément disposer de temps pour faire fonctionner les logiciels sous tout type de systèmes et de matériels. Ainsi ne fonctionnent en général que les Mac sous système OSX 10.4 et plus et les Windows sous XP ou un système plus récent (Vista et 7).
Enfin, attention, les fortes demandes matérielles pour le son et la vidéo font qu’un ordinateur récent mal configuré ou mal conçu (hélas cela arrive assez souvent avec Windows Vista) peut être inutilisable. Ce type de problème peut souvent se résoudre par une réinstallation totale du système et/ou un retour à un système plus ancien (plus simple donc) et plus adapté à la machine. Un ordinateur ancien (5 ans par exemple) sous Windows XP avec peu de logiciels installés peut se révéler meilleur qu’un ordinateur de 2 ans sous Windows Vista mais surchargé.

Programmes complémentaires pour les versions Windows

Certains programmes peuvent demander le « Java Runtime Environnement » (notamment ELAN et PHON ainsi que R, mais aussi certains utilitaires CLAN). Il est conseillé de simplement procéder à l’installation d’ELAN qui la plupart du temps le fait automatiquement. En cas de besoin, ce programme se trouve dans http://www.oracle.com/technetwork/java/javase/downloads/index.html. Sélectionner « Download JRE » puis suivez les instructions. Choisissez le système Windows. Lancer le programme jre-7u1-windows-i586.exe si ce n’est pas fait automatiquement.
Pour les Mac, ces programmes sont installés automatiquement.

Programmes pour les caractères phonétiques (API)

Il est possible de rentrer directement des codes phonétiques API en utilisant des logiciels adaptés. Pour la langue française, ces logiciels représentent la meilleure solution car il est possible de coder tous les signes phonétiques même ceux utilisant des diacritiques comme la nasalisation.
Un deuxième programme est « FreeKey SIL IPA keyboard », compatible Windows XP, Vista et 7 (à télécharger sur http://scripts.sil.org/cms/scripts/page.php?&item_id=UniIPAKeyboard, utiliser le programme FreeKey SIL IPA setup.exe pour l’installation). Ce programme utilise des séquences de deux touches pour produire des valeurs API qui ne sont pas sur un clavier ordinaire.
Un premier programme est Samipa (à télécharger sur http://latlntic.unige.ch/phonetique/, utiliser le programme samipafr.zip –à décompresser d’abord- pour l’installation). Samipa est hélas non compatible Windows 7 et Vista.
Pour les programmes Mac, voir le clavier virtuel MAC OS X ou utiliser « IPA Unicode 5.1 Macintosh Keyboard v1.4 » disponible sur http://scripts.sil.org/cms/scripts/page.php?&item_id=UniIPAKeyboard. Utiliser le programme IPA-MACkbd.dmg pour l’installation.

Programmes complémentaires pour travailler sur les corpus

Travailler sur les corpus nécessite souvent d’éditer les fichiers directement, sans les artifices de Word ou de CLAN. Ces éditeurs permettent aussi souvent de convertir des codages pour les accents (Unicode, ANSI, etc) et d’automatiser des modifications.
Sont hautement recommandés Notepad++ disponible ici http://notepad-plus-plus.org/download/ sous Windows seulement (exécuter le fichier npp.5.9.6.2.Installer.exe) ou un peu moins performant mais multi-système Windows, Mac et Linux, JEdit disponible ici http://www.jedit.org/index.php?page=download (exécuter jedit4.4.2install.exe pour installer sous Windows ou jedit4.4.2install.dmg pour installer sous Mac ).

Les tableurs

Les tableurs sont des outils classiques de bureautique très efficaces pour travailler sur des codages corpus à condition de limiter la taille des corpus. Ces outils existent sous plusieurs formes, la plus connue étant Microsoft Excel (à acheter dans le commerce) et l’autre étant OpenOffice et LibreOffice, moins performant mais gratuit et disponible ici http://fr.openoffice.org/about-downloads.html ou là http://www.libreoffice.org/download/ pour Windows et pour Mac (les deux séries ont des fonctionnalités proches). Tous les exemples présentés dans le workshop tournent sous OpenOffice et LibreOffice.

Programme de lexicométrie

Le travail sur corpus exige, lorsqu’il est poussé, des outils spécifiques de traitements de corpus dits outils de lexicométrie. De bons exemples en sont Le Trameur, disponible ici http://tal.univ-paris3.fr/trameur/ sous PC seulement (installer avec setup-trameur-9-l.exe – demander la version complète sur le site) et MkAlign, disponible ici http://tal.univ-paris3.fr/mkAlign/ sous PC seulement, (installer avec setup-mkAlign.exe).

Programme de traitement de corpus et de calcul statistique

Il existe un logiciel gratuit très puissant permettant de traiter des corpus et de calculer des valeurs statistiques, R. Vous pouvez le trouver ici http://mirror.ibcp.fr/pub/CRAN/ en version Windows ou Mac (exécuter R-2.14.0-win.exe pour installer sous Windows ou R-2.14.0.pkg pour installer sous Mac ).

Site vidéos et formations Modyco/Adyloc/IRCOM
Modyco UMR CNRS - PARIS OUEST Nanterre