Outils pour les Corpus
Lien vers l'atelier corpus Pétale.
Formations Adyloc – GDR CNRS & IRCOM – CNRS (Corpus-IR)
Téléchargements et installations
Tous les logiciels décrits ci-dessous se téléchargent facilement sur
Internet. Choisissez en général les sites des concepteurs eux-mêmes, ce
sont les sites les plus sûrs. Tous les logiciels dont le nom est noté en rouge sont disponibles sur le site http://corpus.modyco.fr/outils/
CLAN/CHILDES
Programme principal de CLAN
http://childes.psy.cmu.edu/clan/
Cliquez sur « CLANWin » pour Windows (Windows 2000/XP/Vista/7) ou «
CLAN » pour Mac (OS X 10.4 minimum) – D’autres types d’installation
(anciennes versions, version zippée pour Mac) sont disponibles sur
cette page au cas où les installateurs usuels ne fonctionnent pas.
Exécuter le fichier correspondant s’il n’est pas lancé automatiquement. --> clanwin.msi ou clan.dmg
Analyse lexicale et syntaxique
http://childes.psy.cmu.edu/morgrams/
Pour le français cliquer sur « French ».
Version à utiliser de préférence à celle du site CHILDES:
Cliquer sur « fra.zip » --> fra.zip
ELAN
http://tla.mpi.nl/tools/tla-tools/elan/download/ Cliquez sur « ELAN v 4.6.1 Windows installer » pour Windows ou « ELAN v 4.6.1.unpack-and-run for Mac OS X » pour Mac.
Exécuter le fichier correspondant s’il n’est pas lancé automatiquement. --> ELAN_4-6-1_win_install.exe ou ELAN_4-6-1_mac.zip (décompresser et déplacer dans Applications)
PHON
http://phon.ling.mun.ca/phontrac/wiki/Downloads
Choisir l’option qui convient (Windows ou Mac) et exécuter le programme s’il n’est pas lancé automatiquement. --> Phon_windows_1_6_2.exe ou Phon_macos_1_6_2.dmg.
Programme complémentaire très fortement recommandé pour les formats vidéo ou son
Quicktime pour Windows : télécharger et installer à partir de http://www.apple.com/fr/quicktime/download/
Attention : choisissez l’option Quicktime sans iTunes, sauf si vous
voulez iTunes. Décochez la case « Tenez-moi informé » pour éviter de
donner votre adresse mail et de recevoir des publicités (sauf si vous
le désirez).
Installer si ce n’est pas fait automatiquement QuickTimeInstaller.exe
Notes sur le type de machine utilisable
De nombreux logiciels gratuits existent en version Windows et en
version Mac (et aussi Linux). On dispose donc d’une grande liberté de
ce point de vue. Mais attention tous les ordinateurs ne peuvent pas
convenir.
En effet l’utilisation de sons et de vidéos est gourmande en ressources
matérielles et peut nécessiter des machines puissantes. L’utilisation
de petites vidéos ou de petits fichiers sons peut toutefois convenir
pour des machines d’environ 5-7 ans ou des mini-pcs. L’utilisation de
textes seuls ne pose pas de problème. Pour de gros documents une
machine récente (3 ans) est conseillée.
Egalement comme la totalité des outils sont gratuits et sans publicité,
les concepteurs ne peuvent forcément disposer de temps pour faire
fonctionner les logiciels sous tout type de systèmes et de matériels.
Ainsi ne fonctionnent en général que les Mac sous système OSX 10.4 et
plus et les Windows sous XP ou un système plus récent (Vista et 7).
Enfin, attention, les fortes demandes matérielles pour le son et la
vidéo font qu’un ordinateur récent mal configuré ou mal conçu (hélas
cela arrive assez souvent avec Windows Vista) peut être inutilisable.
Ce type de problème peut souvent se résoudre par une réinstallation
totale du système et/ou un retour à un système plus ancien (plus simple
donc) et plus adapté à la machine. Un ordinateur ancien (5 ans par
exemple) sous Windows XP avec peu de logiciels installés peut se
révéler meilleur qu’un ordinateur de 2 ans sous Windows Vista mais
surchargé.
Programmes complémentaires pour les versions Windows
Certains programmes peuvent demander le « Java Runtime Environnement »
(notamment ELAN et PHON ainsi que R, mais aussi certains utilitaires
CLAN). Il est conseillé de simplement procéder à l’installation d’ELAN
qui la plupart du temps le fait automatiquement. En cas de besoin, ce
programme se trouve dans http://www.oracle.com/technetwork/java/javase/downloads/index.html. Sélectionner « Download JRE » puis suivez les instructions. Choisissez le système Windows. Lancer le programme jre-7u1-windows-i586.exe si ce n’est pas fait automatiquement.
Pour les Mac, ces programmes sont installés automatiquement.
Programmes pour les caractères phonétiques (API)
Il est possible de rentrer directement des codes phonétiques API en
utilisant des logiciels adaptés. Pour la langue française, ces
logiciels représentent la meilleure solution car il est possible de
coder tous les signes phonétiques même ceux utilisant des diacritiques
comme la nasalisation.
Un deuxième programme est « FreeKey SIL IPA keyboard », compatible Windows XP, Vista et 7 (à télécharger sur http://scripts.sil.org/cms/scripts/page.php?&item_id=UniIPAKeyboard, utiliser le programme FreeKey SIL IPA setup.exe
pour l’installation). Ce programme utilise des séquences de deux
touches pour produire des valeurs API qui ne sont pas sur un clavier
ordinaire.
Un premier programme est Samipa (à télécharger sur http://latlntic.unige.ch/phonetique/,
utiliser le programme samipafr.zip –à décompresser d’abord- pour
l’installation). Samipa est hélas non compatible Windows 7 et Vista.
Pour les programmes Mac, voir le clavier virtuel MAC OS X ou utiliser «
IPA Unicode 5.1 Macintosh Keyboard v1.4 » disponible sur http://scripts.sil.org/cms/scripts/page.php?&item_id=UniIPAKeyboard. Utiliser le programme IPA-MACkbd.dmg pour l’installation.
Programmes complémentaires pour travailler sur les corpus
Travailler sur les corpus nécessite souvent d’éditer les fichiers
directement, sans les artifices de Word ou de CLAN. Ces éditeurs
permettent aussi souvent de convertir des codages pour les accents
(Unicode, ANSI, etc) et d’automatiser des modifications.
Sont hautement recommandés Notepad++ disponible ici http://notepad-plus-plus.org/download/
sous Windows seulement (exécuter le fichier npp.5.9.6.2.Installer.exe) ou
un peu moins performant mais multi-système Windows, Mac et Linux, JEdit
disponible ici http://www.jedit.org/index.php?page=download (exécuter jedit4.4.2install.exe pour installer sous Windows ou jedit4.4.2install.dmg pour installer sous Mac ).
Les tableurs
Les tableurs sont des outils classiques de bureautique très efficaces
pour travailler sur des codages corpus à condition de limiter la taille
des corpus. Ces outils existent sous plusieurs formes, la plus connue
étant Microsoft Excel (à acheter dans le commerce) et l’autre étant
OpenOffice et LibreOffice, moins performant mais gratuit et disponible ici http://fr.openoffice.org/about-downloads.html
ou là http://www.libreoffice.org/download/ pour Windows et pour Mac (les deux séries ont des fonctionnalités proches). Tous les exemples présentés dans le workshop
tournent sous OpenOffice et LibreOffice.
Programme de lexicométrie
Le travail sur corpus exige, lorsqu’il est poussé, des outils
spécifiques de traitements de corpus dits outils de lexicométrie. De
bons exemples en sont Le Trameur, disponible ici http://tal.univ-paris3.fr/trameur/ sous PC seulement (installer avec setup-trameur-9-l.exe – demander la version complète sur le site) et MkAlign, disponible ici http://tal.univ-paris3.fr/mkAlign/ sous PC seulement, (installer avec setup-mkAlign.exe).
Programme de traitement de corpus et de calcul statistique
Il existe un logiciel gratuit très puissant permettant de traiter des
corpus et de calculer des valeurs statistiques, R. Vous pouvez le
trouver ici http://mirror.ibcp.fr/pub/CRAN/ en version Windows ou Mac (exécuter R-2.14.0-win.exe pour installer sous Windows ou R-2.14.0.pkg pour installer sous Mac ).
Site vidéos et formations Modyco/Adyloc/IRCOM