Bilan de la phase I du projet -- Construction de
corpus : méthodologie et mise en oeuvre
Sir
Humphrey:
The only way to understand the Press is to remember that they pander to their readers'
prejudices.
Jim
Hacker:
Don't tell me about the Press. I know *exactly* who reads the papers. The Daily
Mirror is read by the people who think they run the country. The Guardian is
read by people who think they *ought* to run the country. The Times is read by
the people who actually *do* run the country. The Daily Mail is read by the
wives of the people who run the country. The Financial Times is read by people
who *own* the country. The Morning Star is read by people who think the country
ought to be run by *another* country. The Daily Telegraph is read by the people
who think it is.
-- Yes, Prime Minister
PLAN
Introduction
I Notions générales
II Méthodologie
III Méthodes et sources
IV Corpus comparable
INTRODUCTION
Arrivant presque
à la fin de la première phase de notre projet, nous aimerons récapituler notre
travail du point de vue méthodologique et pratique.
Nous commencerons
brièvement par les notions générales et les démarches de la construction de
corpus pour ensuite mettre en lumière les choix des méthodes et des sources.
Enfin, nous présenterons notre corpus.
I Notions générales
1.1 Qu’est-ce que le corpus ?
Des linguistes ont
des points de vue différents sur la notion (l’objet). Il est necessaire de tenir
compte de ces différences. Un corpus est :
•
“…selected and ordered according to
explicit linguistic criteria in order to be used as a sample of the language” (Sinclair, 1996)
•
“A well-organized collection of data” (McEnery, 2003)
•
« un regroupement structuré de textes intégraux,
documentés, éventuellement enrichis par des étiquetages, et rassemblés :
(i) de manière théorique réflexive en tenant compte des discours et des genres,
et (ii) de manière pratique en vue d’une gamme d’applications » (Rastier, 2005)
•
There are many ways to define a corpus […] but there is an
increasing consensus that a corpus is a collection of (1) machine readable (2)
authentic texts (including transcripts of spoken data) which is (3) sampled to
be (4) representative of a particular language or language variety. (McEnery et al., 2006)
Cette variation
de définitions n’empêche pas de récupérer des éléments essentiels d’un
corpus : authentique, structuré, représentative et bon échantillonnage
pour un objectif précis.
1.2 Taxinomie de corpus
1.3 Caractéristique de corpus
II Démarches de construction de
corpus
Il s’agit
notamment des considérations et des étapes de construciton d’un corpus.
2.1 Design
Représentativité
La
représentativité est déterminée par l’échantillonnage et l’équilibrage.
• “A corpus is thought to be representative of the language variety it is
supposed to represent if the findings based on its contents can be generalized
to the said language variety” (Leech, 1991)
Cependant, cette
notion est assez fluide selon des objectifs de recherche. Un corpus pour représenter
une certaine langue est necessairement différent de celui pour analyser
spécifiquement un phénomène vu dans la presse d’une langue.
Echantillonnage
III Méthodes et sources
Selon la
méthodologie de construction de corpus et les objectifs du projet, nous avions
dans un premier temps délimité notre cadre général de travail : la presse. car des
articles journalistiques sont assez homogènes au niveau de registre.
A propos d’autres
types de sites web, tels que réseaux sociaux, forums, twitter, blogs, wiki,
etc, il n’est pas facile de trouver des « équivalents » dans les
trois langues de travail. Pour que le corpus soit « comparable » aux
niveaux de registre et de genre, le choix était fait ainsi.
Il y a quand même
un paradoxe :
Il est inévitable
de faire une sélection pour constituer un corpus homogène et représentatif, mais
la sélection entraîne des modifications sur des données observées.
3.1 les méthodes utilisées
Après avoir
déterminé le thème et le cadre, nous avions utilisé queleques outils pour préciser
nos choix.
3.1.1 Quelle période ?
Voir les figures
de recherche et leurs requêtes associées :
Grosso modo,
l’intérêt pour ce thème en Google commençait en 2014, 2009 et 2014 respectivement
en France, au Royaume-Uni et en Chine.
Mais, il est
uncertain que le résultat pour le chinois soit fiable car le moteur de
recherche le plus utilisé en Chine est Baidu au lieu de Google. Nous avons donc
tésté cette requête avec Baidu Index (plus ou moin parail que Google Trends).
Le résultat est quasi-similaire.
Voir la figure
obtenue par Baidu Index :
La période est
donc décidée : de 2014 à 23/09/2017 (le jour où nous avons commencé la
collection des données).
3.1.2 Quel pays/région ?
Chacun de nos
trois langues de travail connaît de nombreuses variétés régionales.
Le français :
Etudiant(e)s non francophone, nous trouvions
le français de France le meilleur choix. Le Québec, le Belgie et la Suisse ont
chacun au moins deux langues officielles. Cela nous poserait deux difficultés
majeures : 1) il est probable que le français n’est pas la langue
maternelle pour l’auteur d’un texte ; 2) il n’est pas évident si un texte
est original ou traduit.
L’anglais :
Nous avions hésité entre l’anglais américain
et l’anglais britanique. Le choix était facilement fait car l’accès à la presse
en ligne aux Etats-Unis était limité : payant, sous condition
d’enregistrement, etc, alors que l’accès est assez libre au Royaume-Uni.
Le chinois simplifié :
Il est évident que le chinois simplifié
le plus représentatif et le plus vivant est en Chine continentale...
3.1.3 Quelle presse ?
Chaque presse a sa
propre ligne éditoriale, et eventuellement son lectorat spécifique. Ainsi, elle
a tendance à utiliser des tournures spécifiques sur certain thème. Pour équilibrer
nos données, nous avons choisi pour chaque langue trois sites de journaux. Voir
les critères de nos choix :
3.1.4 Quelle distribution / taille ?
Nous avons distribué
des poids pour des années différentes car l’intêret pour IA a tendence d’augementer.
Il est logique que 2017 a un poids plus lourd que celui de 2014.
2014 : 2015 : 2016 :
2017 = 1 : 1 : 2 : 2
Pour chaque journal, 10 unités pour 2014
est assez propre. Donc,
2014 : 2015 : 2016 :
2017 = 10 : 10 : 20 : 20
Pour chaque langue,
2014 : 2015 : 2016 :
2017 = 30 : 30 : 60 : 60
180 unités au total pour chaque langue.
De plus, il faut
essayer d’équilibrer au sein d’une année.
3.1.5 Comment faire la sélection ?
2 moyens :
Utiliser la
recherche avancée fournie par les sites journaux.
Unitiser la
recherche avancée de Google en spécifiant le site principal, le mot-clé et la
période.
IV Corpus trilingue schématisé
Dans cette
partie, nous aimerons schématiser les caractéristiques de notre corpus (ou
plutôt de l’archive sans prétraitement).
Journal
|
Accès
|
Périodicité
|
Ligne
éditoriale
|
Format
|
Genre
|
Circulation
|
Le Monde
|
contraites
de certains articles
|
quotidienne
|
centre-gauche
|
grand
(sérieux)
|
généraliste
|
nationale
|
Le Figaro
|
contraites
de certains articles
|
quotidienne
|
droite gaulliste,
libérale, conservatrice
|
grand
(sérieux)
|
généraliste
|
nationale
|
La Libération
|
contraites
de certains articles
|
quotidienne
|
gauche
|
tablöid
(mais
sérieux)
|
généraliste
|
nationale
|
The Guardian
|
libre
|
quotidienne
|
social-libéralisme
(centre-gauche)
|
grand
(sérieux)
|
généraliste
|
nationale
|
The Daily Telegraph
|
libre
|
quotidienne
|
conservatrice
(centre-droite)
|
grand
(sérieux)
|
généraliste
|
nationale
|
Independent
|
libre
|
quotidienne
|
libérale
(centre-gauche)
|
tablöid
(mais
sérieux)
|
généraliste
|
nationale
|
人民日报
People’s Daily
|
libre
|
quotidienne
|
Socialism
with Chinese characteristics
|
grand
(sérieux)
|
généraliste
|
nationale
|
中国青年报
China Youth Daily
|
libre
|
quotidienne
|
Non
précise
|
grand
(sérieux)
|
généraliste
|
nationale
|
南方都市报
Southern Metropolis Daily
|
libre
|
quotidienne
|
quasi-libérale
|
tablöid
(mais
sérieux)
|
généraliste
|
*in the Pearl River Delta
area
|
*
Southern Metropolis Daily est régionale mais possède une
circulation plus grande que 1 million (stat 2012). Pour être
comparable au niveau de ligne éditoriale, le journal est un choix
imparable.
Bibliographies et références
Leech, G. (1991) "The state of
the art in corpus linguistics", in Aijmer K. and Altenberg B. (eds.) English Corpus Linguistics: Studies in
Honour of Jan Svartvik, pp 8-29. London: Longman.
McEnery, T., & Wilson, A. (2003).
Corpus linguistics. The Oxford Handbook of Computational Linguistics, S,
448-463.
McEnery, T., Xiao, R., & Tono, Y.
(2006). Corpus-based language studies: An advanced resource book. Taylor & Francis.
Rastier, F.
(2005). Enjeux épistémologiques de la linguistique de corpus. La
linguistique de corpus, 31-45.