Dans la plupart des cours de littérature de niveau universitaire, vous trouverez des étudiants disséquant de petites parties de classiques littéraires: les soliloques de Shakespeare, le flot de conscience de Joyce et les phrases staccato de Hemingway. Nul doute que grâce à ce type de lecture attentive, il y a tant à apprendre sur un écrivain, son art et le sens d'une histoire.
Mais Ben Blatt plaide avec force pour une autre approche. En se concentrant sur certaines phrases et paragraphes, il pose dans son nouveau livre, Le mot préféré de Nabokov est mauve, les lecteurs négligent tous les autres mots, qui, dans un roman de longueur moyenne, représentent des dizaines de milliers de points de données.
Le journaliste et statisticien a créé une base de données contenant une série de textes classiques du XXe siècle et de best-sellers afin de répondre de manière quantitative à un certain nombre de questions d’intérêt. Son analyse a révélé certaines tendances originales qui pourraient autrement passer inaperçues:
En chiffres, les meilleures phrases d'ouverture aux romans ont tendance à être courtes. L'auteur prolifique James Patterson a en moyenne 160 clichés pour 100 000 mots (soit 115 de plus que la vénérable Jane Austen), et Vladimir Nabokov a utilisé le mot mauve 44 fois plus souvent que l'écrivain moyen au cours des deux derniers siècles.
Smithsonian.com a parlé à Blatt de sa méthode, de certaines de ses principales conclusions et de la raison pour laquelle le Big Data est important pour l’étude de la littérature.
Vous avez adopté une approche statistique pour tout étudier, de Where's Waldo à Seinfeld, des fast food à des chansons pop. Pouvez-vous expliquer votre méthode et pourquoi vous faites ce que vous faites?
Je suis un journaliste de données et je regarde des choses dans la culture pop et l'art. J'aime beaucoup regarder des choses quantitatives et impartiales qui contiennent beaucoup d'informations que les gens n'ont pas pu consulter. Si vous vouliez savoir ce qu’est une personne typique des États-Unis, ce serait utile, mais vous ne voudriez pas parler à une seule personne, tout savoir sur elle et présumer ensuite que tout ce qui concerne les Américains est la même. Je pense qu’une chose avec l’écriture de ce genre de perdue est que vous pouvez vous concentrer sur une phrase d’un auteur, en particulier dans les cours d’écriture créative, ou sur un passage, et que vous perdez la vue globale pour voir ces modèles généraux et les tendances que les auteurs utilisent encore et encore, des centaines et peut-être des milliers de fois dans leurs propres écrits.
Le mot préféré de Nabokov est le mauve: ce que les chiffres révèlent au sujet des classiques, des meilleures ventes et de notre propre écriture
AcheterAlors qu'est-ce qui vous a amené à vous tourner vers la littérature?
J'ai étudié les mathématiques et l'informatique, mais j'ai toujours aimé lire et écrire. Tandis que j'écrivais de plus en plus, je suis devenu très intéressé par la façon dont différents écrivains et personnes donnent des conseils en rédaction. Beaucoup de ces informations avaient du sens, mais ne semblaient pas être étayées par des informations, et beaucoup étaient contradictoires. Je pensais juste qu'il devait y avoir un moyen de prendre ces sujets par écrit que les gens étaient déjà bien conscients de parler et de les tester et de les tester sur de grands auteurs et des auteurs populaires pour voir si ce conseil est réel ou s'il s'agit d'un conseil prescriptif qui ne le fait pas. t signifie vraiment quoi que ce soit dans les vrais livres et les vraies pages.
Quelle était la première question que vous vouliez poser sur les classiques littéraires et les best-sellers?
Le premier chapitre de ce livre consiste à vous demander si vous devez ou non utiliser des adverbes simples. C'est aussi le premier chapitre que j'ai écrit chronologiquement. C'est principalement sur le conseil de Stephen King de ne pas utiliser d'adverbes dans son livre On Writing, qui est pour beaucoup d'écrivains le livre sur l'écriture. Mais de nombreux autres écrivains - Toni Morrison, Chuck Palahniuk - et tout cours d'écriture créative conseillent de ne pas utiliser d'adverbe, car c'est un mot inutile et un signe que vous n'êtes pas concis. Au lieu de dire: «Il a rapidement couru», vous pouvez dire: «Il a sprinté».
Alors je voulais savoir, est-ce vraiment vrai? Si c'est un si bon conseil, vous vous attendez à ce que les grands auteurs l'utilisent moins. Vous vous attendriez à ce que les écrivains amateurs l'utilisent plus que les auteurs publiés. Je voulais vraiment savoir, stylistiquement, d’abord si Stephen King suivait ses propres conseils, puis si cela s’appliquait à tous les autres grands auteurs vénérés.
Alors, qu'as-tu trouvé?
En fait, il existe une tendance selon laquelle des auteurs tels que Hemingway, Morrison et Steinbeck, leurs meilleurs livres, ceux qui sont retenus et qui retiennent le plus l’attention, sont ceux qui contiennent le moins d’adverbes. En outre, si vous comparez l'écriture de fiction amateur et l'écriture en ligne qui n'a pas été éditée par les best-sellers et les lauréats du prix Pulitzer, il existe une différence, où les adverbes sont moins utilisés par les auteurs publiés. Je ne suis pas si unilatéral que je pense que vous pouvez simplement extraire les adverbes simples d'un livre correct et cela devient un excellent livre. Ce n'est évidemment pas comme ça que ça marche. Mais il y a quelque chose dans le fait que les écrivains qui écrivent de manière très directe produisent des livres qui vivent généralement le plus longtemps.
Comment avez-vous créé une base de données d'œuvres littéraires?
Pour beaucoup de questions, j'utilisais les mêmes 50 auteurs que j'avais choisis un peu arbitrairement. Il s’agissait essentiellement d’auteurs figurant en tête de la liste des best-sellers, d’autant plus grands auteurs de tous les temps et d’auteurs représentant un large éventail de genres, d’époques et de lecteurs. Ainsi, tout au long du livre, vous pouvez comparer ces auteurs et apprendre à les connaître.
Il était très important pour moi que, si je disais quelque chose comme: «Toni Morrison utilise ce mot à ce rythme», je parlais de tous les romans qu'elle a écrits, et pas seulement des trois que je connais déjà. Dans mon livre, il est fait référence à 50 à 100 auteurs. J'ai trouvé leurs bibliographies, puis tous les romans qu'ils avaient écrits jusque-là comme récit complet. D'une certaine manière, c'est un peu comme si on tenait des statistiques sportives: chaque livre ressemble à une saison, puis toutes ces saisons ou ces livres se rejoignent en carrière. Vous pouvez voir comment les auteurs changent avec le temps et comment ils font les choses en général. Une fois tous les livres archivés, il est très simple de répondre à ces questions qui, à certains égards, sont très décourageantes.
Et comment avez-vous traité tout ce texte?
Il existe un langage de programmation appelé Python et, à l'intérieur, un ensemble d'outils appelé Natural Language Toolkit, souvent abrégé en NLTK. Les outils impliqués sont à la disposition de tous. Vous pouvez télécharger le package en ligne et l’utiliser en Python ou dans d’autres langues. Vous ne pouvez pas obtenir beaucoup de questions écrites en particulier, mais vous pouvez dire combien de fois ce mot apparaît-il dans le texte? Il peut parcourir et identifier où se terminent les phrases et où commencent celles-ci, ainsi que des parties du discours - adjectif vs adverbe vs verbe. Donc, une fois que vous avez ces outils, vous pouvez obtenir les données.
Quelles statistiques avez-vous compilé manuellement? Quel était le plus fastidieux?
Il y a une section où je regarde les phrases d'ouverture. Elmore Leonard, qui était un romancier très réussi, avait déclaré: «N'ouvrez jamais un livre avec la météo.» C'est également un conseil que l'on trouve dans de nombreux guides de rédaction. J'ai donc consulté des centaines d'auteurs pour voir à quelle fréquence ils ouvrent leur livre sur la météo. Par exemple, Danielle Steel, je pense que 45% de ses premières phrases dans des livres portent sur la météo. Plusieurs fois, c'est juste «C'était une journée magnifique» ou «Il faisait beau et ensoleillé», des choses comme ça. Pour cela, il n’existait aucun moyen de le faire automatiquement sans erreur, aussi je passerais en revue tous les fichiers du livre et indiquerais s’il y avait du temps. Vous pouvez dire que c'était fastidieux, parce que beaucoup de données ont été recueillies, mais c'était assez amusant de lire et de lire des centaines de phrases liminaires à la fois. Il y a d'autres modèles qui émergent clairement des auteurs au fil du temps.
Comme tu dis, fastidieux pour certains, amusant pour d'autres. Certains pourraient penser que cette approche analytique est ennuyeuse, mais vous dites qu'elle peut être «amusante» et «souvent franchement amusante». Quelle a été votre découverte la plus amusante?
Le titre du livre, Le mot préféré de Nabokov, c'est Mauve, explique comment, en chiffres, le mot qu'il utilise au taux le plus élevé par rapport à l'anglais est mauve. Cela a beaucoup de sens si l’on regarde ses antécédents, car il souffrait de synesthésie. Dans son autobiographie, il a expliqué comment, lorsqu'il entendait des lettres et des sons différents, son cerveau évoquait automatiquement des couleurs.
J'ai répété cette expérience sur 100 autres auteurs pour voir quel est leur mot préféré. En conséquence, vous obtenez trois mots qui sont représentatifs de leur écriture par les mots qu'ils utilisent le plus. Civilité, fantaisie et imprudence. C'est Jane Austen. Je pense que si vous voyiez ces mots, Jane Austen pourrait être l'une de vos premières suppositions. Et puis vous avez un auteur comme John Updike, qui est un peu plus sérieux et réel et d’une époque différente. Ses mots préférés sont cerclés, piqués et baisés. Je pense que voir la personnalité se développer à partir de ces questions mathématiques simples est très intéressant. Si vous avez un auteur préféré, le consulter révèle en quelque sorte une personnalité que vous n'avez peut-être pas remarquée auparavant.
Ray Bradbury avait écrit que son mot préféré était cannelle. En chiffres, il l'utilise beaucoup. Son explication de pourquoi il aimait la cannelle était que cela lui rappelait le garde-manger de sa grand-mère. J'ai donc trouvé d'autres mots d'épice et des mots d'odeur qui pourraient être associés au garde-manger d'une grand-mère, et Ray Bradbury utilise la plupart de ces mots à un taux très élevé. D'une certaine manière, vous pouvez obtenir ce regard étrange et freudien sur quelque chose concernant l'enfance des auteurs. Si Ray Bradbury n’avait pas dit cela, vous pourriez peut-être encore le comprendre.
Vous avez comparé des écrivains américains et britanniques, confirmant ainsi un stéréotype selon lequel les Américains sont forts. Pouvez-vous expliquer celui-ci?
Celui-ci était en fait basé à l'origine sur une étude réalisée par un étudiant diplômé de Stanford. Il avait identifié les mots utilisés pour décrire le dialogue dans les livres et les avait décrits comme étant forts, neutres ou silencieux. "Murmuré" et "murmuré" serait sous silence. Neutre serait "il a dit" ou "elle a dit", et fort serait "il s'est exclamé" ou "a crié." J'ai parcouru les 50 auteurs que j'ai consultés, ainsi que de grands échantillons de fan fiction, et ai trouvé, pas par une marge folle mais une marge significative, que les Américains ont un rapport plus élevé des mots forts aux mots calmes. Il y a quelques explications. C'est peut-être ainsi que les Américains parlent toute leur vie. C'est ainsi que les écrivains les décrivent en train de parler fréquemment. Vous pouvez également le voir comme des écrivains américains ayant une préférence pour des histoires plus basées sur l'action, à suspense, à tempo élevé par rapport aux histoires plus subtiles. Les Américains sont en effet plus forts en chiffres.
Ben Blatt, auteur du mot préféré de Nabokov est le mauve (Sierra Katow)Pourquoi pensez-vous que l'application des mathématiques à l'écriture est un bon moyen d'étudier la littérature?
Je ne préconise certainement pas que ce soit la première façon d’étudier la littérature si vous essayez d’améliorer votre écriture. Mais même un roman de longueur moyenne contient probablement 50 000 mots, soit 50 000 points de données. Vous ne pourrez tout simplement pas assimiler tout cela en même temps, et vous ne pourrez pas répondre à certaines questions, mais vous ne pourrez pas y répondre seul. C'est bon de voir l'image plus grande. Si vous vous asseyez et étudiez un paragraphe, vous êtes dans votre classe d'écriture créative et vous parlez à votre professeur. S'il existe un moyen de regarder cela, vous allez simplement le voir tout au long de votre projet. Mais avec les données, cela vous en libère et vous pouvez répondre à certaines questions sans ces biais et obtenir de nouvelles informations.
Vous dites que vous avez continué à penser à «Le grand Grammatisateur» de Roald Dahl.
Il y a une grande histoire de Roald Dahl où essentiellement un ingénieur conçoit un moyen d'écrire une histoire. Dans ce scénario catastrophique, quelqu'un peut simplement donner un complot à la machine et elle va cracher un dernier roman. Ce qu’ils insinuent, c’est qu’ils produisent des romans aussi théoriques et fondamentaux. Le protagoniste de cette histoire choisit de ne pas participer à l'opération de la machine et lutte contre celle-ci en créant ses propres écrits et son propre art.
Je pense vraiment que ce livre, si vous êtes en écriture, répondra à beaucoup de questions et changera définitivement votre façon de penser, mais finalement, rien ne remplace les idées qui font réfléchir les gens et les scènes qui les rendent peur ou se connecter avec les personnages. Ce livre s'intéresse au métier d'écrivain et pas nécessairement à la création d'une histoire mémorable. Ce livre n'essaye pas de créer un roman parfait, et je ne pense pas que nous en soyons aussi proches que certains pourraient le craindre.