Lid sinds

14 jaar 6 maanden

Rol

  • Gewone gebruiker

Software voor tekstanalyse (beginwoorden, woordvariatie)

7 juni 2010 - 14:07
Beginwoorden Beginwoorden toont waar je in twee achtereenvolgende zinnen hetzelfde beginwoord gebruikt. Tevens krijg je een frequentie van identieke beginwoorden in alle zinnen te zien. Woordvariatie Woordvariatie berekent van de eerste 20.000 woorden van een tekst het percentage verschillende woorden. Daarnaast wordt een woordlengteverdeling gegeven: Percentage woorden met een lengte van 1-7 letters Percentage woorden met een lengte van 7-14 letters Percentage woorden met een lengte van meer dan 14 letters Ter vergelijking een overzicht van enige schrijvers: Percentage Woordlengtes woordvariatie <7 7-14 >14 Van der Heijden 23 80 20 1 Hubert Lampo 23 76 23 1 Harry Mulish 23 80 20 1 Kees van Kooten 23 81 19 0 Andreas Burnier 22 70 28 2 Ina Boudier Bakker 22 78 21 0 Simon Carmiggelt 21 82 17 0 Hella Haasse 20 79 20 0 Jan Siebelink 20 81 18 0 Jan Wolkers 20 83 17 0 A. den Doolaard 19 83 17 0 J. Bernlef 19 83 16 0 A.C. Baantjer 17 79 21 0 Arnon Grunberg 14 84 16 0 Dick Laan 9 84 16 0 Ik heb de programma's geschreven in Turbo Pascal (MSDOS), en ze met PowerBasic een Windowsuiterlijk gegeven (Ze zullen dus niet werken onder de 64-bitversies van Vista en Windows 7). Beginwoorden en Woordvariatie zijn te vinden op: http://members.home.nl/khdevries/

Lid sinds

14 jaar 6 maanden

Rol

  • Gewone gebruiker
8 juni 2010 - 13:11
teveel aan bepaalde woorden: hoeft niet verkeerd te zijn, het is je eigen beoordeling of je dit wel of niet storend vindt. Ook twee achtereenvolgende zinnen met hetzelfde woord beginnen hoeft niet fout te zijn, kan misschien juist sterk werken. In ieder geval heb je er dan bewust voor gekozen.

Lid sinds

19 jaar 5 maanden

Rol

  • Gewone gebruiker
9 juni 2010 - 21:02
Ik had door de tijd heen een lijst verzameld met o.a. stopwoorden/en woorden waar ik steeds dezelfde voor neem terwijl er goede synoniemen voorhanden zijn. Dat was een aardige lijst geworden. En dan opende ik - wanneer mijn boeken klaar waren - mijn document, zocht naar hoeveel keer woord X aanwezig was in het manuscript en bekeek elk woord één voor één. Een boel stopwoorden (vulling) kon ik direct verwijderen. Enfin, als auteurs kennen we dit fenomeen. Maar het kost zo ongelooflijk veel tijd en het is verschrikkelijk, nee, gruwelijk werk. Bovendien, ik ging alleen uit van die lijst en dat wilde ik niet. Ik wilde een totaaloverzicht hebben van alle woorden in mijn document. Ik was zelfs benieuwd naar het aantal unieke woorden dat ik gebruik. Ik ben dus aan de kop gaan zeuren van technische mensen of er geen programma bestond die al mijn woorden zouden kunnen rangschikken in een lange lijst. Na lang zoeken kreeg ik voor het productieklaar maken van mijn laatste boek een programma die dat perfect deed. Je plaatst je manuscript in het programma en binnen nog geen 5 seconden is alles van a t/m z geordend in een lange lijst. Ik heb die lijst gekopieerd naar een spreadsheetprogramma en bepaalde zaken verwijderd zoals punten, komma's, uitroeptekens e.d. Wat overbleef, waren alle "echte" woorden in het document. Zo kon ik zien dat mijn manuscript niet alleen 89.289 woorden heeft maar ook dat ik 9392 unieke woorden gebruik. Ik kon de frequentie zien van de woorden in aantallen én ook in percentages. Aan de hand van mijn beruchte lijst van stopwoorden kon ik in een handomdraai zien hoe vaak ik "het doe". Ik heb uiteindelijk een selectie gemaakt van woorden die opvielen. Dus van woorden, naast de beruchte lijst. Daarmee ben ik aan de slag gegaan. Wat wel grappig is - ik vertel het even voor de lol - is het feit dat er op een goede dag een consultant was die me aangaf zich te storen aan het gebruik van een woord. Ik had namelijk aan ze gevraagd om me te vertellen of er woorden waren die in "negatieve zin opvielen". Welnu, de persoon in kwestie kwam met een woord aanzetten die er maar 2x instond. Het synoniem dat deze persoon gaf als alternatief werd inmiddels 6x gebruikt. Ik vroeg de consultant naar het waarom dit woord stoorde, want het wordt door o.a. een boel mensen die ik ken gebruikt. Bleek er gewoon een apathie te zijn tegen dat woord. Geweldig, toch? Het programma kun je free downloaden op http://www.notetab.com en het heet NoteTab Light Het scheelt heel veel tijd, het is erg makkelijk te gebruiken, je hoeft er echt geen slimme professor voor te zijn. Het is voor mij een zegen en een redding geweest. Succes!

Lid sinds

14 jaar 6 maanden

Rol

  • Gewone gebruiker
10 juni 2010 - 0:00
Bedankt voor je tip! Voordeel van dit programma: veel mogelijkheden! Nadeel: veel mogelijkheden. Het duurt even voor je weet waar je moet kijken, in dit geval bij Tools -> Text Statistics -> More voor het door jou genoemde overzicht. Wel gek dat het aanhalingstekens niet herkent, 'Hallo en Hallo ziet het als twee verschillende woorden.