Mens - Informatie Flashcards
(54 cards)
Semiotiek
De studie naar de werking van tekens, e.g:
* letters (alfabet)
* karakters (b.v. het Chinese schrift)
* woorden (het systeem is het totale lexicon)
* morsetekens, brailletekens
* verkeersborden, pictogrammen
* gebaren, iconen
* voorwerpen (een witte vlag, een steen door de ruit, een sluier).
Semiotische ladder
Beneden naar boven:
* PHYSICAL WORLD: signals, traces, physical distinctions, hardware, physical tokens, component density, speeds, economics, laws of nature, …
* EMPIRICS: pattern, variety, noise, entropy, channel capacity, codes, efficiency, redundancy, …
* SYNTACTICS: formal structure, language, logic, data, records, deduction, software, files, …
* SEMANTICS: meanings, propositions, validity, truth, signification, denotations, …
* PRAGMATICS: intentions, communication, conversations, negotiations, speech acts, …
* SOCIAL WORLD: beliefs, expectations, commitments, contracts, social laws, culture, …
Fysieke tekens
Het fysieke niveau houdt zich bezig met alle mogelijke manieren om een teken te vormen. De tekens kunnen op zichzelf al betekenis hebben, of in combinatie met elkaar (b.v. klanken die samen een woord vormen).
Het empirische niveau
De manier waarop alle tekens (theoretisch) kunnen worden gecombineerd, geobserveerd of verstoord. Patronen en combinaties, variatie, ruis, entropie, redundantie, efficientie.
Syntax
Bepaalt wat geldige ( en niet-geldige) combinaties van tekens (woorden en zinnen) zijn. De ‘betekenis’ van een zin op syntactisch niveau is als volgt gedefinieerd: twee formules hebben dezelfde betekenis als de ene vanuit de andere kan worden afgeleid.
Morfologie
Morfologie is in het algemeen de leer van de woordstructuur en de woordvorming. De morfologie houdt zich bezig met morfemen, de kleinste betekenisdragende eenheden in een woord.
Syntaxis
Syntaxis is het meest uitgebreide deelgebied, waar traditioneel twee vormen van zinsontleding naast elkaar worden gebruikt:
* taalkundige ontleding ofwel woordontleding
* redekundige ontleding ofwel zinsontleding
Semantiek
Houdt zich bezig met de betekenis van woorden, zinnen of langere teksten of andere talige uitingen.
2 semantische principes
Objectivisme: de vertaling van een syntactische structuur naar de fysieke wereld is voor iedereen hetzelfde.
* De wereld is principieel of daadwerkelijk objectief te kennen.
Constructivisme: legt nadruk op het feit dat kennis tot stand komt door een actieve constructie, eerder dan een passieve representatie van de werkelijkheid.
* wij passen voortdurend de (subjectieve) betekenis van een woord of zin bij, vooral wanneer we beseffen dat er sprake is van spraakverwarring of andere misverstanden.
Pragmatiek
Doorgaans wordt een bepaalde communicatie-uiting gedaan met een bepaalde bedoeling, een bepaalde intentie.
We verwachten dan dat de andere partijen (mensen of systemen) reageren zoals wij het bedoeld hebben, e.g: Dat iemand het licht uitschakelt als je zegt dat het licht nog aan is.
Kennisbanken
Een kennisbank is een gespecialiseerde databank voor de opslag en het beheer van ’kennis’. Een kennisbank is de basis voor een collectie van kennis. Normaliter bestaat een kennisbank uit specifieke kennis met betrekking tot een organisatie. […] Voor structuur en zoekmogelijkheden is classificatie van de data in een kennisbank onontbeerlijk.
Kennisbanken kom je in allerlei verschillende vormen tegen, waaronder:
* Gestructureerde relationele databases (SQL)
* Enigszins gestructureerde niet-relationele databases (NoSQL, faceted search)
* Ongestructureerde vrije tekst (information retrieval, zoekmachines)
Relationele databases
- Data wordt opgeslagen in een of meer tabellen, waarbij elke tabelrij een unieke identificatie (een ‘key’) heeft.
- Elke rij (of ‘record’) beschrijft een entiteit (zoals een klant of een product)
- De kolommen staan voor de verschillende eigenschappen (of ‘attributes’) van die entiteit (naam, adres, kleur, prijs)
Verschillende databases die gedeeltelijk overlappende gegevens bevatten, kunnen worden gekoppeld.
Wanneer zijn databases nuttig?
Wanneer:
* Informatie kan worden beschreven op een coherente, gestructureerde manier.
* Alle entiteiten (zoals studenten, vakken, docenten) dmv dezelfde (beperkte) selectie eigenschappen kunnen worden beschreven.
* De relaties tussen die entiteiten logisch, beperkt en consistent zijn.
* De benodigde informatie (voor bijvoorbeeld het roosteren van vakken) beperkt is en kan worden vertaald in simpele (of ook complexe) vaste zoekvragen (queries).
SQL
Structured Query Language
SELECT <attribute>
FROM <table list>
WHERE <condition></condition></attribute>
Niet-relationele databases
NoSQL, Voor dit soort databases is het niet nodig dat entiteiten altijd (en alleen maar) dezelfde eigenschappen hebben. Ze bieden de mogelijkheid tot consistentie, maar bieden vooral ook flexibiliteit.
Faceted search
De facetten waarmee je je zoekopdracht kunt verfijnen, kunnen vooraf vastgelegde attributen zijn, of automatisch zijn ontdekt.
Deze manier van stap-voor-stap filteren is erg populair (en makkelijk) in webshops.
Information Retrieval (IR)
Houdt zich bezig met het zoeken naar informatie in documenten, naar documenten zelf, naar metadata die de documenten beschrijft, en het zoeken binnen databases, naar tekst, audio, beelden, of data.
* Een document of metadata wordt ‘vertaald’ in een reeks termen met een bepaald gewicht.
* De relevantie van deze ‘vertaalde’ documenten wordt dan bepaald op basis van gelijkenis met de zoekopdracht.
* Vaak is er voorbereiding nodig voor IR, bijvoorbeeld opschoning van teksten om ruis, stopwoorden, synoniemen, homoniemen etc te verwijderen.
Stemming
‘Stemming’ is het verwijderen van verbuigingen en vervoegingen (zoals meervoudsvormen, verkleinvormen) om elk woord tot een basisvorm te reduceren. Computer -> comput (Porter Stemmer)
Lemmatisering
Lemmatiseren is net als stemming een algoritmisch proces om woorden tot een basisvorm te reduceren. Echter, in tegenstelling tot een stemming-algoritme, maakt een lemmatizer wél gebruik van de context van een woord.
Lemmatiseren is taalkundig correcter en levert betere resultaten op. Maar lemmatiseren is ook lastiger om (goed) te implementeren en het proces duurt ook langer.
* In veel gevallen is stemming daarom de betere, praktischere keuze
Het semantische web
Tim Berners-Lee: “Het Semantic Web is een uitbreiding van het huidige Web, waarin alle informatie op een gestructureerde manier wordt omschreven, zodat computers en mensen beter kunnen samenwerken.”
Het Semantic Web biedt een gemeenschappelijke basis om data van verschillende applicaties of websites met elkaar te delen en te hergebruiken. Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium W3C
De lagen van het sematische web
- User Interface & Applications
- Trust
- Proof
- Unifying Logic
- Crypto
- Query: SPARQL
- Ontology: OWL
- RDFS
- RULE: RIF
- Data interchange: RDF
- XML
- URI/IRI
Aanname van een gesloten wereld
De aanname van een gesloten wereld (closed-world assumption) is de aanname dat alles waarvan niet expliciet bekend is dat het waar is, onwaar is. Het tegenovergestelde is de aanname van een open wereld (open-world assumption) die stelt dat een gebrek aan kennis niet een onwaarheid hoeft te betekenen.
RDF
RDF is een model om informatie over entiteiten op het WWW weer te geven.
* Met name: metadata over die entiteiten (zoals titel, auteur, versie, publicatiedatum, …)
In RDF worden entiteiten geïdentificeerd door Web Identifiers (Uniform Resource Identifiers, URIs). RDF volgt hierbij strikt de volgende triple-structuur: subject - predicate - object. Oftewel: onderwerp - gezegde/predicaat - lijdend voorwerp
Bijvoorbeeld: ‘Peter is interested in Sweden’ subject: http://www.peter.de/foaf.rdf#me; predicate: foaf:interest; object: http://en.wikipedia.org/wiki/Sweden;
RDF Schema en ontologieën
RDF Schema (RDFS) is een verzameling klassen binnen RDF die worden gebruikt om ontologieën te beschrijven.