Miloš Jakubíček

Lexical Computing

Miloš Jakubíček

Lexical Computing

Nota biográfica

Miloš Jakubíček es el director ejecutivo (CEO, por sus siglas en inglés) de Lexical Computing, empresa de investigación que trabaja en el ámbito de las tecnologías del lenguaje, principalmente en la imbricación de disciplinas como la lingüística de corpus, la lingüística computacional y la lexicografía computacional. Asimismo, es investigador en el campo del procesamiento del lenguaje natural (PLN) e ingeniero de software. Su investigación versa principalmente sobre dos ámbitos de estudio: el tratamiento eficaz de grandes corpus de texto y el análisis de lenguas de gran riqueza morfológica. Miloš está inmerso, desde 2008, en el desarrollo del producto estrella de Lexical Computing: el sistema de gestión de corpus Sketch Engine. Desde 2011, es director de la sucursal checa de Lexical Computing, en la que lidera el equipo local de desarrollo de Sketch Engine, así como director ejecutivo (CEO) de Lexical Computing desde 2014. Miloš es asimismo miembro del centro de procesamiento del lenguaje natural (NLP Centre) en la Universidad de Masaryk, en cuyo seno lleva a cabo su labor investigadora principalmente en torno a dos ámbitos: el análisis morfosintáctico y sus aplicaciones prácticas.

OneClick Terms: extracting terminology out of the Sketch Engine box

Terminology extraction has been part of Sketch Engine since 2014 (see Kilgarriff et al., 2014). It was based on a contrastive approach and implemented as a corpus function. While the corpus-based approach was a big advantage in terms of performance, it also required users to understand the concept of corpora and corpus building. To ease adoption of the technology, we developed terminology extraction as a standalone product (OneClick Terms) which works out of the box — in this case, out of the Sketch Engine box — and saves the users from the need of corpus building. Alongside with this, the new product comes with bilingual terminology extraction from unaligned documents (i.e. mere translations) that is not part of Sketch Engine and a set of improved term grammars for selected languages that have been improved to increase their coverage.
In the talk I will explain the motivation behind OneClick terms, the methodology and NLP techniques used for both mono- and bilingual term extraction and alignment, and finally discuss evidence-based development of the language-specific term grammars used by the system.