En esta línea de investigación se pretenden compilar y desarrollar los recursos básicos necesarios para la realización del resto de las tareas del proyecto. Estas pueden ser, por ejemplo:
- Herramientas de obtención de corpus a partir de Internet, tanto monolingües como multilingües, generales o de dominio, comparables o paralelos
- Corpus de todo tipo obtenidos a partir de Internet
- Herramientas de construcción automática de diccionarios por pivotaje
- Herramientas de extracción terminológica tanto de corpus monolingües como multilingües, de paralelos como comparables, mejoradas y con nuevos idiomas
- Diccionarios monolingües o bilingües, generales o terminológicos
- Herramientas para la inclusión de conocimiento semántico en diccionarios
- Herramientas de construcción de ontologías, tanto generales como de dominio, manual o automáticamente
- Ontologías generales y de dominio
- Analizadores de dependencias sintácticas
- Sistemas de identificación de límites de oraciones y sintagmas
- Analizadores semánticos
- Motor de reconocimiento de habla continua
- Reconocedores de habla para euskera e inglés
- Técnicas de evaluación objetiva de sistemas de conversión texto a voz
- Técnicas de transformación de voces
- Técnicas de detección de segmentos de voz
- Técnicas de detección de cambio de turno en conversaciones
- Técnicas de clasificación de locutores
- Sistemas de diálogo
Se desarrollarán también recursos y herramientas no existentes que se consideren fundamentales para el desarrollo de las tecnologías del lenguaje, aunque no sean estrictamente necesarias para el desarrollo del resto de las tareas del proyecto.


