Glossary entry

English term or phrase:

ground truth

Spanish translation:

marco o base real/de referencia (número real/verídico de palabras habladas/pronunciadas)

Added to glossary by abe(L)solano
Mar 25, 2022 19:58
2 yrs ago
34 viewers *
English term

ground truth

English to Spanish Tech/Engineering Computers: Software
WER measures how well the machine has performed in transcribing what speakers said.
The same audio that the machine learning (ML) model has transcribed is given to human labelers to provide a ground truth for the transcription.

Thank you in advance for your help!
Change log

Mar 27, 2022 17:53: abe(L)solano Created KOG entry

Mar 27, 2022 17:54: abe(L)solano changed "Edited KOG entry" from "<a href="/profile/1339205">abe(L)solano's</a> old entry - "ground truth"" to ""marco o base real o verdadero(a) (número real/verdadero de palabras habladas/pronunciadas)""

Mar 27, 2022 17:56: abe(L)solano changed "Edited KOG entry" from "<a href="/profile/1339205">abe(L)solano's</a> old entry - "ground truth"" to ""marco real/de referencia o base real/verdadera (número real/verdadero de palabras habladas/pronunciadas)""

Proposed translations

1 hr
Selected

marco real o verdadero (número real/verdadero de palabras habladas/pronunciadas)

Veo que estás traduciendo el blog de Webex, y pensé que "ground truth" podía ser una alegoría o metáfora pero no, es un concepto sólido (se define como el número real/verdadero de palabras pronunciadas/habladas), ya que después del extracto que has puesto, en el blog se lee:

Word error rate (WER) is calculated by dividing the number of errors by the total number of words. To calculate the WER, start by adding up the substitutions, insertions, and deletions that occur in a sequence of recognized words. Divide that number by the total number of words according to the ground truth. The result is the WER. To put it in a simple formula, Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken.

Busqué un poco pero este es un campo muy especializado. De momento creo que la expresión
marco real o verdadero
puede ayudarte en la traducción de esta parte. En mi encabezado iba a poner "marco real o verdadero" o "dimensión real o verdadera" pero creo que me gusta mucho más "marco real/verdadero".

Fíjate como quedaría tu texto:

1) "... is given to human labelers to provide a ground truth for the transcription."
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco real/verdadero"
2) "Divide that number by the total number of words according to the ground truth. The result is the WER."
"Hay que dividir ese número por el número de palabras total de acuerdo con el marco real/verdadero. El resultado es el WER (tasa/ratio de errores de palabra)".

Te pongo dos refs. especializadas del área donde hablan de la tasa de errores de palabra, un concepto clave aquí (aunque no encontré algo que se pareciera a "ground truth")

https://e-archivo.uc3m.es/bitstream/handle/10016/574/Pelaez ...
Capítulo II. Reconocimiento a partir de voz codificada
La tesis explica el WER de otra forma

https://e-archivo.uc3m.es/bitstream/handle/10016/15597/PFC_D...
Hablan bastante del WER y también dan la fórmula para calcularlo (pág. 41):
De este modo, las inserciones, borrados y sustituciones tienen el mismo
valor en la función que calcula el WER y su cálculo se realiza según la fórmula:
Donde
- S es el número de sustituciones
- B es el total de palabras borradas
- I es el sumatorio de inserciones
- N es el total de palabras que tiene el texto de referencia

En Proz solo encontré esta entrada de 'ground truth' parecida ('datos reales', en medicina). Las demás traducciones de ground truth = "terreno real" se aplican en ingeniería petrolera, topografía, etc. pero creo que "terreno real" no queda bien aquí. Mejor "Marco real".
https://www.proz.com/kudoz/english-to-spanish/medical-genera...

Saludos

--------------------------------------------------
Note added at 1 hora (2022-03-25 21:33:18 GMT)
--------------------------------------------------

Después de ver la respuesta de Jennifer, tal vez otra opción sea
Marco de referencia.
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco de referencia".
""Hay que dividir ese número por el número de palabras total de acuerdo con el marco de referencia."

Aunque de empírico en mi opinión no tiene nada, son cifras/números concretos de palabras.
Something went wrong...
4 KudoZ points awarded for this answer.
1 hr

referente empírico

In this context a 'ground truth' is a quality reference which is derived empirically from the observations of qualified human beings. Transcriptions produced by AI/ML systems are, in contrast, essentially statistical.

"As adjectives the difference between empirical and statistical. is that empirical is pertaining to or based on experience while statistical is of or pertaining to statistics."
https://wikidiff.com/statistical/empirical#:~:text=As adject...

"Referentes empíricos son los datos o aspectos de la realidad (fenómenos) que se observan y se analizan en la búsqueda de la verdad. Las evidencias son datos empíricos que se captan por medio de los sentidos."
http://crecea.uag.mx/investiga/doctos/referente.pdf

Something went wrong...
+1
2 hrs

base fiable/verdadera/real; transcripción verídica

opciones que reflejan con claridad el proceso

Una transcripción (o un punto) de partida que resulta creíble

De nuevo borrador tb
Peer comment(s):

agree Louis Ladebauche : Los audios de ML pasan a los labelers o a los reviewers para que compruebe y confirmen que está correcto.
12 hrs
Something went wrong...
Term search
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search