Tabela de hyperlinks
Resumo e 1 Introdução
1.1 A plataforma Twincode
1.2 Estudos piloto
1.3 Outras identidades de gênero e 1,4 estrutura do artigo
2 trabalhos relacionados
3 Estudo authentic (sevilha dez, 2021) e 3.1 participantes
3.2 Execução do experimento
3.3 Fatores (variáveis independentes)
3.4 Variáveis de resposta (variáveis dependentes)
3.5 Variáveis confusas
3.6 Análise de dados
4 Primeira replicação (Berkeley maio, 2022)
4.1 participantes
4.2 Execução do experimento
4.3 Análise de dados
5 Discussão e ameaças à validade e 5.1 Operacionalização do construto de causa – tratamento
5.2 Operacionalização da construção do efeito – métricas
5.3 Amostrando a população – participantes
6 conclusões e trabalho futuro
6.1 Replicação em diferentes antecedentes culturais
6.2 Usando chatbots como parceiros e codificação de expressão baseada em IA
Conjuntos de dados, conformidade com padrões éticos, reconhecimentos e referências
A. Itens de resposta do questionário #1 e 2
B. Evolução da interface do usuário do Twincode
C. Interface do usuário de tag-a-chat
5 Discussão e ameaças à validade
Nesta seção, o estudo authentic e sua replicação externa são discutidos. Como as principais preocupações são sobre suas ameaças à validade experimental em relação à operacionalização e amostragem, a discussão é organizada em torno desses tipos de ameaças, especialmente aquelas que não foram discutidas anteriormente na descrição das mudanças de replicação nas seções 4.1 e 4.2.
5.1 Operacionalização do construto de causa – tratamento
A operacionalização do viés de gênero em um tratamento não é uma tarefa trivial e, de acordo com os resultados obtidos, podemos não ter projetado nosso tratamento tão adequadamente quanto pretendemos, ameaçando a validade do construto.
Considerando nosso projeto experimental, dizendo aos sujeitos que eles iriam colaborar com um homem ou uma mulher mais explicitamente poderia ter causado em muitos deles a suspeita de ser observada sobre esse fato, se comportaria de maneira não pure e, provavelmente, tendo mencionado involuntariamente durante as mensagens de bate -papo, descobrindo assim que eles estavam sendo enganados sobre o gênero de seu parceiro e desvalorizando os estudos.
No entanto, embora os avatares silhuetados no experimento authentic (veja a Figura 9 (a)) tenham uma eficácia próxima a 60% (ver Tabela 4), quando foram alterados na replicação do que pensávamos ser mais explicitamente de avatares de gênero (ver Figura 9 (b)), sua eficácia caiu abaixo de 40% (consulte a tabela 6). Além da mudança dos avatares, essa diminuição na eficácia do tratamento poderia ter sido provavelmente afetada por outros fatores, como o cenário remoto, o que aumentou a probabilidade de distrações em comparação com um ambiente controlado, como uma sessão de laboratório, conforme comentado na seção 4.2.2. Outros fatores poderiam ter sido a duração reduzida das tarefas de par e o segundo e o terceiro questionários, como discutido anteriormente na Seção 4.2.3, e o chamado zoom Burnout [49]ou seja, a fadiga e a exaustão causada pelo uso prolongado de plataformas de videoconferência durante a pandemia Covid – 19, que pode ter influenciado a motivação e o desempenho dos alunos da UC Berkeley, que também são expostos a níveis muito altos de estresse [41, 54].
Conforme comentado na Seção 6.2, estamos avaliando o uso de chatbots, juntamente com um projeto dentro dos sujeitos em repetições futuras para melhorar o tratamento e, assim, mitigar essa ameaça para construir validade.
5.2 Operacionalização da construção do efeito – métricas
O principal objetivo do nosso trabalho é explorar os efeitos do viés de gênero na programação de pares remotos. Devido a essa natureza exploratória, aplicamos triangulação metodológica [13]observando o fenômeno do maior número possível de pontos de vista, com uma operacionalização baseada em 45 variáveis de resposta de diferentes tipos que foram medidos durante um tempo de interação razoável.
Dito isto, durante a codificação dos enunciados de bate -papo, alguns dos autores que estão na casa dos cinquenta no momento de escrever este artigo perceberam fortes diferenças em como os assuntos, que são jovens da geração Z [15]Comunique -se em comparação com a maneira como fizemos quando éramos a idade deles. Com toda a devida cautela e levando em consideração o forte ambiente sócio-político na Espanha e nos EUA contra qualquer tipo de discriminação de gênero, achamos que é possível que a presença de viés de gênero em pessoas de nossa geração (geração X) possa ter diminuído duas gerações depois, embora não tenhamos evidências suficientes para afirmá-la. Além disso, se o viés de gênero persistir, é possível que a maioria dos sujeitos autocensora, dificultando assim a detecção de seus efeitos. Para melhorar essa situação, atualmente estamos evoluindo a plataforma Twincode para incluir mais métricas e também estamos considerando a inclusão de pesquisas qualitativas que podem levar a novas descobertas em futuras repetições, ampliando o espectro de informações coletadas.
5.3 Amostrando a população – participantes
5.3.1 Baixa porcentagem de mulheres no estudo authentic
Infelizmente, a pequena proporção de mulheres em estudos STEM é uma questão comum na maioria das instituições de ensino superior [1, 51]. O baixo número de mulheres participantes do estudo authentic foi um obstáculo para estudar se o viés de gênero period principalmente uma característica masculina ou se também estava presente em mulheres de alguma forma. No entanto, a porcentagem de mulheres aumentou substancialmente na primeira replicação sem achados significativos sobre a interação do gênero do sujeito com outros fatores.
5.3.2 tamanho pequeno da amostra na replicação
O pequeno tamanho da amostra na replicação e a baixa eficácia do tratamento supunham uma ameaça clara para a validade da conclusão que só pode ser atenuada, tomando os resultados como provisórios e realizando mais replicações com amostras maiores e projetos experimentais alternativos no futuro.
5.3.3 Usando os alunos como disciplinas
Embora em outros estudos empíricos nos quais os assuntos sejam estudantes de engenharia de software program, as descobertas podem ser razoavelmente generalizadas para uma comunidade mais ampla, porque as tarefas experimentais geralmente não exigem altos níveis de experiência industrial [43]e os alunos, que são a próxima geração de profissionais, estão próximos da população em estudo [19, 34, 45]as diferenças intergeracionais comentadas na Seção 5.2 e a falta de resultados conclusivos dificultam isso em nosso caso.
Autores:
(1) Amador Duran, I3US Institute, Universidad de Sevilla, Sevilla, Espanha e Rating Lab, Universidad de Sevilla, Sevilla, Espanha ([email protected]);
(2) Pablo Fernandez, Instituto I3US, Universidade de Sevilla, Sevilha, Espanha e Rating Lab, Universidad de Sevilla, Sevilla, Espanha ([email protected]);
(3) Beatriz Bernardez, Instituto I3US, Universidade de Sevilla, Sevilha, Espanha e Rating Lab, Universidad de Sevilla, Sevilla, Espanha ([email protected]);
(4) Nathaniel Weinman, Divisão de Ciência da Computação, Universidade da Califórnia, Berkeley, Berkeley, EUA ([email protected]);
(5) Aslıhan Akalın, Divisão de Ciência da Computação, Universidade da Califórnia, Berkeley, Berkeley, EUA ([email protected]);
(6) Armando Fox, Divisão de Ciência da Computação, Universidade da Califórnia, Berkeley, Berkeley, EUA ([email protected]).