Profundo

blog

LarLar / blog / Profundo

Oct 09, 2023

Profundo

Volume de Biologia da Comunicação

Biologia das Comunicações volume 6, Número do artigo: 241 (2023) Citar este artigo

1050 Acessos

2 Altmétrica

Detalhes das métricas

Um dos maiores problemas em bioimagem, muitas vezes altamente subestimado, é se as características extraídas para uma tarefa de discriminação ou regressão permanecerão válidas para um conjunto mais amplo de experimentos semelhantes ou na presença de perturbações imprevisíveis durante o processo de aquisição da imagem. Tal questão é ainda mais importante quando é abordada no contexto de recursos de aprendizado profundo devido à falta de relação conhecida a priori entre os descritores de caixa preta (deep features) e as propriedades fenotípicas das entidades biológicas em estudo. Nesse sentido, o uso generalizado de descritores, como os provenientes de Redes Neurais Convolucionais (CNNs) pré-treinadas, é dificultado pelo fato de serem desprovidos de significado físico aparente e fortemente sujeitos a vieses inespecíficos, ou seja, características que não não dependem dos fenótipos celulares, mas sim de artefatos de aquisição, como mudanças de brilho ou textura, mudanças de foco, autofluorescência ou fotobranqueamento. A plataforma de software Deep-Manager proposta oferece a possibilidade de selecionar eficientemente aquelas características com menor sensibilidade a perturbações inespecíficas e, ao mesmo tempo, um alto poder de discriminação. O Deep-Manager pode ser usado no contexto de recursos artesanais e profundos. Os desempenhos sem precedentes do método são comprovados usando cinco estudos de caso diferentes, desde a seleção de recursos de intensidade de proteína de fluorescência verde artesanais na investigação de morte celular de câncer de mama relacionada à quimioterapia até a abordagem de problemas relacionados ao contexto de Deep Transfer Learning. O Deep-Manager, disponível gratuitamente em https://github.com/BEEuniroma2/Deep-Manager, é adequado para uso em muitos campos da bioimagem e foi concebido para ser constantemente atualizado com novas perturbações e modalidades de aquisição de imagem.

A reprodutibilidade é uma grande preocupação na pesquisa biomédica, especialmente quando visa construir bases sólidas para futuras terapias clínicas para melhorar a saúde humana. Os dados biológicos são muitas vezes altamente variáveis, principalmente devido a parâmetros experimentais incontroláveis. Isso é particularmente dramático no caso de aquisições de bioimagem para análise quantitativa. Se as imagens não forem adquiridas no mesmo microscópio, com a mesma configuração, usando a mesma fonte de luz e o mesmo suporte celular, essas imagens não são facilmente comparáveis, a menos que sejam implementados métodos de padronização que, no entanto, podem alterar a dinâmica esperada dos sinais. Esta é uma enorme limitação na aplicação de métodos de ciência computacional à biologia, como as poderosas ferramentas de análise de imagem baseadas em IA.

Nesse sentido, identificar um subconjunto de características de imagem que se relacionem otimamente com uma doença específica ou, de forma mais geral, com um aspecto sob investigação1,2 ainda é uma questão de fronteira, muitas vezes subestimada, especialmente em tarefas de classificação por imagem. O desempenho dos classificadores executados em um subconjunto de recursos artesanais ou de caixa preta geralmente não é escalável e geralmente diminui acentuadamente quando usado em conjuntos de dados diferentes daqueles usados ​​para a construção do classificador, faltando reprodutibilidade e generalização3. A principal razão é que as amostras experimentais disponíveis para a etapa de seleção de características geralmente são escassas ou não tão gerais para cobrir possíveis variações admissíveis, mesmo ocorrendo dentro das mesmas condições biológicas. Na prática, quando os resultados obtidos em um conjunto menor de experimentos são estendidos para uma pletora de casos mais geral e independente, espera-se que o desempenho diminua drasticamente, conforme mostrado na Fig. 1 (esquerda, ramo vermelho). Não importa se no contexto de recursos artesanais ou Deep Transfer Learning (DTL)4,5 (ou seja, descritores provenientes de Convolutional Neural Network (CNN) pré-treinado), é essencial selecionar os recursos que garantem uma validade muito grande sobre heterogêneos experimentos biológicos, com adequada representatividade e generalização dos resultados. Este aspecto tem sido subestimado, principalmente no contexto de feições DTL, onde duas outras questões importantes devem ser abordadas: dimensionalidade das feições (milhares de feições para uma determinada imagem) e redundância (muitas feições são fortemente correlacionadas). A atenção tem sido focada principalmente em como diminuir o número de características a serem extraídas ao invés de como selecionar as mais gerais (ou seja, válidas). A seleção dos descritores mais representativos, tanto artesanais quanto DTL, em imagens biomédicas está longe de ser um processo fácil e altamente sujeito ao risco de que as características não dependam dos fenótipos celulares, mas sim de brilho, artefatos de textura, mudanças de foco , autofluorescência e outros distúrbios imprevisíveis. Para resolver este problema, apresentamos aqui uma plataforma, denominada Deep-Manager (DM) (o ramo azul na Fig. 1), que permite identificar e selecionar praticamente os melhores recursos para uma determinada tarefa de classificação após a extração por funções personalizadas ou após transferência por uma determinada rede DL pré-treinada definida pelo usuário. O termo profundo refere-se explicitamente a recursos profundos, para os quais o problema da seleção eficiente de recursos não foi resolvido e o risco de viés é enorme3. No entanto, como demonstrado neste trabalho, a plataforma também pode funcionar em intensidades artesanais e recursos de textura comumente quantificados em imagens biomédicas. DM pode, portanto, ajudar muito os biólogos em sua prática diária para verificar a validade geral das características selecionadas racionalmente. A plataforma DM identifica os recursos extraídos que representam especificamente as características dos objetos de células/tecidos, descartando as variações macroscópicas não específicas que ocorrem involuntariamente no conjunto de dados de treinamento. Isso é crucial quando o processo de aquisição da imagem é muito complexo e em um limite prático de repetibilidade (por exemplo, a intensidade medida da emissão verde se correlaciona com um evento específico ou simplesmente com fenômenos de autofluorescência? No nível de baixa intensidade, a resposta não é trivial ). Por exemplo, em experimentos biológicos com células vivas6, o processo de aquisição pode ser longo (por exemplo, dias) e as condições de aquisição são difíceis de controlar durante todo o período, tanto ao usar luz de transmissão de contraste de fase quanto lapso de tempo de fluorescência (TM) microscopia7,8. A heterogeneidade intra-experimento das sequências de vídeo, bem como a variação inter-experimento devido a mudanças descontroladas na configuração de aquisição9, também levam a altos riscos de conclusões erradas devido à baixa validade dos recursos extraídos. Esses efeitos induzem a erros no modelo de reconhecimento e a conclusões biológicas ou clínicas enganosas (por exemplo, resposta não verdadeira ao medicamento). Nesse sentido, a plataforma DM permite selecionar com eficiência, entre todas as características extraídas de uma rede neural DTL ou por descritores customizados artesanais, aquelas que apresentam menor sensibilidade a perturbações e, ao mesmo tempo, alto poder de discriminação (Fig. 1 ramo azul). Após a aplicação dos diferentes testes de degradação ao conjunto de dados de treinamento (Fig. 1 expansão à direita), os recursos são caracterizados em termos de poder discriminante (DP) e sensibilidade às degradações (SENS), medidos como a diferença relativa nos valores de DP antes e após a injeção de degradação (ver Métodos para detalhes). Uma abordagem multilimiar é então usada para separar recursos com alto DP e baixo SENS (pontos ciano na Fig. 1 ramificação azul) de outros grupos de recursos (baixo DP e/ou alta sensibilidade, pontos verdes e azuis na Fig. 1 ramo azul). As feições selecionadas podem então ser usadas em uma tarefa de classificação proposta pelo usuário, onde é solicitado o upload de um conjunto de teste independente de imagens rotuladas, o conjunto de dados de teste, para verificar a validade das feições selecionadas avaliando seu DP em um conjunto diferente ( Figura 1).

thSENS (0.1) and SENS = 0.11 > thSENS (0.1) respectively) to perturbations (autofluorescence, photobleaching, saturation). Nevertheless, descriptor g75, still remains significant in terms of t-test analysis (p-value < ***) but presents a sensitivity value SENS larger than the threshold due to an unacceptable worsening in the DP performance after perturbation injection. n = 1293 biologically independent samples have been considered./p>