Início Tecnologia Uma nova ferramenta de IA cria gráficos de conhecimento tão bem que...

Uma nova ferramenta de IA cria gráficos de conhecimento tão bem que eles podem reconstruir a descoberta científica

8
0

Autores:

(1) Yanpeng Ye, Escola de Ciência e Engenharia da Computação, Universidade de Nova Gales do Sul, Kensington, NSW, Austrália, Greendynamics Pty. Ltd, Kensington, NSW, Austrália e esses autores contribuíram igualmente para este trabalho;

(2) Jie Ren, Greendynamics Pty. Ltd, Kensington, NSW, Austrália, Departamento de Ciência e Engenharia de Materiais, Universidade da Cidade de Hong Kong, Hong Kong, China e esses autores contribuíram igualmente para este trabalho;

(3) Shaozhou Wang, Greendynamics Pty. Ltd, Kensington, NSW, Austrália ([email protected]);

(4) Yuwei Wan, Greendynamics PTY. Ltd, Kensington, NSW, Austrália e Departamento de Linguística e Tradução, Metropolis College of Hong Kong, Hong Kong, China;

(5) Imran Razzak, Escola de Ciência e Engenharia da Computação, Universidade de Nova Gales do Sul, Kensington, NSW, Austrália;

(6) Tong Xie, Greendynamics Pty. Ltd, Kensington, NSW, Austrália e Escola de Engenharia de Energia Fotovoltaica e Renovável, Universidade de Nova Gales do Sul, Kensington, NSW, Austrália ([email protected]);

(7) Wenjie Zhang, Escola de Ciência e Engenharia da Computação, Universidade de Nova Gales do Sul, Kensington, NSW, Austrália ([email protected]).

Neste estudo, introduzimos um novo pipeline de NLP para a KG Development, que visa extrair com eficiência os triplos de textos científicos não estruturados. O principal recurso do método é que ele pode ajustar o LLMS anotando uma pequena quantidade de dados e usar o LLM ajustado para extrair informações estruturadas de uma grande quantidade de texto não estruturado. Todo o processo não depende de nenhuma previsão, que pode maximizar a autenticidade e a rastreabilidade das informações estruturadas. Ao empregar esse método, construímos um gráfico de conhecimento de materials funcional (FMKG) contém os materiais e seu conhecimento relacionado de resumo de 150.000 artigos revisados ​​por pares. Após a análise, demonstramos a eficácia e credibilidade do FMKG.

Além disso, nosso método e kg têm um grande potencial em diferentes dimensões. Em primeiro lugar, melhorar a profundidade da extração de informações estruturadas para abranger trabalhos de pesquisa inteiros promete um gráfico de conhecimento mais rico e detalhado. Isso envolve não apenas a expansão do escopo dos dados analisados, mas também refinando o processo para capturar nuances em textos científicos complexos. Em segundo lugar, os rótulos de refino de entidades em nosso sistema permitem uma categorização mais precisa dos dados, incluindo a incorporação de atributos detalhados, como condições de síntese ou parâmetros da propriedade, o que melhora significativamente a granularidade e a utilidade do gráfico de conhecimento. Em terceiro lugar, a versatilidade de nosso pipeline da NLP sugere sua aplicabilidade em diferentes domínios científicos, oferecendo um modelo para construir gráficos de conhecimento específicos de domínio além da ciência do materials. Por fim, a integração do FMKG com gráficos de conhecimento existentes como o MATKG abre avenidas para criar um conjunto de dados mais interconectado e abrangente, facilitando a pesquisa avançada e o desenvolvimento de aplicativos em ciência e além.

  • Venugopal, V. & Olivetti, E. MATKG: Um gráfico de conhecimento gerado autonomamente em ciências materiais. Sci. Dados 11, 217 (2024).

  • Jain, A. et al. O Projeto de Materiais: uma abordagem do genoma dos materiais para acelerar a inovação de materiais, APL Mater. Materiais APL (2013).

  • Saal, JE, Kirklin, S., Aykol, M., Meredig, B. & Wolverton, C. Projeto de Materiais e Descoberta com Densidade de Densidade de Alta Artigo Teoria Funcional: O Banco de Dados de Materiais Quânticos Abertos (OQMD). Jom 65, 1501-1509 (2013).

  • Draxl, C. & Scheffler, M. O Laboratório Nomad: Do compartilhamento de dados à inteligência synthetic. J. Física: Mater. 2, 036001 (2019).

  • Mrdjenovich, D. et al. Propnet: um gráfico de conhecimento para a ciência dos materiais. Matéria 2, 464-480 (2020).

  • Ji, S., Pan, S., Cambria, E., Marttinen, P. & Yu, PS Uma pesquisa sobre gráficos de conhecimento: representação, aquisição e aplicações. As transações IEEE em redes neurais aprendem. Syst. 33, 494-514 (2022).

  • Zhang, J., Chen, B., Zhang, L., Ke, X. & Ding, H. Raciocínio neural, simbólico e neural-simbólico em gráficos de conhecimento. AI Open 2, 14–35 (2021).

  • Mitchell, T. et al. Aprendizado sem fim. Comun. ACM 61, 103-115 (2018).

  • Zhong, L., Wu, J., Li, Q., Peng, H. & Wu, X. Uma pesquisa abrangente sobre construção automática de gráficos de conhecimento. ACM Comput. Surv. 56 (2023).

  • Pan, S. et al. Unificar grandes modelos de idiomas e gráficos de conhecimento: um roteiro. IEEE Transações no Knowl. Knowledge Eng. 1–20 (2024).

  • Weston, L. et al. Nomeado reconhecimento de entidades e normalização aplicada à extração de informações em larga escala da literatura sobre ciência dos materiais. J. Chem. Inf. Modelo. 59, 3692-3702 (2019).

  • Zhang, X., Liu, X., Li, X. & Pan, D. Mmkg: Uma abordagem para gerar gráfico de conhecimento de materiais metálicos com base em DBpedia e Wikipedia. Computação. Phys. Comun. 211, 98-112 (2017).

  • Nie, Z. et al. Automatando a exploração de materiais com um gráfico de conhecimento semântico para cátodos de bateria de íons de lítio. Adv. Funct. Mater. 32, 2201437 (2022).

  • An, Y. et al. Gráfico de conhecimento Respondendo a Ciência dos Materiais (KGQA4MAT): Desenvolvendo a interface de linguagem pure para estruturas de estruturas-metal-orgânicas (MOF-KG). Arxiv pré -impressão Arxiv: 2309.11361 (2023).

  • Venugopal, V. & Olivetti, E. MATKG-2: Avelando a ontologia precisa da ciência de materiais por meio de comitês autônomos da LLMS. AI para Accel. Mater. Des. – Neurips 2023 Trabalho. (2023).

  • Su, P., Li, G., Wu, C. e Vijay-Shanker, Ok. Usando supervisão distante para aumentar os dados anotados manualmente para extração de relação. PLOS One 14 (2019).

  • Sousa, RT, Silva, S. & Pesquita, C. Representações explicáveis ​​para previsão de relação em gráficos de conhecimento. Arxiv pré -impressão Arxiv: 2306.12687 (2023).

  • Brown, T. et al. Modelos de idiomas são poucos alunos. Adv. Sistemas de Processamento de Informações Neurais 33, 1877-1901 (2020).

  • Touvron, H. et al. LLAMA: Modelos de linguagem de fundação abertos e eficientes. Arxiv pré -impressão arxiv: 2302.13971 (2023).

  • Xie, T. et al. Criação de um conjunto de dados de materials de células solares estruturado e previsão de desempenho usando modelos de idiomas grandes. Padrões (2024).

  • Dagdelen, J. et al. Extração de informações estruturadas do texto científico com grandes modelos de linguagem. Nat. Comun. 15, 1418 (2024).

  • Swain, MC & Cole, JM ChemDataExtractor: Um package de ferramentas para extração automatizada de informações químicas da literatura científica. J. Chem. Inf. Modelo. 56, 1894-1904 (2016).

  • Tshitoyan, V. et al. As incorporações de palavras não supervisionadas capturam o conhecimento latente da literatura sobre ciência dos materiais. Nature 571, 95+ (2019).

  • Xie, T. et al. Série Darwin: modelos de idiomas grandes específicos de domínio para ciências naturais. Arxiv pré -impressão arxiv: 2308.13565 (2023).

  • fonte

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui