Back to list
arxiv_cs_ai 2026年2月10日

BERT分かち書き学習(と教え方):有機化学の面を

BERT Learns (and Teaches) Chemistry

Translated: 2026/3/7 11:23:45
neurochemistrydata-driven-chemistrygraph-modelingtransformer-bert

Japanese Translation

現代の計算機化有機化学は、ますますデータ駆動型になっています。このようなこの領域で重要な未解決問題があるためです、例えば、反応物がどのような製品を予測するのか、薬物開発と分子合成で最適な評価指標となることを学びたい構造の探索です。しかしながら、これらの問題は最近では機械学习を使用することで対処しようとしています。我々は、テラーニュ型モデル(BERT)をデータ駆動的に反応物のストリング表現のデータセットを使い、機能団体や他の性能に影響を与えている化学構造分子から学習したというアテンションを使用します。それにはさらにそのモデルで学んだ各原子と機能的な団体の表示を用いて、毒性、溶解度、薬物に似た性質、そして合成 accessibility の問題への解決に対し、グラフ構造の分子に対するグラフ コンビューティングやアテンションモデルでの利用、さらにはBERT自体の微調整が必要です。最後に、アテンション可視化を化学専門家と学生が容易に重要性のある機能団体を見つけるためのツールとして提案します。

Original Content

arXiv:2007.16012v1 Announce Type: cross Abstract: Modern computational organic chemistry is becoming increasingly data-driven. There remain a large number of important unsolved problems in this area such as product prediction given reactants, drug discovery, and metric-optimized molecule synthesis, but efforts to solve these problems using machine learning have also increased in recent years. In this work, we propose the use of attention to study functional groups and other property-impacting molecular substructures from a data-driven perspective, using a transformer-based model (BERT) on datasets of string representations of molecules and analyzing the behavior of its attention heads. We then apply the representations of functional groups and atoms learned by the model to tackle problems of toxicity, solubility, drug-likeness, and synthesis accessibility on smaller datasets using the learned representations as features for graph convolution and attention models on the graph structure of molecules, as well as fine-tuning of BERT. Finally, we propose the use of attention visualization as a helpful tool for chemistry practitioners and students to quickly identify important substructures in various chemical properties.