用户工具

站点工具


zh:courses:textmining2025:ch01

第一章:绪论

课件

下载:绪论

基于Java的文本分析工具

环境搭建

JDK安装及配置

JAVA_HOME: C:\Program Files\Java\jdk1.8.0_301
CLASSPATH: %JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;
PATH: %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
  • 测试是否安装成功
> java
> javac

Maven安装及配置

  • 下载(apache-maven-<version>-bin.zipapache-maven-<version>-bin.tar.gz):https://maven.apache.org/download.cgi
  • 解压至某个目录,比如:d:\dev\maven
  • 配置环境变量Path,新增d:\dev\maven\bin
  • 验证是否安装成功
> mvn -v
  • Repository路径配置(可选):利用文本编辑器(比如:Sublime Text)打开Maven解压目录里中conf子目录下的settings.xml文件,配置localRepository项,实例如下:
<localRepository>D:/dev/maven/repo</localRepository>

集成开发环境Eclipse安装及配置

  • 配置:Windows–>Preferences–>Maven
    • Installations: Add解压的Maven目录,并打上对勾,点击Apply;
    • User Settings: 在User Settings中选择Browse,选择Maven解压目录里中conf子目录下的settings.xml文件,点击Apply and Close。

测试实例

  • File–>Project–>Maven–>Maven Project,点击Next;
  • 点击Next;
  • 修改Use default Workspace location,或直接点击Next;
  • 选择maven-archetype-quickstart,点击Next;
  • 输入Group Id(例如:cn.edu.bjut),Artifact Id(例如:text-mining)和Package(例如:cn.edu.bjut.chapter1),点击Finish。

POM配置文件

POM.xml
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
 
  <groupId>cn.edu.bjut</groupId>
  <artifactId>text-mining</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>
 
  <name>text-mining</name>
  <url>http://maven.apache.org</url>
 
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>
 
  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
 
    <dependency>
      <groupId>org.apache.opennlp</groupId>
      <artifactId>opennlp-tools</artifactId>
      <version>1.9.3</version>
    </dependency>
  </dependencies>
</project>

实例代码

TokenizerExample.java
package cn.edu.bjut.chapter1;
 
import opennlp.tools.tokenize.SimpleTokenizer;
 
public class TokenizerExample {
	public static void main(String[] args) {
		String text = "Text analysis and text mining are amazing!";
		SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
 
		System.out.println("Tokens:");
		String[] tokens = tokenizer.tokenize(text);
		for (String token : tokens) {
			System.out.println(token);
		}
	}
}

评论

请输入您的评论. 可以使用维基语法:
57 +2 =
 
zh/courses/textmining2025/ch01.txt · 最后更改: 2025/09/09 07:24 由 pzczxs